1、重磅揭秘:RAG系统的检索机制真的需要那么"完美"吗?在人工智能领域,RAG(检索增强生成)技术正在成为解决大语言模型局限性的关键方案。但是,一个有趣的问题出现了:RAG系统中的检索部分,真的需要追求100%的准确性吗?最近,一项研究给出了令人意外的答案。这项研究首次深入探讨了RAG系统中检索器和阅读器两大组件的关系。研究团队通过大量实验发现,即使降低检索准确度,对最终的问答效果影响也相对较小。换句话说,我们...
一、背景最近在看腾讯最新混元大模型的Paper时([2411.02265]HunyuanLarge:AnOpenSourceMoEModelwith52BillionActivatedParametersbyTencent[1]),看到了如下关于计算Budget的公式由于我们的工作中也会经常根据计算资源Budget评估LLM预训练时间,而该公式与我们平常的计算方式不太一致;此外,如下图所示,我们也看到很多文章中将上述公式中的第二项理解为长序列情况下Attention的额外计算开销,而将6ND>9.6ND看成Router引入的...
2024-11-14 15:09:38 354浏览 0点赞 0回复 0收藏
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:LoRA或许暗藏玄机数字也会骗人?GPT4都会说9.11>9.9,人工智能的"数学残障"有救了吗?1、LoRA或许暗藏玄机近期,一项重磅研究揭示了AI训练中广受欢迎的LoRA方法可能存在隐患。虽然LoRA能让模型训练时节省90%以上的显存,在目标任务上表现堪比完整微调,但研究人员发现这种"看似完美"的方法背后,或许并不如表面那么美好。研究...
2024-11-14 14:52:12 174浏览 0点赞 0回复 0收藏
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:1、LLM的"数数"能力有多弱?一个意想不到的"罪魁祸首"2、专家模型的潜在隐患:用户提示被窃取的背后1、LLM的"数数"能力有多弱?一个意想不到的"罪魁祸首"你相信大型语言模型(LLM)连简单的"数数"都可能做不好吗?近期一篇震惊学术界的论文揭示了这个令人惊讶的事实:即便是号称"无所不能"的AI模型,在面对基础计数任务时也可...
2024-11-01 15:33:01 206浏览 0点赞 0回复 0收藏
1、327个样本打破常规,这个"OpenAIo1复制之旅"有点燃人工智能领域最近又掀起一阵波澜——OpenAI发布了令人瞩目的O1模型。然而,这个模型的具体细节却如同蒙着面纱一般神秘。面对这种情况,一群研究者决定开启了一场别开生面的"O1复制之旅",试图揭开这层面纱。最引人注目的是,研究团队提出了一个创新的"journeylearning(旅程学习)"范式。与传统的"死记硬背"式学习不同,这种方法让模型不仅要学会解决问题,还要学习整个探索...
2024-10-29 11:44:23 333浏览 0点赞 0回复 0收藏
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:1、大模型要"断粮"了?最新综述揭示AI数据困境与突围之道2、IBM重磅发布Granite3.0:8B参数秒杀同级别大模型,还能随便商用!3、全球首个39语言多模态大模型开源,告别"英语霸权"1、大模型要"断粮"了?最新综述揭示AI数据困境与突围之道人工智能领域有一个有趣的悖论:模型越来越大,但优质数据的增长速度却远远跟不上。就像一...
2024-10-23 13:34:05 282浏览 0点赞 0回复 0收藏
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:1、如何让LLM学会"试错"2、LLM竟然学会了"自我反省",它真的有自我意识吗?1、如何让LLM学会"试错"你有没有想过,为什么人工智能经常会犯"愚蠢"的错误?原因可能让你意外:因为我们一直在教它"做一个完美主义者"!最新研究表明,让AI学会"试错",反而能让它变得更聪明。想象一下,如果从小到大,你只被允许看到正确答案,从来...
2024-10-21 12:41:43 409浏览 0点赞 0回复 0收藏
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:1、AI界的"小而美":MistralAI的最新力作如何重新定义边缘计算2、多智能体协作让大语言模型训练效率暴增1、AI界的"小而美":MistralAI的最新力作如何重新定义边缘计算在人工智能飞速发展的今天,一个令人振奋的消息从MistralAI传来。就在Mistral7B模型发布一周年之际,这家创新公司再次为我们带来了惊喜:Ministral3B和Ministr...
2024-10-17 15:41:00 342浏览 0点赞 0回复 0收藏
1、AI模型升级有妙招!"废物利用"让大语言模型更强大想象一下,如果能把你的旧手机变成最新的智能设备,是不是很酷?在AI领域,研究人员就实现了类似的"魔法"!他们提出了一种叫做"upcycling"的方法,可以将现有的大语言模型(LLM)升级成更强大的"专家混合模型"(MoE)。这项技术不仅能提高模型性能,还能大幅节省训练成本和时间。那么,这种"升级魔法"是如何实现的呢?研究团队进行了大量实验,探索了各种升级技巧和参数设置...
2024-10-14 14:58:35 404浏览 0点赞 0回复 0收藏
1、LLM训练的隐秘危机:1%的合成数据或致模型崩溃在LLM快速发展的今天,一个令人担忧的现象正悄然出现——模型崩溃。研究发现,即便在训练数据中仅包含1%的合成数据,也可能导致LLM模型性能严重下降,无论如何增加训练数据量都无法提升效果。更令人意外的是,增加模型规模这一当前广泛采用的方法,非但不能缓解问题,反而可能加剧模型崩溃。研究团队通过理论分析和实验证明,在某些情况下,更大的模型可能会放大这种崩溃效应。...
2024-10-14 14:56:01 329浏览 0点赞 0回复 0收藏
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:Aria:第一个多模态(文本代码图像视频)MoEPixtral12B:开源多模态AI的新标杆AI教学新突破:DataEnvGym让模型自我进化1、Aria:第一个多模态(文本代码图像视频)MoE论文标题:Aria:AnOpenMultimodalNativeMixtureofExpertsModel论文链接:https:arxiv.orgabs2410.05993在人工智能领域,一个重大突破悄然发生。名为ARIA的开源模...
2024-10-11 14:14:20 373浏览 0点赞 0回复 0收藏
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:1、AI助手TutorCoPilot:让每个教师都能成为优秀导师2、Mamba模型:医学影像分析的新纪元1、AI助手TutorCoPilot:让每个教师都能成为优秀导师论文标题:TutorCoPilot:AHumanAIApproachforScalingRealTimeExpertise论文链接:https:arxiv.orgabs2410.03017人工智能正在深刻改变教育领域,而TutorCoPilot的出现无疑是一...
2024-10-08 15:56:42 342浏览 0点赞 0回复 0收藏
亲爱的读者,感谢您阅读到这里。正如我们探讨的语言模型一样,每个人都有自己的潜力和价值。认清自己,要么接受平凡,要么踏踏实实从0到1去积累资源。这世上从来没有简单的、一蹴而就的成功。无论是AI的发展还是个人的成长,都需要持续不断的努力和积累。如果您也对科技、人工智能和个人发展感兴趣,欢迎关注我们的微信公众号"AI帝国"。在这里,我们将为您揭示AI世界的帝国格局,带来最前沿的技术洞察和行业趋势,助您在这个AI...
2024-09-30 15:09:51 770浏览 0点赞 0回复 0收藏
Meta最新发布的Llama3.2不仅能"看",还能在你的手机上运行。这次更新带来了多模态支持的LlamaVision和专为设备端优化的"tiny"模型,共推出10个新模型,规模从1B纯文本到90B多模态(文本+图像)不等。Llama3.2的核心亮点:1.Llama3.2Vision:推出11B和90B两种规模的多模态模型,支持文本+图像输入并生成文本输出。这些模型基于Llama3.1文本模型,通过6B图像文本对训练而成。2.Llama3.2Edge:专为高效本地部署设计的1B和3B多语言...
2024-09-26 15:57:50 590浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:ArcticSnowCoder:DemystifyingHighQualityDatainCodePretraining论文链接:https:arxiv.orgpdf2409.02326高质量数据对于语言模型的有效预训练至关重要。然而,“高质量”的精确定义仍未得到充分探索。聚焦于代码领域,论文引入了ArcticSnowCoder1.3B,这是一个数据高效的基础代码模型,通过三个阶段的逐步精炼数据进行预训练,共处理了555Btoken:(1)使用500B个标准质量代码token进行通用预...
2024-09-19 12:48:29 643浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:InDefenseofRAGintheEraofLongContextLanguageModels论文链接:https:arxiv.orgpdf2409.01666克服早期生成式大型语言模型(LLMs)的有限上下文限制,检索增强生成(RAG)在过去一直是基于上下文的答案生成的可靠解决方案。最近,长上下文LLMs的出现使得模型能够整合更长的文本序列,使得RAG变得不那么吸引人。最近的研究表明,长上下文LLMs在长上下文应用中显著优于RAG。与现有倾向于长上下...
2024-09-14 13:15:18 467浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:MemLong:MemoryAugmentedRetrievalforLongTextModeling论文链接:https:arxiv.orgpdf2408.16967LLMs在各个领域的最新进展取得了显著的成功。然而,由于注意力机制的二次时间和空间复杂性以及生成过程中键值缓存的内存消耗不断增加,处理长上下文仍然是LLMs的一个重大挑战。论文提出了MemLong,一种高效且轻量化的方法,用于扩展大型语言模型(LLMs)的上下文窗口。其核心思想是将过去的上下文和知...
2024-09-12 11:21:36 455浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:xLAM:AFamilyofLargeActionModelstoEmpowerAIAgentSystems论文链接:https:arxiv.orgpdf2409.03215Models:https:huggingface.cocollectionsSalesforcexlammodels65f00e2a0a63bbcd1c2dade4GitHub:https:github.comSalesforceAIResearchxLAM介绍了xLAM系列,这是一组用于自主AIagent的大型动作模型。论文的模型参数范围从1B到8x22B,通过一个可扩展且灵活的数据管道进行训练,...
2024-09-10 12:27:59 493浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:OLMoE:OpenMixtureofExpertsLanguageModels论文链接:https:arxiv.orgpdf2409.02060Weights:https:hf.coallenaiOLMoE1B7B0924Data:https:hf.codatasetsallenaiOLMoEmix0924Code:https:github.comallenaiOLMoELogs:https:wandb.aiai2llmolmoereportsOLMoE1B7B0924Vmlldzo4OTcyMjU3论文开源了OLMoE1B7B和OLMoE1B7BINSTRUCT,包括模型、数据、代码和日志。...
2024-09-09 00:47:57 517浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:Smaller,Weaker,YetBetter:TrainingLLMReasonersviaComputeOptimalSampling论文链接:https:arxiv.orgpdf2408.16737利用来自强大语言模型(LMs)的高质量合成数据进行训练是提升LMs推理性能的常见策略。论文重新审视了在固定推理预算(例如,FLOPs)下,这一策略是否为计算最优。为此,论文探究了使用更强但更昂贵(SE)模型与较弱但更廉价(WC)模型生成合成数据之间的权衡。论文评估了生成...
2024-09-05 14:34:57 514浏览 0点赞 0回复 0收藏