百度发布文心iRAG技术,大模型终于知道如何去掉“AI味儿”了

原创

AIGC_Studio 2024-11-28 15:55:18 博主文章分类：深度学习 ©著作权

文章标签 百度人工智能 AIGC 图像生成深度学习 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者AIGC_Studio的原创作品，请联系作者获取转载授权，否则将追究法律责任

11月12日，李彦宏在百度世界2024大会上，发表了主题为《应用来了》的演讲，发布两大赋能应用的AI技术：检索增强的文生图技术（iRAG）和无代码工具“秒哒”。文心iRAG用于解决大模型在图片生成上的幻觉问题，极大提升实用性；无代码技术“秒哒”让每个人都拥有程序员的能力，将打造数百万“超级有用”的应用。

今天给大家介绍一下iRAG相关的技术。目前，基于大语言模型的文生图还有比较严重的幻觉，极大地影响了AI的实用性。针对上述问题，百度开发了检索增强的文生图技术iRAG（image based RAG），将百度搜索的亿级图片资源跟强大的基础模型能力相结合，可以生成各种超真实的图片。一起来看网友生成的例子：

什么是RAG？

讲iRAG之前，我们先看看什么是RAG？

两年前ChatGPT横空出世，尽管其能力已经足够让人惊艳，但“一本正经地胡说八道”仍然时有出现。这种现象被称为“幻觉”，如果不能把“幻觉”出现的概率降到足够低，大模型就无法真正从[好用]变成[有用]。

所以行业为了解决幻觉问题，通用的解决方案是增加RAG（Retrieval-Augmented Generation，检索增强生成）。RAG的基本思想是通过从外部知识库中检索相关信息，并将这些信息作为额外的上下文提供给语言模型，从而增强模型生成文本的能力。

百度发布文心iRAG技术,大模型终于知道如何去掉“AI味儿”了_AIGC

RAG的工作流程通常包括以下几个步骤：

检索：当用户提出一个问题或请求时，RAG首先从一个预先构建的知识库中检索相关信息。这个知识库可以是结构化的数据库、非结构化的文档集合或其他形式的数据源。检索过程通常使用向量搜索技术，如FAISS或Milvus，将文本转化为向量，并在向量空间中找到最相似的条目。
增强：检索到的信息会被整合到一个上下文模板中，这个模板通常包含用户的原始查询。这样，检索到的信息就成为了生成模型的一部分输入，增强了模型对问题的理解和回答能力。
生成：最后，增强后的上下文被输入到大语言模型中，模型根据这些信息生成最终的响应。生成的响应不仅基于模型自身的知识，还结合了检索到的外部信息，从而更加准确和丰富。

iRAG为什么很重要？

了解了RAG，那么iRAG（image based RAG）就可以理解是大模型在图像领域的RAG。

回顾过去两年，不管是AI搜索还是AI客服，本质都是检索增强生成（RAG）的延伸，目前在文字层面的RAG已经做得很好，基本让大模型消除了幻觉；但在图像等多模态方面，和RAG的结合还不够。

各种基于大语言模型的文生图还有比较严重的幻觉，尤其是针对现实生活中特定地点、物品和人物的描述和绘画，常常会出现张冠李戴的幻觉问题，让生成的图片“一眼假”，极大地影响了AI的实用性。

iRAG技术提高了AI生成图片的可用性。简单而言，文心iRAG的商业价值体现在：无幻觉、超真实、没成本，立等可取。此外，在影视作品、漫画作品、连续画本、海报制作等应用场景中，iRAG都可以大幅降低创作成本。

生成效果

百度发布文心iRAG技术,大模型终于知道如何去掉“AI味儿”了_图像生成_02

百度发布文心iRAG技术,大模型终于知道如何去掉“AI味儿”了_AIGC_03

写在最后

iRAG技术的推出不仅是技术层面的进步，更是对应用场景理解的深化。借助海量的数据和精细的算法，百度正在引领AI图像生成领域的新时代，推动整个行业迈向更高的标准。这一进展为自媒体创作者、艺术家及各类视觉表达需求者提供了丰富的创作工具，将AI带入了更广泛的应用场景。

上一篇：开源音乐分离器Audio Decomposition：可实现盲源音频分离，无需外部乐器分离库，从头开始制作。将音乐转换为五线谱的程序

下一篇：中科大提出StableV2V:专注于「人机交互一致性」的视频编辑方法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯