11月12日,李彦宏在百度世界2024大会上,发表了主题为《应用来了》的演讲,发布两大赋能应用的AI技术:检索增强的文生图技术(iRAG)和无代码工具“秒哒”。文心iRAG用于解决大模型在图片生成上的幻觉问题,极大提升实用性;无代码技术“秒哒”让每个人都拥有程序员的能力,将打造数百万“超级有用”的应用。
今天给大家介绍一下iRAG相关的技术。目前,基于大语言模型的文生图还有比较严重的幻觉,极大地影响了AI的实用性。针对上述问题,百度开发了检索增强的文生图技术iRAG(image based RAG),将百度搜索的亿级图片资源跟强大的基础模型能力相结合,可以生成各种超真实的图片。 一起来看网友生成的例子:
什么是RAG?
讲iRAG之前,我们先看看什么是RAG?
两年前ChatGPT横空出世,尽管其能力已经足够让人惊艳,但“一本正经地胡说八道”仍然时有出现。这种现象被称为“幻觉”,如果不能把“幻觉”出现的概率降到足够低,大模型就无法真正从[好用]变成[有用]。
所以行业为了解决幻觉问题,通用的解决方案是增加RAG(Retrieval-Augmented Generation,检索增强生成)。RAG的基本思想是通过从外部知识库中检索相关信息,并将这些信息作为额外的上下文提供给语言模型,从而增强模型生成文本的能力。
RAG的工作流程通常包括以下几个步骤:
- 检索:当用户提出一个问题或请求时,RAG首先从一个预先构建的知识库中检索相关信息。这个知识库可以是结构化的数据库、非结构化的文档集合或其他形式的数据源。检索过程通常使用向量搜索技术,如FAISS或Milvus,将文本转化为向量,并在向量空间中找到最相似的条目。
- 增强:检索到的信息会被整合到一个上下文模板中,这个模板通常包含用户的原始查询。这样,检索到的信息就成为了生成模型的一部分输入,增强了模型对问题的理解和回答能力。
- 生成:最后,增强后的上下文被输入到大语言模型中,模型根据这些信息生成最终的响应。生成的响应不仅基于模型自身的知识,还结合了检索到的外部信息,从而更加准确和丰富。
iRAG为什么很重要?
了解了RAG,那么iRAG(image based RAG)就可以理解是大模型在图像领域的RAG。
回顾过去两年,不管是AI搜索还是AI客服,本质都是检索增强生成(RAG)的延伸,目前在文字层面的RAG已经做得很好,基本让大模型消除了幻觉;但在图像等多模态方面,和RAG的结合还不够。
各种基于大语言模型的文生图还有比较严重的幻觉,尤其是针对现实生活中特定地点、物品和人物的描述和绘画,常常会出现张冠李戴的幻觉问题,让生成的图片“一眼假”,极大地影响了AI的实用性。
iRAG技术提高了AI生成图片的可用性。简单而言,文心iRAG的商业价值体现在:无幻觉、超真实、没成本,立等可取。此外,在影视作品、漫画作品、连续画本、海报制作等应用场景中,iRAG都可以大幅降低创作成本。
生成效果
写在最后
iRAG技术的推出不仅是技术层面的进步,更是对应用场景理解的深化。借助海量的数据和精细的算法,百度正在引领AI图像生成领域的新时代,推动整个行业迈向更高的标准。这一进展为自媒体创作者、艺术家及各类视觉表达需求者提供了丰富的创作工具,将AI带入了更广泛的应用场景。