1. Byte Latent Transformer: Patches Scale Better Than Tokens
我们提出了一种名为Byte Latent Transformer(BLT)的新架构,这是一种基于字节级别的大语言模型(LLM),它首次在大规模应用中达到了与基于分词的LLM相当的性能水平,同时显著提升了推理效率和模型的稳健性。BLT采用动态大小的块来编码字节,这些块作为主要的计算单位。根据下一个字节的熵值对块进行分割,确保在数据复杂度较高的地方分配更多的计算资源和模型容量。
我们进行了首个针对字节级别模型的FLOP可控扩展研究,涉及最多80亿参数和4万亿个训练字节。研究表明,即使没有固定词汇表,直接基于原始字节训练模型也是可行的。通过在数据可预测时动态选择较长的块,BLT不仅提高了训练和推理效率,还在推理能力和长尾泛化方面展现了显著的改进。总体来说,在相同推理成本条件下,BLT通过同时扩大块大小和模型规模,表现出比基于分词的模型更为出色的扩展性能。
论文:https://arxiv.org/pdf/2412.09871
2. RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation
大语言模型(LLMs)展现了卓越的生成能力,但经常出现幻觉问题。检索增强生成(RAG)通过引入外部知识提供了一种有效的解决方案,不过现有的方法仍存在几个局限性:独立检索器增加了额外的部署成本、检索文本片段带来了冗余的输入标记,以及检索和生成过程缺乏联合优化。
为解决这些挑战,我们提出了一种名为RetroLLM的新框架,它将检索与生成融合为一个统一且连贯的过程,使得LLMs可以直接从语料库中生成细粒度证据,并采用约束解码技术。为了减少约束证据生成过程中的错误剪枝,我们引入了两个创新机制:
层次化FM-Index约束:在生成证据前,利用语料库约束的线索来识别相关的文档子集,从而缩小无关解码空间。
预见性约束解码策略:考虑未来序列的相关性,以提升证据生成的准确性。 我们在五个开放域问答数据集上进行了广泛实验,结果表明RetroLLM在领域内外的任务中均表现出色。项目代码已在GitHub上开源,欢迎访问https://github.com/sunnynexus/RetroLLM了解更多详情。
论文:https://arxiv.org/pdf/2412.11919
3. ColorFlow: Retrieval-Augmented Image Sequence Colorization
自动黑白图像序列上色并保持角色和物体身份的一致性是一个复杂且市场需求旺盛的任务,尤其在卡通或漫画系列的上色方面。尽管使用大规模生成模型(例如扩散模型)在视觉上色方面已取得显著进步,但在控制性和身份一致性方面仍面临挑战,这使得当前解决方案难以满足工业应用的需求。
为解决这一问题,我们提出了ColorFlow——一种专门为图像序列上色设计的三阶段扩散模型框架。不同于现有的方法,后者通常需要对每个ID进行单独微调或显式提取ID嵌入,我们引入了一种新的检索增强上色pipeline(Retrieval Augmented Colorization pipeline),该pipeline可以根据相关的颜色参考自动对图像进行上色。我们的pipeline采用了双分支设计:一个分支负责提取颜色身份,另一个分支负责执行上色任务,充分利用了扩散模型的优点。通过利用扩散模型中的自注意力机制,我们实现了强大的上下文学习能力和颜色身份匹配。
为了评估我们的模型性能,我们创建了ColorFlow-Bench,这是一个专门针对基于参考的上色任务的综合基准测试平台。实验结果表明,ColorFlow在多个评价指标上均优于现有模型,为顺序图像上色设立了新的行业标准,并有望推动艺术行业的进步。
论文:https://arxiv.org/pdf/2412.11815
4. BrushEdit: All-In-One Image Inpainting and Editing
图像编辑技术随着扩散模型的发展,特别是在基于反转和基于指令的方法上的应用,已经取得了显著的进步。然而,现有的反转方法在进行大规模修改(如添加或删除物体)时遇到了困难,因为反转噪声的结构性特性限制了重大改动的能力。与此同时,基于指令的方法通常让用户局限于黑箱操作,限制了用户直接指定编辑区域和强度的灵活性。
为了解决这些问题,我们提出了BrushEdit——一种新的基于修复的、指令引导的图像编辑范式。BrushEdit利用多模态大语言模型(MLLMs)和图像修复模型,提供了一种自主、用户友好且高度互动的自由形式指令编辑体验。具体而言,我们开发了一个系统,该系统在一个代理协作框架内整合了MLLMs和一个双分支图像修复模型,以执行编辑类别分类、主要对象识别、掩码获取及编辑区域的修复,从而支持自由形式的指令编辑。
广泛的实验显示,我们的框架成功地将MLLMs与修复模型相结合,在包括掩码区域保持和编辑效果连贯性等七个评估指标上均表现出优越性能。
论文:https://arxiv.org/pdf/2412.10316