#Transformer作者回流谷歌
Character.AI创始团队被「收购」,只要人不要公司
AI 初创者的归宿还是大厂?
一觉醒来,生成式 AI 的「吃鸡大赛」再次缩圈了。
初创公司 Character.AI 周五宣布已与谷歌签署协议,谷歌将获得 Character.AI 的大型语言模型(LLM)技术的非独家许可。
谷歌还宣布重新雇佣 Noam Shazeer 和 Daniel De Freitas。其中,Noam Shazeer 是 Character.AI 的创始人、CEO,也是 Transformer 论文作者之一,他曾在谷歌任首席软件工程师。而 Daniel De Freitas 是 Character.AI 的总裁,曾在谷歌担任高级软件工程师。
Daniel de Freitas(左)和 Noam Shazeer。图源:https://www.bizjournals.com/sanjose/inno/stories/news/2023/03/24/q-a-interview-with-characterai-founders.html
2021 年,Noam Shazeer 和 Daniel De Freitas 因对谷歌这家搜索巨头的官僚主义感到失望而离开谷歌,并在 2022 年创办了 Character.AI。而现在,他们又将与约 30 人的研究团队一起回到 Google DeepMind 工作。
谷歌发言人在一封电子邮件中表示:「我们特别高兴地欢迎 Noam 回来,他是机器学习领域的杰出研究员。」
Character.AI 剩余的大约 140 名员工将留下来,面临着下一步抉择。Character.AI 官方发布了一份公开信,内容如下:
2022 年,我们创立了 Character.AI,旨在为全球用户带来个性化的超级智能。在过去的两年里,我们在这一目标上取得了巨大进展。我们构建了越来越智能的模型,推出了与虚拟角色对话的沉浸式新功能,并迅速发展到服务数百万用户,成为他们日常生活的一部分。
当 Noam 和 Daniel 创办 Character.AI 时,我们实现个性化超级智能的目标需要全栈式方法。我们必须对模型进行预训练和后训练,以保证用户在 Character.AI 上能够获得独特的体验,并构建一个能够使全球用户共同使用的平台。然而,在过去的两年里,技术环境发生了变化 —— 现在有更多的预训练模型可用。鉴于这些变化,我们认为联合利用第三方大型语言模型(LLM)和我们自己的模型将具有优势。这使我们能够投入更多资源用于后训练和为不断增长的用户群体创造新的产品体验。
我们很高兴地宣布,我们已与谷歌达成协议,这将使我们能够加速进步。根据该协议,Character.AI 将为谷歌提供现有 LLM 技术的非独家许可。这项协议将为 Character.AI 提供更多资金,以继续增长,并专注于为全球用户构建个性化 AI 产品。
Noam、Daniel 和我们研究团队的部分成员也将加入谷歌。Character.AI 的大多数才华横溢的团队成员将继续留在公司,继续构建 Character.AI 产品并服务于我们不断增长的用户群。
Character.AI 的总法律顾问 Dominic Perella 已担任临时首席执行官一职。Perella 之前是 Snap Inc. 的长期高管,自 2023 年中期以来一直是 Character.AI 核心领导团队的一员。这些变动将立即生效。
在我们进入下一个增长阶段时,我们将继续投资于我们的后训练能力,灵活使用我们自己的或外部可用的大语言模型。我们对 Character.AI 的未来充满期待,并致力于通过创新型产品来服务我们的用户。
我们对 Noam、Daniel 和其他团队使 Character.AI 从梦想化为现实表示无比感激。我们期待在他们已有贡献的基础上,Character.AI 在下一个增长阶段继续航行。
虽然在技术层面上,公司的股份没有易手,但谷歌会以 25 亿美元的估值向 Character.AI 的投资者支付其股权价值。
据消息人士透露,Character.AI 的员工也将根据其已归属的股份按该估值获得现金,并且随着其现有股票转移归属,他们还将获得偿付。
Character.AI 此前从包括 Andreessen Horowitz 在内的投资者处筹集了 1.93 亿美元的风险资本,其最后一次已知估值为 10 亿美元。该公司也曾在谈判中表示希望从谷歌筹集数亿美元资金。
这一协议类似于微软、亚马逊等公司在过去几个月与初创公司达成的协议。这些协议正受到监管机构的审查。科技巨头正投入数十亿美元来增强其 AI 基础设施,并从初创公司中招聘最优秀的研究人员。
今年 3 月,微软支付 6.5 亿美元引入 AI 初创公司 Inflection 的联合创始人及数十名员工。前 Inflection 首席执行官 Mustafa Suleyman,已成为微软执行副总裁和新成立的微软 AI 组织的首席执行官。
前 Inflection 首席执行官 Mustafa Suleyman。
与之相似,6 月,亚马逊则从另一家 AI 初创公司 Adept 中招聘了多名联合创始人和员工。
这场从 AI 初创公司招募人才以扩展羽翼,为业务再开发赋能的战略部署已初见端倪。大型科技企业对 AI 初创公司的「蚕食」可能才刚刚开始。
参考链接:
https://www.theverge.com/2024/8/2/24212348/google-hires-character-ai-noam-shazeer
https://blog.character.ai/our-next-phase-of-growth/
#Meta朱泽园揭秘大模型内心世界
不同于人类的2级推理
大语言模型 (LLM) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能的发展产生帮助?LLM 为什么会犯推理错误?多大多深的 LLM 才能做推理?
论文地址:https://arxiv.org/abs/2407.20311
近日,来自 Meta FAIR、CMU 和 MBZUAI 的叶添、徐子诚、李远志、朱泽园四人团队最新公布 arXiv 论文《语言模型物理学 Part 2.1:小学数学与隐藏的推理过程》用可控实验,巧妙地回答上述问题。推特网友 @xlr8harder 评价,「这一结果将一劳永逸地平息关于 LLM 是否具有推理能力,或者只是随机鹦鹉的争论。」
编者注:《语言模型物理学》全系列受邀于 7 月 22 日在 ICML 2024 国际机器学习顶级大会上进行了两小时的专题报告,反响热烈,据悉现场掌声不断。这里为大家呈现系列中的 Part 2.1。
图 1
论文详解
首先,根据本系列的惯例,作者认为不应通过与 GPT-4 等大模型对话来猜测其思维方式,这类似于动物行为学,虽可行但不够严谨,无法科学地揭示 GPT-4 的内心思考过程。
此外,从数据角度看,只有完全访问模型的预训练集(pretrain data),才能明确哪些题目是模型见过的,哪些是通过推理学会的。即使模型在 GSM8k(包含 8000 道小学数学题的基准测试集)上获得高分,也难以判断它是否见过这些题目的变体(如不同语言或 GPT-4 改写后的变体)。
为此,作者创建了 iGSM,一个人工合成的、模拟小学数学级别的思维题集,并让模型从零开始在 iGSM 上预训练,以控制模型接触的问题类别。值得注意的是,iGSM 不包含常识信息,只包含 mod 23 范围内的加减乘,并且所有计算都使用 CoT 逐步进行。通过 iGSM,可进行可控实验,专门研究模型的推理能力,而忽略了其他因素(如大整数运算)。图 2 展示了一个简单的例题。
图 2
通过这个数据集,作者首先测试了 GPT2(RoPE 版)的表现。用 op 代表解题所需的数学运算步数,作者发现,当在 op≤21 的题目上进行训练时,模型不仅能达到 99% 正确率,还能在更高难度的题目(如 op=32)上保持 83% 的正确率(见图 3)。这表明模型学会了某种推理技能,毕竟它从未见过 op>21 的题。(顺带一提,GPT-4o 在该数据集上仅能应对 op=10 的题目,超过这个难度就如同盲猜,文末我们会讨论这个问题。)
那模型究竟学会了怎样的推理技能呢?解决 iGSM 的数学题至少有两种思路。一种是作者称为「0 级推理」,即「暴力计算能算则算」。由于题目中的变量可能存在复杂的依赖关系,有些可以直接计算,有些则需要先算出其他变量 —— 譬如小张比小王多 3 倍的水果,那么就要先算出小王有多少苹果、梨子并求和,才可以开始计算小张的水果数。「0 级推理」就是尽可能枚举所有变量,每次随机找到一个可计算的变量,算出结果并继续。
与之对应的是「1 级推理」:通过拓扑排序,从问题开始反推,确定哪些变量需要计算,然后从叶子节点开始向上计算,力求「最短解答」。常见的数学题解通常采用 1 级推理,不会去计算「不必要的变量」。例如小张比小王多 3 倍的水果,问小张有多少水果,那小李的苹果数就是不必要的变量,而小王的苹果、梨子数都是必要的。
如图 3 所示,作者发现,GPT-2 可以学会 1 级推理,几乎每次都给出最短解答。这非常不简单!因为在模型生成第一句话之前,必须已经在脑海中完成了整个拓扑排序 —— 否则它怎么知道哪个变量是不必要的?如果模型一开始就生成了「小李的苹果有 7 个」,那就无法回头,得不到最短解答。
图 3
那么,模型是如何学会「1 级推理」的?为此,作者对模型的内部参数进行了探针 probing 研究(见图 4)。结论显示(具体探针方法详见论文),在模型生成第一句话之前,它已经通过心算确定了哪些变量 A 是「必要的」(nece (A)=True)。同时,模型在说每句话之后,也心算出了接下来所有「可计算的」的变量 A(cannext (A)=True)。因此,模型只需对 nece 和 cannext 不断进行逻辑与(AND)运算,就能从叶子节点开始,一步步给出完整的计算过程。
值得注意的是,这些复杂的心算能力并没有显现在训练集中。模型只接触过 iGSM 数据,只见过「语言」部分(题目和答案),但它却自主学会了类似人类的思维过程(mental process),并得出了最优解!换言之,这项研究反驳了我们一周前在《语言≠思维,大模型学不了推理:一篇 Nature 让 AI 社区炸锅了》中的报道,用科学方法证明了大模型通过语言确实能学会思维。
更神奇的是,模型学到的不止如此。在图 4 中,作者还发现模型会心算许多对解题无用的信息。比如,在变量关系刚被描述完,甚至在问题尚未提出之前,模型已经知道任意两个变量 A 和 B 之间是否存在递归依赖 —— 即使这些变量与解题无关。对人类来说,我们通常会从问题开始反推,忽略不必要的变量,而 GPT-2 这样的语言模型则会将整个关系图梳理一遍,以应对将来可能被问及的任何问题。作者将这种能力称为「2 级推理」。
虽然「2 级推理」对解题不必须,但它确实是一种更通用的技能。模型利用并行能力,对信息进行大量因果梳理。这一能力是语言模型在学习解题中自行掌握的,没有人 (数据) 教过它这么做。作者猜测,这或许是通用人工智能(AGI)中「通用」一词的潜在来源,即语言模型可以超越数据集所教的技能,学会更为通用的能力。
图 4
接下来,作者研究了模型为何会犯错。总结来看,在 iGSM 数据集上,模型几乎只会犯两类错误:一是计算不必要的变量,二是计算当前不可算的变量,如图 5 所示。
对于前者,作者发现,如果模型在生成答案之前就心算出错,误认为某个变量 A 是 「必要的」(nece (A)=True),那么模型在生成答案时很可能会对 A 强行计算,从而产生非最短解答。这一发现非常有趣,它表明许多错误是系统性的,在生成第一个 token 之前,模型还没张嘴就可以确信它会犯错(通过探针的方法)。这类错误与模型生成过程中的随机性或 beam search 无关。
至于后者,作者也将其归因于心算错误,并将用一整篇的后续 Part 2.2 论文,来针对性提高模型的心算能力,以最终提高解题正确率。该论文尚未发布,我们会在公众号中继续关注并报道。
图 5
下一个结论是,作者反驳了大模型缩放定律(scaling law)中强调的「唯大独尊」,即模型的表现只与参数数量相关,而与宽度或深度无关。这一观点最早由 OpenAI 的缩放定律论文提出,并在后续几乎所有研究中得到遵循。
作者通过 iGSM 数据集进行了一个可控实验,如图 6 所示。通过对比更小更深的模型与更大更宽的模型,发现对于解决 iGSM 中的数学题,模型的深度显然比宽度更为重要。例如,一个 20 层、9 个 head 的模型,表现远好于 4 层、30 个 head 的模型,尽管后者有两倍的参数。
更进一步,作者发现对深度的依赖源于模型心算的复杂性。通过对模型不同深度的探针研究,作者发现,对于那些与问题较远的变量 A,心算 nece (A) 往往需要更多层数。具体来说,若变量 A 与问题变量的距离为 t,则需要进行 t 步心算才能知道 nece (A)=True。t 越大,模型所需的层数也越多,如图 6 所示。
作者强调,模型对深度的依赖无法通过思维链(Chain-of-Thought, CoT)来抵消。事实上,iGSM 中的数学题解已经尽可能地使用了 CoT,即所有计算都被拆解为一步一步。即便如此,模型仍需要通过心算来规划 CoT 的第一步该算什么 —— 这个心算过程可能依然需要多个步骤。这解释了模型对深度依赖的原因。
图 6
综上所述,与 99% 以上的研究 LLM 行为过程(behavior process)的论文不同,本文作者另辟蹊径,揭示了 LLM 在解决数学问题时的心理过程(mental process),为理解 LLM 的智能提供了新的视角。
文章最后作者指出,即便是 GPT-4,在 iGSM 数据集上也只能进行最多 10 步的推理。这表明,即使是当前最强的模型,利用了据称所有的互联网数据,仍无法精准地完成超过 10 步推理。这暗示现有大模型使用的预训练数据集(pretrain data)可能还有很大的改进空间。通过本文的方法,建立人工合成数据来增强模型的推理能力以及信息梳理能力,或许是一种新的可能。
#GitHub上超1亿开发者可直接访问全球顶级大模型
GitHub 推出的全新功能「GitHub Models」将有望加快 AI 工程师时代的到来。
什么?大家熟悉的代码托管平台 GitHub 又进化了!该平台也开始提供 AI 大模型的 Playgroud 了。
所有你能叫得上名字的业界流行大模型,包括微软的 Phi-3、OpenAI 的 GPT-4o、Meta 的 Llama 3.1、Cohere 的 Command R+、Mistral AI 的 Mistral Large,都可以在一个交互式沙盒中试用。
在未来几个月,Github 也将添加更多语言、视觉以及其他类型的模型。
也就是说,这张图上的模型都可以「白嫖」到了!相当于又多了一个可以免费测试各家大模型的新途径!
不仅如此,开发者还可以轻松地将合适的模型导入到自己的 AI 项目中。Github 创建了一条能直接把模型放在 Codespaces 和 VS Code 开发环境中的快速通道,一下把部署 AI 模型的门槛打下来了。
这就是 GitHub 今天推出的「GitHub Models」功能!
对于开发者来说,只要有合适的工具并训练,每个人都可以成为 AI 工程师。开发者选择模型,在 GitHub 代码空间(Codespaces)中进行编码,然后通过 Azure 进行生产部署,提供了「一条龙」服务。
具体来说,你可以调用 GitHub CLI 中的 GitHub Models 命令,通过一系列 JSON 文件在 GitHub Actions 用,还可以用 GitHub Models 构建 GitHub Copilot 扩展,覆盖应用开发的全周期。
当项目迈入上线阶段时,Github 还提供了与 Azure AI 的无缝集成,Github 的身份验证可以通过 Azure 订阅,AI 应用部署到生产环境的门槛就这么被打下来了。
现在,你可以通过 Github 在全球 25 个以上的 Azure 区域部署 AI 应用,并获取 Azure 的企业级安全保护。
与 GitHub 和 Microsoft 对隐私和安全的持续承诺一致,GitHub 模型中的任何提示或输出都不会共享给模型提供者,也不会用于训练或改进模型。
当然,试玩「GitHub Models」也不是完全不受限制。个人用户每天限制访问次数 150 次,每分钟不能超过 15 次,每次请求最多可以处理 8000 个 token,最多输出 4000 个 token。
对此,GitHub CEO Thomas Dohmke 表示,该功能的推出标志着 GitHub 的又一次转型,从通过开源协作创建 AI 到借助 AI 的力量创建软件,再到如今利用 GitHub Models 推动 AI 工程师的崛起。
并且基于 OSS 存储库、Copilot Extensions 和 GitHub Models 功能,GitHub 希望将尽可能多的合作伙伴引入到自己的平台。
有开发者展示了在 GitHub 的代码空间中直接运行模型的案例,不需要安装什么东西,几秒内就可以启动。
图源:https://x.com/DanWahlin/status/1819113874689610133
不知道当 Github「Hugging Face」化后,Hugging Face 将如何接招呢?
#Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
文章作者皆为来自剑桥大学语言技术实验室,一作为三年级博士生刘胤宏,导师为教授 Nigel Collier 和 Ehsan Shareghi。他的研究兴趣是大模型和文本评估,数据生成等。共同一作为二年级博士生周涵,导师为教授 Anna Korhonen 和 Ivan Vulić,他的研究兴趣是高效大模型。
大模型展现出了卓越的指令跟从和任务泛化的能力,这种独特的能力源自 LLMs 在训练中使用了指令跟随数据以及人类反馈强化学习(RLHF)。在 RLHF 训练范式中,奖励模型根据排名比较数据与人类偏好对齐。这增强了 LLMs 与人类价值观的对齐,从而生成更好地帮助人类并遵守人类价值观的回应。
近日,第一届大模型顶会 COLM 刚刚公布接收结果,其中一项高分工作分析了 LLM 作为文本评估器时难以避免和纠正的分数偏见问题,并提出了将评估问题转换成偏好排序问题,从而设计了 PairS 算法,一个可以从成对偏好(pairwise preference)中搜索和排序的算法。通过利用不确定性和 LLM 传递性(transitivity)的假设,PairS 可以给出高效,准确的偏好排序,并在多个测试集上展现出和人类判断更高的一致性。
- 论文链接: https://arxiv.org/abs/2403.16950
- 论文标题:Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
- Github 地址: https://github.com/cambridgeltl/PairS
用大模型评估有什么问题?
最近大量的工作展示了 LLMs 在评估文本质量上的出色表现,形成了一种无需参考的生成任务评估新范式,避免了昂贵的人类标注成本。然而,LLM 评估器(evaluator)对提示(prompt)设计高度敏感,甚至会受到多种偏见的影响,包括位置偏见、冗长偏见和上下文偏见。这些偏见阻碍了 LLM 评估器的公平和可信,导致与人类判断的不一致和不对齐。
为了减少 LLMs 的偏见预测,之前的工作开发了校准技术(calibration)以减少 LLM 预测中的偏见。我们先对校准技术在对齐单点(pointwise) LLM 评估器的有效性进行了系统分析。如上图 2 所示,即使提供了监督数据,现有的校准方法仍然不能很好的对齐 LLM 评估器。
如公式 1 所示,我们认为评估不对齐的主要原因并非 LLM 评估分数分布的先验具有偏见(biased priors over evaluation score distribution),而是评估标准(evaluation standard)的错位,即 LLM 评估器的似然(likelihood)。我们认为做成对(pairwise)评估时,LLM 评估器会与人类有更一致的评价标准,因此,我们探索了一种新的 LLM 评估范式,以促进更对齐的判断。
RLHF 带来的启发
如下图 1 所示,受到 RLHF 中通过偏好数据对奖励模型进行对齐的启发,我们认为 LLM 评估器可以通过生成偏好排序(preference ranking)来得到更和人类对齐的预测。最近已有一些工作开始通过让 LLM 进行成对比较(pairwise comparison)来得到偏好排序。然而,评估偏好排序的复杂性和可扩展性在很大程度上被忽视了。它们忽略了传递性假设(transitivity assumption),使得比较次数的复杂度为 O (N^2),让评估过程变得昂贵而不可行。
PairS:高效偏好搜索算法
在本工作中,我们提出了两种成对偏好搜索算法(PairS-greedy 和 PairS-beam)。PairS-greedy 是基于完全的传递性假设和合并排序(merge sort)的算法,只需要通过 O (NlogN) 的复杂度就可以得到全局的偏好排序。传递性假设是指,比如对于 3 个候选项,LLM 总是有如果 A≻B 以及 B≻C,则 A≻C。在这个假设下我们可以直接用传统的排序算法从成对偏好中获得偏好排序。
但是 LLM 并不具有完美的传递性,所以我们又设计了 PairS-beam 算法。在更宽松传递性假设下,我们推导并化简了偏好排序的似然函数(likelihood function)。PairS-beam 在合并排序算法的每一次的合并操作(merge operation)中按似然值做集束搜索,并通过偏好的不确定性(uncertainty)来减枝成对比较的空间的搜索方法。PairS-beam 可以调整对比复杂度和排序质量, 高效的给出偏好排序的最大似然估计(MLE)。在下图 3 中我们展示了一个 PairS-beam 如何做合并操作的例子。
实验结果
我们在多个具有代表性的数据集上进行了测试,包括闭合式生成的缩写任务NewsRoom 和 SummEval,和开放式的故事生成任务HANNA,并对比了多个 LLM 单点评估的基线方法,包括无监督的 direct scoring, G-Eval, GPTScore 和有监督训练过的 UniEval 以及 BARTScore。如下表 1 所示,PairS 在每个任务上和他们相比都有着和人类评分更高的一致性。GPT-4-turbo 更是能达到 SOTA 的效果。
在文章中,我们还对比了两种偏好排序的基线方法,win rate 和 ELO rating。PairS 可以仅用约 30% 的对比次数就能达到他们同样质量的偏好排序。论文还提供了更多关于如何使用成对偏好来量化计算 LLM 评估器的传递性,以及成对评估器如何在校准中受益的见解。
#AI Pioneer
100后CEO杨丰瑜:耶鲁博士回国创业,五个月造出首款「可量产」人形机器人
在人工智能边界扩张的过程中,重要赛道的技术路线创新与分歧并存。技术先锋者的判断和选择,影响着众多跟随者的脚步。
过去一年,将月之暗面、生数科技、爱诗科技、无问芯穹等优秀公司介绍给大家,为他们在互联网世界留下了第一份 “万字访谈底稿”。在技术路线尚未收敛的阶段,我们看到了到真正拥有信念、勇气以及系统化认知的 AI 创业者的引领力量。
因此,我们推出 “AI Pioneers” 的专栏,希望继续寻找和纪录 AGI 时代人工智能各细分赛道具有领袖气质的创业者,介绍 AI 赛道最出众、高潜的创业公司,分享他们在 AI 领域最前沿、鲜明的认知
即使年轻的学术天才已成为当下AGI公司创始人的主流背景之一,2000年出生的杨丰瑜,还是年轻得让人意外。
本科密歇根大学计算机专业,耶鲁大学计算机专业博士生,年仅23岁的杨丰瑜,在去年开始了自己的具身智能机器人事业。
2024年,由他创办的UniX AI具身智能公司,在五个月内完成了一款轮式人形机器人的研发制造,这款带有「餐后清洁」以及「洗衣服」等功能的机器人将于九月开始量产,并对外销售。
在很多具身智能机器人仍然停留在实验室的阶段,这是一个很快的商业化速度。在苏州,UniX AI公司的机器人量产工厂已经超过两千五百平。
这家在去年几乎没人听说过的公司,在大半年内网罗了多位机器人行业内的资深技术人才。「有头部服务机器人的研发总监帮我们做底盘,也有一些头部的人形机器人公司顶尖人才在负责我们的硬件」。2024年7月,上海交大著名机器人专家王贺升教授,宣布正式加入UniX AI担任首席科学家。
在UniX AI释放出的首支技术展示视频中,名为Wanda的轮式人形机器人能够完成抓起豆腐、协助分类衣物、将衣物拿到洗衣机清洗等任务。当下具身智能公司难以解决的「柔性任务」问题,UniX AI似乎已经找到解决方案。
UniXAI
「我不觉得年轻有什么不好,从技术层面来讲,当下很多新技术、新产品,很多是由拥有深厚学术背景的年轻人创造的」,令我们有些意外的是,作为00后,杨丰瑜本人在谈吐中表现出超越年龄的成熟,对于公司管理和具身智能的技术阶段拥有非常清晰的认知。
我们对UniX AI的好奇集中在,一个在创投圈几乎没有任何消息的具身智能公司,为何能做到如此快的发展速度;作为极少的由00后操刀建立的具身智能公司,UniX AI如何实现从0到1的发展?UniX AI的具身智能终局路线图又是什么样的?
带着这些问题,与杨丰瑜展开了他创业以来的第一次公开媒体对话。
耶鲁00后 投身具身智能创业
你现在已经毕业了吗?
杨丰瑜:我是本科直博到的耶鲁,博士毕业的论文要求我基本都达到了,就拿今年来说吧,我中了4篇CVPR,加上其他,总共有十多篇人工智能和机器人的顶会文章。
你的精力很旺盛。
杨丰瑜:(笑),经常熬夜到凌晨三点半,前段时间还去打吊针。主要是因为团队在一起,经常不看手表,一抬头就已经很晚了。
是什么时候开始想到要创业的?
杨丰瑜:我一直认为创业是“天时地利人和”。
去年我们看到感知层面在技术上有很大进步,包括视觉、语言模型和触觉等多模态的一些大模型或基座模型都有了很大的发展,这让我们看到了实现目标的可能性。另外国家也有一系列的支持政策推出,为创业提供了一个良好环境。这是“天时”。
“地利”:毋庸置疑,通用人形机器人是继新能源汽车之后的下一个发展方向,中国在供应链方面有着无可比拟的优势,而且长三角这边的高科技人才也非常多。
一开始,我们做了一些调研,去弄清楚目前机器人行业的工程化水平进展到哪个阶段、市场需求在哪里、上一代机器人解决了哪些问题以及它未来的机会在哪里?
能够成事,关键还是找到对的人。今年,我们正式组建团队,快速集结了很多方面的专家,有头部扫地机器人的研发总监,也有一些头部人形机器人公司顶尖人才,负责我们的硬件。在算法层面,我在美国以及欧洲招募了一批人才,包括我的一些同学、师兄,这是“人和”。
作为创始人和CEO,最重要的是集合资源。UniX AI是一个全球化的公司,把全世界不同国家在机器人软件、硬件、供应链的优势结合起来;同时我们有国际化的规划,通过一年、三年、五年计划的不断努力,实现Robots For All的公司愿景。
简单介绍一下你的学术经历吧
杨丰瑜:小学到高中是在国内,本科去密歇根大学读了计算机专业。一开始接触的是视觉和机器学习,后来在导师「多模态学习」的影响下,开始进行视触觉的研究。
本科期间发表了5篇机器人视触觉论文,其中“Touch and Go: Learning from Human-Collected Vision and Touch”是世界上现今最大的视触觉传感数据集,被人工智能和机器学习领域的顶级会议NuerIPS接收。
在另外一个工作里,我们第一次引入diffusion model完成了对视觉和触觉之间的相互转化,成果被ICCV接收。
对于机器人来说,触觉很重要。一件衣服,是涤纶、棉纺还是丝,靠肉眼不太能够观察得出,只有真正摸上去,才能分辨不一样的质地。另外在一些精细活动上,比如将充电线插入充电口,也需要通过触觉不断调整,单靠视觉无法完成。
然后你就来到了耶鲁。
杨丰瑜:因为在机器人视触觉方面的一些工作,特别是视触觉的转化和在大语言模型中的泛化运用,我获得了北美计算机协会杰出本科科学家称号,是学校有史以来第一人。最终选择耶鲁大学进行博士深造。
在这期间,我陆续发表了一些论文,其中《Binding touch to everything: Learning unified multimodal tactile representations》(CVPR, 2024, pp.26340-26353),在这篇论文中,我提出了世界首个适用于多款不同触觉传感器的触觉大模型 UniTouch,适用于与视觉、语言和声音等多种模态相连的基于视觉的触觉传感器。
另外一篇论文《Tactile-Augmented Radiance Fields》(CVPR, 2024, pp.26529-26539),则建立了世界上第一个可以在场景级泛化的3D视触觉模型TARF,UniX AI人形机器人的泛化能力也是基于该模型。
你觉得00后的身份对你来讲是更有利还是更有弊?
杨丰瑜:创业公司,创始人是灵魂。很多人会觉得我很年轻,但我觉得00后的身份不是问题。
从技术层面讲,在迎接这一轮的科技变革和赛道创新的浪潮中,年轻人具有非常强的推动作用。很多新技术、新产品是由当下的年轻人创造的,特别是高科技行业,准入门槛相对较高。Sora核心团队的成员之一也是我同学,他在密歇根大学时就展现出了很强的技术能力。
从认知和经验层面讲,我觉得快速学习、快速纠错也是一种路径。另外是个性,要肯坚持有韧性,想尽一切办法,有“逢山开路,遇水搭桥”的精神,毕竟创业最后都是拿结果说话。
当然,UniX AI团队中也有很多有经验的专家,他们在结构、电子等方面有丰富的从业经验,我们之间有效配合,才能在短时间内推出我们的产品。
视触觉+操作 提升机器人可泛化能力
触觉的提升为什么对机器人是重要的?
杨丰瑜:人是一个多感官动物,你的行动决策通常是多个感官共同传递过来的信息综合影响,智能机器人理论上也是这样。
触觉是最重要的感官信息之一,跟视觉反馈相比,它产生在机器人与环境交互之后,而视觉反馈是在之前。当机器人抓取一个物体时,物体发生了形变,本质上,这个交互动作发生后,机器人获得的增量信息都来自于触觉——它摸起来是怎样的。
拥有触觉信息能够让机器人在一些更复杂更细腻的任务上表现得更好,大大提高抓取任务的成功率,尤其是在柔性物体的抓取中,触觉的作用更加明显,可以说是从基本不可能完成任务到能够完成任务的质的提升。
比如,我们的轮式人形机器人Wanda已经实现捏鸡蛋、抓豆腐、洗衣服等任务,纯靠视觉去做,机器人得不到反馈,是很难执行下来的。
为什么现在机器人主要依靠视觉做判断,是因为视觉方面的数据相较于其他,是最直接、容易获取且被训练起来的,有大量数据可以用。但是在机器人往具身方向更进一步去走的时候,仅仅依靠视觉是肯定不够的。
作为一种依赖交互产生的感官信息,能够将触觉信息合理运用的意义还在于,机器人能够逐步在与世界的真实交互中不断学习,变得更加可用和泛化。
为什么加入触觉后,机器人对柔性物体的控制水平会提升,原理是什么?
杨丰瑜:原理主要在于柔性物体与刚性物体在抓取和操作时有很大的不同。刚性物体在触碰前后,其物理形状基本不会改变,因此通过视觉观察,在抓取时相对容易判断。然而,柔性物体在抓取之前或操作之前,通过观察很难确定与它接触后会发生什么情况,因为在抓取过程中会出现大量的遮挡和形变,而这些形变通过视觉是很难准确预测的。
例如,当拿一张纸巾时,一旦将纸巾握到手里面,就会完全遮挡住视线,此时视觉几乎无法提供有效的信息来判断如何抓取或操作。在这种情况下,就只能依靠触觉等物理信息来完成感知。
为什么好像很多时候我也不需要去尝试抓一下物体,我就知道怎么抓。
杨丰瑜:那是因为你作为一个人类来说,已经融合得很好了,以至于你不知道你用了触觉信息在这里面。你已经积累了二十多年的触觉数据,所以你不知道是哪一种感官支持你让你去完成了这个任务。
对大部分机器人任务来说,不同感官的贡献比会有什么区别?现阶段,触觉的优先级有多高?
杨丰瑜:对于大部分机器人的任务来说,不同感官在感知、推理决策和行动这三个步骤中的贡献比例有所不同。
在感知层面上,初期主要依靠视觉和点云来获取全局信息,比如知道整个家的布局、水在哪里等。目前,通过视觉大模型和3D大模型来感知全局信息的问题已基本解决。
在决策层面上,主要依靠语言引入人类的先验知识。例如,机器人接到从冰箱拿水的指令后,能进行任务拆解,知道第一步打开冰箱,第二步拿水,第三步关冰箱,这些先验知识来自大量的互联网数据。
在行动层面上,视觉可以帮助机器人确定抓取的位置,但在确定抓取力度等方面,触觉信息起着重要作用。比如在有遮挡的情况下,像拿豆腐时,视觉难以准确判断抓取方式,而触觉能提供关键信息,帮助机器人完成精确抓取。
此外,触觉在一些精细力控的场景,如捏鸡蛋、抓豆腐等,以及在一些需要判断物体形变和力的反馈的场景中,发挥着重要作用。
总的来说,不同感官的贡献比因任务而异,在一些刚性物体的抓取中,视觉可能占比较高;而在很多柔性物体的抓取中,触觉的作用更为关键,甚至可以说是从基本无法完成任务到能够完成任务的质的提升。
触觉这块有足够高的壁垒吗?落地到机器人产品里有什么难点?
杨丰瑜:我认为相对来说是比较高的,在2023年之前,触觉一直是一个非常小众的模态,与视觉和听觉相比,从事触觉相关工作的人非常少。
在开展触觉相关工作的初期,传感器是最大的难题。当时,全世界从事数据相关工作的人并不多,如何制作传感器是一个关键问题。
其次,是如何解析触觉信息的问题,这涉及到算法和数据两个层面。数据层面,此前世界上绝大多数触觉传感的具体数据并不公开,这可能是由于许多机器人结合的特殊性或其他原因导致,使得机器人领域的数据公开程度不如视觉领域。因此,我们不断解决数据集的问题,致力于推动全世界触觉传感数据集的不断公开。
在算法层面,触觉与视觉存在差异,其中包含许多物理的先验知识。例如,通过传感器上的marker可以判断受力情况,但这些信息不像视觉信息那样易于解释和识别。
当时还进行过一个实验,结果表明生成的触觉信号让人分辨起来非常困难。因为如果人没有经过一些特定的训练,很难分辨出每一种东西的触觉传感信号。我们也在积极努力降低这一壁垒,推动学术界更多的人参与其中,以促进整个触觉域的发展与进步。
如果说,触觉信息不仅面临现存数据量少的问题,大规模采集成本也很高,那怎么去做到Scale up?
杨丰瑜:我们之前做的工作其实就是尝试解决这个问题,如何在大规模采集难以实现的情况下做到Scale up:
第一步,我们把视觉和触觉打通,通过视觉来预测触觉,甚至在没有触觉采集的场景中,利用视觉和语言等信息来推测触觉信号。
比如,采集了同类型同材料的桌子的触觉信息后,到新的家庭或办公室场景中,即使没有实际触摸过过新的桌子,也能通过视觉和语言信息推测其触觉信号。这样的话,我们可以做到即使没有真正物理的接触,也能够扩大可用数据集。但是这种方式可能跟真实信号有一些出入,因为这是预测的。
第二,我们不断推动触觉数据集的公开。通过公开数据集,可以让更多人参与到触觉领域的研究和发展中,从而促进整个领域的进步。
第三,在算法层面上,我们努力降低触觉信息识别的门槛。例如,通过在传感器上添加标记(marker),并发现标记在受到不同力时的变化规律,从而利用这些物理的先验知识来更好地解析触觉信息。
第四,致力于将不同的信息,如视觉、触觉、语言等多模态信息结合在一起,以完成各种任务。通过多模态信息的融合,可以在一定程度上弥补触觉数据量少的不足,提高模型的泛化能力和适应性。
大规模采集是否可以实现,需要什么条件?
杨丰瑜:我认为这其实是整个具身智能发展的瓶颈,我个人认为可以实现大规模采集,但这里有一个商业化的过程。
当机器人走进千家万户,有一定量的时候,你就能收集到足够多的数据,支持更多的场景来做一些泛化。当然你不可能永远采到每一个点,所以「大规模」这个命题会一直存在。那机器学习的本质就是通过稀疏的采样,实现稠密分布的一个模拟拟合和预测。
在数据这方面,我们并不排斥模拟,但我觉得一定量的真机数据是实现具身智能的必要条件。
触觉大模型有哪些关键的技术指标?
杨丰瑜:触觉大模型跟任何大模型一样,在不同的下游任务里面都有一些指标。我带领团队构建的世界上现存最大的视触觉数据集Touch and go,是全世界机器人视触觉预训练模型重要通用基准之一。
具身智能机器人Wanda 九月开始量产
决定创业之后,打算做一个怎样的具身智能公司?
杨丰瑜:创业的本质是为社会创造价值。UniX AI是世界上少数几家把C端定为第一战略的具身智能机器人公司。
TO C虽然有很长的一段路要走,但背后的潜力是巨大的。从产业层面讲,人形机器人已经进入硬件+AI的技术融合期,发展飞速,越来越具备实用性。而且我乐观估计,这个融合进程要比原先业内人士预估的要快很多。
人口老龄化,出生率低下,劳动力短缺……这些都是全世界面临的问题。企业的责任是要为社会解决问题,这是UniX AI的机会点和价值点,也是我创业的初心。现在这个赛道大致的落地路径基本上是工业——商业——家庭,我们会覆盖商业和家庭,这也是服务TO C用户的主要场景。
UniX AI的愿景是Robots For All,打造通用的人形机器人,在运动能力与智慧程度方面都做到领先,实现体力劳动和智能陪伴。
为什么一开始选择家庭场景去做?
杨丰瑜:事实上我们不只局限于家庭场景,我们也做泛商业的场景,比如办公室等。
To B 场景从技术上来说相对难度低一些,重复率高,对泛化性要求没有那么高。但To B的场景往往是强替代逻辑,这就对机器人的速度、操作准确率要求会非常高。
家庭场景很复杂,千变万化,每个家都是一个小生态,要求机器人具备很强的泛化能力。这当然对我们的产品提出了更高的要求。同时,我们在家庭场景中也会有很多L2级别的功能,更多地提升了产品在复杂场景的适应性和可玩性。
总的来说,我们的技术栈无论是 To B 还是 To C,都能覆盖。做好了家庭场景,我觉得其他场景都能游刃有余。从最难的骨头开始啃,一方面体现了UniX AI的技术实力,一方面也是我们切入市场的战略路径。
像类似工厂这样的To B场景也会去做吗?
杨丰瑜:我们对所有场景都不排斥,UniX AI的模块化硬件方案相对来说可以适配很多不同的场景。同时,我们有一套感知和操作解耦的运动基元算法可以最大程度地利用数据,我们对场景的迁移性会非常强。虽然每一款产品都有其边界,我们愿意在各种场景中进行尝试和拓展。我们也在跑通一些重要的商业场景,帮助到消费者。
所谓的供应链成本优势是什么?
杨丰瑜:我们团队中有一批经验丰富的供应链管理专家,他们掌握量产级的成本控制方法,并能将其应用到机器人供应链中。虽然机器人行业目前尚未大规模卷价格,但我们从一开始就按照量产级来控制成本,以确保产品能达到消费者可接受的价格。我们有信心通过有效的成本控制,使产品在价格上具有极强竞争力,为公司发展提供有力支持。
即将推出的产品价格在什么区间?
杨丰瑜:这个现在我不是很方便披露,但我可以保证,一定是一个很惊喜的价格。
你们打算怎么走向终局?
杨丰瑜:我们走向终局的逻辑很简单,需要一定量的高质量真实数据。关键就在于如何获取这些数据,比如拿自动驾驶举例,特斯拉的FSD能够走到终局,是因为花了6到8年时间,不断有车子在路上跑并收集数据。
机器人行业有所不同,大家期望机器人能够自动干点事儿。我们首先开发出若干单点场景的功能,让大家觉得机器人有用或好玩,而且在消费能力承受范围内,这样大家才会愿意购买。
我们的供应链有优势,能把价格降下来,这是很关键的一点。通过用户的不断反馈,我们不断优化迭代产品,最终打造出通用的具身智能机器人。
机器人量产的难度和意义在哪里?
杨丰瑜:做DEMO其实很容易,只要在实验室做出来一台,就是成功。量产的难度,在于不是一台,而是一百台、一千台真正进入到用户家中,考验产品的数据安全性、操作稳定性、底层控制可靠性,背后需要强大的售后团队和不断迭代的技术团队。另外工艺也很重要,这也是考验量产能力的重要指标。
它的意义当然毋庸置疑,一方面体现出供应链的竞争力,一方面展现了技术的成熟度。谁是第一个吃螃蟹的人?谁又吃得又快又好?另外,量产可以得到一定的先发优势。
决定创业以后,初始团队构建思路和团队组建情况目前大概是怎样的?
杨丰瑜:从0-1,初创团队很重要。我做事习惯先有顶层规划,再慢慢部署到每个层级,像瀑布流一样,从上往下。先找到最核心的关键人,干起来之后,再向下延伸不断完善团队,让整个轮子转起来。
从去年年底到现在,我们的团队发展非常快,已经迭代了三代产品。目前团队规模已经初具规模,但后期我们还会根据需要,不断调整和完善,让公司的竞争力愈来愈强。
获取人才这件事,是创业公司最重要的事情之一,我们公司大部分的人才我都亲自看过面过。很多时候,CEO不仅是首席执行官,更是“首席意义官”,需要跟同行者解释我们做的事情,它的价值和意义在哪里。让他们认同,一起上路,这非常重要。
同时,这个阶段我的管理半径很大,管理的颗粒度也很细,非常辛苦但很有必要。只有当自己全盘掌握,确认公司前进方向正确和稳定之后,才能花更多时间在别的方面。
你怎么吸引这些人才?
杨丰瑜:本质上吸引大家的,还是如何走向具身智能终局这个路径,除此之外是怎么做的问题。
我们有几个亮点,第一有非常强的供应链成本优势,其次我们团队的执行力很强,迭代速度非常快,很多候选人可能第一次知道我们时,觉得我们不过尔尔,但几周后再来,发现场景已经跑通了,进展很快。我们也有一些国内顶尖机器人公司的人才,主动要求加入进来。
目前的资金来源是?
杨丰瑜:我们会在合适的时候统一披露。
是否有外部融资计划?
杨丰瑜:目前投资人反馈非常踊跃,欢迎和我们有共同通用具身智能愿景的投资人,和我们长期走下去。
再详细介绍一下你们即将推出的产品,以及未来的市场计划?
杨丰瑜:我们即将量产的机器人叫Wanda,是一款轮式人形双臂机器人。在我们发布的首支技术视频中,大家可以看到它的一些功能特点,但这不是全部,等到九月份我们面向消费者公开发售的时候,会有更多惊喜细节。
最终,UniX AI希望交付给消费者的产品,是一款通用的具身智能机器人,不仅服务于家庭,更可以陪伴人们去往更多更远的地方,提供更多的功能,这需要我们在技术上不断发展,也需要公司和用户之间的协同共创。不积跬步无以至千里,那我们先从第一步开始。
#SeedEdit
真·打字P图!字节发布新模型SeedEdit,一句话爆改世界名画,可免费体验
一句话实时P图,网友又能整活了。
字节豆包大模型又又又上新了!
11 月 11 日,字节跳动豆包大模型团队推出了最新图像编辑模型 SeedEdit,主打一句话轻松 P 图。
,时长01:02
它是国内首个产品化的通用图像编辑模型,无需描边涂抹,仅使用简单的自然语言,就能换背景、转风格,或者在指定区域进行元素的增删和替换。
比如,输入 Prompt「把老婆饼换成驴打滚」,SeedEdit 立马锁定修改目标,完成美食替换:
(Prompt:把老婆饼换成驴打滚)
要知道,「老婆饼」、「驴打滚」等中国美食曾「骗」倒一众大模型,但 SeedEdit 能精准理解复杂指令,不仅看得懂中英文提示词,还对成语和专有名词「门儿清」。
再比如,在不「误伤」原图细节的情况下,把草莓换成柠檬:
(Prompt:把草莓换成柠檬)
甚至可以让油画里戴珍珠耳环的少女张大嘴巴啃汉堡:
(Prompt:戴珍珠耳环的少女吃汉堡)
在处理玻璃裂纹、发丝等精细涂抹区域时,SeedEdit 同样能够保持原图的完整性:
(Prompt:移除玻璃裂纹,干净画面)
此外,作为一款通用图像编辑模型,它不仅具备单次编辑的能力,还支持多轮操作,能够让用户对同一图像进行连续的创意编辑。
比如,让一个二次元女孩换上骑士装、戴上牛仔帽、改变动作、增加背景,最后「Pia」一下变身酷飒火枪手:
本次 SeedEdit 推出,字节也发布了技术报告。AIGC 图像的精准编辑一直是个老大难问题,业界此前方案要么在编辑上做不到「指哪打哪」,要么编辑生成的质量低或导致原图主体变化较大。
报告显示,SeedEdit 依然采用了 Diffusion 架构,但在不引入新参数的情况下将图像生成模型转换成了图像编辑模型。其秘诀是在保持原始图像和生成新内容之间寻找平衡,最终得以在图像编辑的通用性、可控性和高质量上实现新的突破。
目前,SeedEdit 已上线豆包 PC 端和字节 AIGC 平台即梦网页端开始测试。
- 豆包 Web:https://www.doubao.com/chat/create-image
- 即梦 Web:https://jimeng.jianying.com/ai-tool/image/generate
SeedEdit 的图片编辑效果可谓炸裂,让人不禁要问:生成式 AI 的修图技术是否真的已经能做到「毫无 PS 痕迹」了?
我们索性搞个实测,看看字节这款 AI 神器实力到底如何。
任意指令,精准编辑:一句话爆改世界名画
今年以来,Dall・E 3、Midjourney 等 AI 绘图平台响应群众呼声,陆续上线了生图编辑功能。
不得不说,相较业界之前方案,编辑生图的质量和美感的确大大改善,但体验上仍有提升空间,一是指定区域编辑需要手动涂抹,二是对编辑指令的响应经常不够精准。
而这次字节卯足劲推出的 SeedEdit,首先在通用性上做到了极致,不用涂抹编辑区域,只需给出一句简洁的 prompt,就能实现任意指令的编辑,适用各类编辑任务,支持用户脑洞大开的奇思妙想。
其产品侧玩法也很简单。在即梦「图片生成」中,上传参考图,选择「智能参考」,然后根据需要输入 Prompt 即可。接下来就是实测最关键的编辑精准度。
一手实测
我们先来恶搞一波世界名画。
让蒙娜丽莎抱只猫,再换个表情。
(Prompt:蒙娜丽莎张开嘴大笑,手里抱着一只猫。)
原作中蒙娜丽莎的微笑神秘、含蓄又难以捉摸,但 SeedEdit 一顿爆改,瞬间让画面有了一种诙谐感。蒙娜丽莎咧嘴大笑,怀里的猫高冷地眺望远方,画风自然、线条流畅。
SeedEdit 严格遵循了指令,除了表情和动作发生变化外,其他细节均能保持不变。
蒙娜丽莎的发丝、头纱和衣褶清晰可见,手部没有变形扭曲,猫咪的胡须、毛发根根分明,就连背景也完美复刻。
SeedEdit 还能一句话换背景。
我们让它把《倒牛奶的女仆》中的背景换成了麦当劳后厨。
(Prompt:背景换成麦当劳后厨,女仆正端着牛奶瓶)
为了准确体现 Prompt,SeedEdit 编辑后的画面中,墙上挂着麦当劳的大 Logo,原本简陋的房间也放置了现代化的不锈钢橱柜,毫无「贴图感」。
由于原画历经几个世纪之久,难免会出现细微裂痕和颗粒感,SeedEdit 巧妙去掉其中的斑驳,画质一整个拉升。
再看这幅《戴珍珠耳环的少女》。仅需下个动作指令,SeedEdit 就开始发挥想象力。
(Prompt:戴珍珠耳环的少女手里拿着一杯奶茶)
即使是真人图像,SeedEdit 也完全能 hold 住。
让《老友记》中的瑞秋戴上时髦的墨镜:
(Prompt:女生戴上时髦的墨镜)
给奥黛丽・赫本更换帽子颜色:
(Prompt:帽子颜色换成红色)
或者一句话给黑白老照片上色:
(Prompt:给画面上色,时尚,舒服)
移除画中无关元素,若是用传统 PS 方法,需要一点点描边框、选涂抹区域,一旦手不稳,就得重新返工。而 SeedEdit 只需一句「去掉右边老虎」的指令,就能精准定位并删除,这相比于手动编辑,大大节省了时间。
(Prompt: 去掉右边老虎)
当然,SeedEdit 也可以进行元素替换。比如把下图中右边的金毛换成泰迪,图像其余部分画面结构、像素质量,均不受影响。
(Prompt:把右侧的小狗换成棕色的泰迪)
值得一提的是,SeedEdit 还能随意切换各种风格,比如涂鸦、乐高、3D、皮克斯、迪士尼……
(Prompt:把画面风格换成用线条和形状勾勒的涂鸦风;Prompt:把画面风格换成皮克斯风格;Prompt:把画面风格换成日本动漫风)
经过多次尝试,我们也总结出一套超实用的 Prompt 指南。
- 每次编辑尽量使用单指令,为防止它「丢三落四」, 多指令最好少于 3 种变化。
- 虽然 SeedEdit 具备一定的推理能力,有时指令模糊它也能猜个大概,但为了效果更佳,在局部编辑时,下指令要精准,尤其是画面具有多个实体时,需描述清楚对谁做什么。
- 参考图尽可能清晰、分辨率高,要想保留参考图中的对象,则可以多加一些对象描述。比如从简单的 change to afro hairstyle 变成 change this young Chinese man hairstyle to afro style.
- 如果感觉编辑效果不明显,可以调整编辑强度,比如从 0.5 调整到 1.0;若发现编辑变化太多, 同样也可以减少编辑强度,比如降到 0.1。
单挑 Dall・E3、Midjourney
没有对比就没有发言权。
我们就让字节 SeedEdit 和 AI 生图界的「扛把子」Dall・E3、Midjourney 来次真刀真枪的比拼。
首先,我们给这三个模型输入同样的 Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography。让它们各自生成一张图片,再在此基础上进行局部调整。
SeedEdit 生成的图片既时尚又充满运动气息。模特身着印有醒目耐克 Logo 的运动背心,搭配同色系棉质夹克,裤子的光泽与夹克相得益彰,整体效果相当协调。
随后,我们输入文字指令「Change the blue Nike tracksuit to black Nike tracksuit」,SeedEdit 迅速响应,给模特换成了一身黑色,夹克和裤子的光泽感同样得到完美呈现。
(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
与 SeedEdit 一句话 P 图不同,Midjourney 和 Dall・E3 的局部编辑功能稍显复杂,需要先使用画笔工具涂抹要修改的区域,然后输入 Prompt,以实现对图像的元素修改。
Midjourney 虽然也遵从了指令,但改变了模特动作和衣服款式。
(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
Dall・E3 的表现最拉胯,生成的图像美感不足,还一股 AI 味,涂抹修改也没有完全遵循 Prompt。
(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
再来试一下删除效果。Prompt:Remove the guy on the right.
原图:
Midjourney:
SeedEdit:
Midjourney 确实抹去了画面右侧的男生,但身后的建筑也跟着不翼而飞;而 SeedEdit 在遵循文字指令的同时,还通过自身的推理能力将画面缺失部分补齐,不过,女生的眼神和衣服等细节也稍有瑕疵。
总之,SeedEdit 作为通用的图像编辑模型,无需再训练微调即可快捷应用,极大地简化了图像编辑的流程。
无论是简单的图像修正还是复杂的风格转换,它都能迅速适应并提供高质量的编辑结果。这一突破性的技术进步,不仅降低了图像编辑的门槛,也让创意工作者能够更加专注于艺术创作本身,而不必耗费大量时间在技术细节上。
技术细节:扩散模型,被字节玩出了花
在产品发布的同时,字节同时也发布了 SeedEdit 的技术报告。仔细阅读一下可以发现,它在技术原理上确实有自己的独到之处。
- 论文:《SeedEdit: Align Image Re-Generation to Image Editing》
- 论文及技术能力展示:https://team.doubao.com/seededit
据技术报告介绍,SeedEdit 基于图像生成常用的扩散模型,但又能够根据任何文本提示修订给定的图像。该工作发现,AI 生成式图像编辑的关键,在于在保持原始图像(图像重建)和生成新图像(图像生成)之间的平衡。
这就意味着若想让图像生成的 AI 模型拥有修图能力,就需要在大量相应的成对数据上训练这个模型。因此,SeedEdit 采取的方式是从一个弱生成器(文本到图像生成模型)开始,再在上述两个方向之间创建多样化的图像对,以此来逐步训练模型,最终获得我们所需要的平衡。
下图是 SeedEdit 的框架:首先将文本到图像模型(T2I)视为弱编辑模型,再改造它生成的带有提示的新图像来实现「编辑」。随后,把这个弱编辑模型反复进行蒸馏和对齐,以最大程度继承再生成能力,同时提高生成后图像的一致性。
最近一段时间,扩散模型生成的图像虽然效果越来越好,但其内容通常是不可控的。通过 SeedEdit,字节的研究人员尝试在不引入新参数的情况下,将图像生成的扩散模型转化成了图像编辑模型。
与此前一些 AI 图像编辑的方法相比,SeedEdit 能够实现更丰富的效果和编辑能力,也可以实现图片的连续编辑 —— 它让扩散模型不再是完全随机进行生成,而是可以像常规的工具一样一步步来,做出你想要的效果。
使用 SeedEdit 进行一句话编辑的图片。
把 SeedEdit 方法与几种业内先进的图像编辑方法进行比较,总体而言,新的方法在两个基准上都显示出了明显更高的分数。同时也可以观察到 HQ-Edit 数据集中 CLIP 图像有更高的相似性,这意味着原始图像的内容得到了更好的保留。
基准测试成绩。
与一些开源方法比较,SeedEdit 的优势在于能够理解人们提出的相对模糊的指令,并输出较为细致准确的结果。
不同方法的输出结果。
即使是和 DALL-E3、Midjourney 这样已经商用的先进图像生成器(带编辑功能)相比,SeedEdit 也可以相对更紧密地跟随人们给出的指令。
DALL-E3、Midjourney、SeedEdit 之间,不同图像生成工具的效果对比。
不得不说,字节提出的方法别具特色,相比业内现有技术又向前跨出了一步。
豆包的生成式 AI 技术,走在前面
看到这里,你可能突然意识到,AI 领域的风向正在发生转变。
一直以来,很多关注 AI 绘画的人总是在期盼着 DALL-E、Midjourney 等海外 AI 创业公司的技术更新。而随着国内的技术不断迭代,我们已经见证了一系列先进的生成式 AI 应用在外网刷屏。或许到了新技术落地的节点,我们目光更应该向近处看。
其实仔细想来,作为全球短视频领域的佼佼者,字节跳动在生成式 AI,特别是图像生成领域上的优势可谓得天独厚。
早在豆包大模型诞生前,字节就一直在关注 AI 图像生成相关技术,并持续增加研发投入。豆包大模型尽管入场时间不是最早,但凭借优秀的效果和独特的社交体验迅速成为了国内最热门的大模型之一。到今年 9 月,豆包大模型日均生成图片 5000 万张。
能够迅速做出生成式 AI 应用爆款的字节,其所做的努力并不只是在应用层面上创新。字节大模型团队最近的前沿研究,已经在不断挑战 AI 领域的技术难题。
在工程层面上,仅从今年下半年起,我们在社交网络上就不时可以刷到字节的新成果,比如可以生成长篇漫画、有剧情视频的 StoryDiffusion:
视频生成模型 PixelDance 和 Seaweed:
到上星期发布的,音频加人脸视频生成技术 Loopy:
再就是今天 SeedEdit 所展示的,方便好用的图片编辑能力。
在 AI 基础研究层面,字节大模型团队的工作也在不断获得认可。其提出的单目深度估计模型 Depth Anything V2 入选了苹果的 CoreML 模型库。该模型可应用在自动驾驶、3D 建模、增强现实、安全监控以及空间计算等领域。
上周,字节豆包大模型团队公布的一项系统性研究,首次在业界通过大规模实验深入探索了视频生成模型能否真正理解物理规律,得到了谢赛宁、Gary Marcus,以及图灵奖得主 Yann LeCun 等 AI 学者的转发和点赞。
一篇篇论文、一个个项目的积累,不仅撑起了如今豆包大模型的热度,也在悄然推动着学界的前沿探索。
SeedEdit 团队表示,其实现阶段模型在复杂内容和精细控制层面上还有改进空间。下一步要提升的还有真实图片风格保持、ID 一致性、编辑准确性、长时序内容(如漫画生成)等等方面。除此以外,SeedEdit 还将会开放多轮复杂编辑的功能。
期待 SeedEdit 和豆包团队带来新的惊喜。
#LoRA
LoRA、完全微调到底有何不同?MIT 21页论文讲明白了
本文旨在了解两种微调大型语言模型方法之间的差异:完全微调和低秩自适应 (LoRA)。这两种方法都用于将预训练模型适应特定的下游任务,但它们却有所不同。
微调(Fine-tuning)是将经过预训练的大语言模型应用于下游任务的关键范例。最近,低秩自适应 (LoRA) 等方法已被证明可以在各种任务上达到完全微调模型的性能,同时可训练参数的数量却大大减少。
这就提出一个问题,即它们学到的解决方案真的等效吗?
带着这一疑问,来自 MIT 的研究者在论文《 LORA VS FULL FINE-TUNING: AN ILLUSION OF EQUIVALENCE 》中进行了深入探讨。
论文地址:https://arxiv.org/pdf/2410.21228v1
作者通过分析预训练模型权重矩阵的光谱特性来研究不同的微调方法如何改变模型。
研究发现,完全微调与 LoRA 产生的权重矩阵奇异值分解结构有显著不同,并且经过微调后的模型在面对超出适应任务分布的测试时也显示出不同的泛化行为。
特别是,LoRA 训练的权重矩阵中出现了称为「侵入维度(intruder dimensions)」的新的高秩奇异向量,而在完全微调中则不会出现这种情况。
这些结果表明,即使在微调分布上表现相同,但使用 LoRA 和完全微调更新的模型访问参数空间的不同部分。
作者通过研究 LoRA 微调模型中出现侵入维度的原因、它们为什么不受欢迎,以及如何最小化这些效果来展开研究。
最后,作者给出了以下几点观察:
首先,LoRA 和完全微调在结构上产生不同的参数更新,这种差异由侵入维度的存在产生的。这些侵入维度是奇异向量,具有较大的奇异值,并且与预训练权重矩阵中的奇异向量近似正交。相比之下,完全微调模型在光谱上与预训练模型保持相似,不包含侵入维度。
其次, 从行为上看,与完全微调相比,具有侵入维度的 LoRA 微调模型会忘记更多的预训练分布,并且表现出较差的稳健连续学习能力:具有侵入维度的 LoRA 微调模型在适应任务分布之外不如完全微调模型,尽管分布准确度相当。
最后, 即使在目标任务上低秩 LoRA 表现良好,但更高秩的参数化可能仍然是可取的。低秩 LoRA(r ≤ 8)适合下游任务分布,完全微调和高秩 LoRA(r = 64)让模型泛化能力更强、自适应能力更加鲁棒。然而,为了利用更高的秩,LoRA 更新模型必须是秩稳定的。
沃顿商学院副教授 Ethan Mollick 对此评论道:事实证明,使用 LoRA 定制通用 LLM(Apple 调优其设备内置模型的方式),对 LLM 的限制远大于微调,因为它们失去了一些泛化能力。原因是 LoRA 增加了不祥的侵入维度。
LORA 和完全微调模型的差异
本文采用神经网络参数的奇异值分解 SVD 来理解微调对预训练权值的变化。
特别是,本文测量了用 LoRA 微调过的权重矩阵中的奇异向量或完全微调过的权重矩阵中奇异向量映射到预训练权重中的奇异向量的程度,使用它们的余弦相似性。这些关系如图 1 和图 3 所示,颜色表示预训练和微调奇异向量之间的余弦相似度。
图 2 (b) 中观察到,LoRA 和完全微调的奇异向量与预训练奇异向量的相似度非常不同:与完全微调相比,使用 LoRA 微调的模型的奇异向量与预训练奇异向量的平均余弦相似度似乎要低得多。
图 2 (b) 中左下角有一个唯一的红点,作者将这些新维度命名为侵入维度,其正式定义如下:
LoRA 微调模型包含高秩侵入维度,而完全微调的模型则不包含。为了量化特定权重矩阵的侵入维度集的大小,作者使用图 4 所示的算法。
即使在 LoRA 微调模型学习效果不如完全微调的任务中,侵入维度也存在。
观察图 5b、5c 和 5d,我们可以清楚地看到,即使 LoRA 的 r=256,高秩奇异向量集中仍出现侵入维度。重要的是,当 r=2048 时没有侵入维度,而是展示了与完全微调非常相似的曲线。这支持了早先的发现:随着秩增加超过一个阈值,侵入维度会消失,LoRA 开始趋向于与完全微调相似。
即使使用满秩矩阵执行 LoRA,完全微调更新也比 LoRA 更新具有更高的有效秩。如图 6 所示,可以观察到完全微调解决方案的有效秩明显高于通过 LoRA 学习到的解决方案的有效秩,即使 LoRA 具有更高的秩。
LORA 和完全微调之间的行为差异
在较低秩,LoRA 在持续学习过程中的适应能力较差,会忘记更多之前的任务。该研究在多个任务上按顺序训练 RoBERTa,并测量学习新任务时性能的变化程度。
该研究使用与之前相同的训练方案、数据集,但在持续学习环境中使用以下数据集(按顺序)进行微调:MNLI、QQP、SST-2、SIQA、Winogrande、FEVER。在序列中某个数据集上进行训练后,将 LoRA 权重合并到模型中,并在下一个任务训练之前重新初始化,以便不受之前任务的影响。
在对特定任务进行训练后,该研究对所有任务进行测试,对于每个任务,在测试测试集之前分别重新训练分类头。这能够检查模型在这些任务上表现如何,而无需实际更改模型本身。
结果如图 8 所示。虽然 LoRA 最初与完全微调的性能相当,但较小的 LoRA 秩在持续学习过程中始终表现出更大的性能下降。特别是,对于前三个训练数据集,当 r = 1 时 LoRA 的性能下降到预训练基线以下。随着 LoRA 秩的提高,我们可以看到这种遗忘行为减少,并且更接近于完全微调,甚至在完成持续学习后在 MNLI 上的遗忘也更少。
整体情况是微妙的:虽然在某些情况下,LoRA 似乎忘记得较少,但对于某些任务(以及某些秩)事实上,LoRA 可能会忘记更多。
对于微调到等效测试精度的 LoRA 模型,可以看到一条 U 形曲线,该曲线标识了适合下游任务的最佳等级,同时最小程度的忘记了预训练分布。
图 9 报告了测量的伪损失分数。可以看到完全微调和 r = 768 时的 LoRA 之间呈现 U 形趋势。
相对于完全微调,低秩(r = 1)和高秩(r = 768)都会导致预训练分布的遗忘更大,而对于 r = 64,遗忘较少。也就是说:当 r = 1 时,使用 LoRA 微调的模型受到侵入维度的影响,并且似乎比没有侵入维度的 r = 64 有更多的遗忘。然而,当 r = 768 时,使用 LoRA 微调的模型也表现出更糟糕的遗忘,这表明由于过度参数化,它们对适应任务过度拟合。当 r = 8 和 r = 64 时,遗忘量少于完全微调。
了解更多内容,请参考原论文。
#开发者路线图资源库(developer-roadmap)
GitHub超火开发者路线图库有AI学习路线了!star数近30万
学习 AI 不再迷失方向。
AI 大时代,每天都有层出不穷的新技术、新方法、新模型、新应用…… 想要去学却又似乎无从下手?
这里正好有一个你需要的资源:开发者路线图资源库(developer-roadmap)!而这个资源库中有的还不仅仅是路线图,还有那些路线图中每一步中所需的资源,包括论文/文章、视频、教程、代码、示例等等。真的是不仅要领你进门,更要把你教会。
- 资源链接:https://github.com/kamranahmedse/developer-roadmap
- 官网:https://roadmap.sh
自 2017 年建议以来,这个资源库已经收获了超过 29.7 万 star(是 GitHub 上 star 数排名第七的项目),fork 数也达到了 3.91 万。其中包含前端、后端、AI、移动应用开发、网络安全、技术写作、交互设计等诸多主题的等超过 50 个路线图,并且还涉及不同的编程语言。
此外,其中还有许多社区创建的路线图,并且也支持用户创建自己的路线图。该资源库另一个有趣的探索是让生成式 AI 来生成路线图,这类路线图已经超过 12 万个,但整体并不很受欢迎。
AI 生成的大量路线图
几年来,该资源库帮助了无数开发者规划、开始和完成了自己的学习生涯。也因此,该资源库多年以来收获了无数赞誉,也经常出现在各种「开发者应该关注的 GitHub 库」榜单上。
当然,这个资源库也该入选 AI 开发者应该关注的榜单,其中提供的相关路线图包括 AI 工程师路线图、AI 与数据科学家路线图、提示词工程路线图、MLOps 路线图等,当然还有更加基础一些的计算机科学路线图和 Python 路线图。
- AI 工程师路线图:https://roadmap.sh/ai-engineer
- AI 与数据科学家路线图:https://roadmap.sh/ai-data-scientist
- 提示词工程路线图:https://roadmap.sh/prompt-engineering
- MLOps 路线图:https://roadmap.sh/mlops
- 数据分析师路线图:https://roadmap.sh/data-analyst
除此之外,社区也创建了一些与 AI 相关的路线图,包括 LLM 工程师路线图、生成式 AI(GenAI)路线图、商业智能(BI)路线图、机器学习路线图等。详见其官网。
社区创建的生成式 AI 路线图概览
这个资源库的建立者和维护者 Kamran Ahmed 是英国的一位开发者,他在 2017 年开始建立这个库,并表示这是「一个为开发者提供学习路径和其它视觉内容以帮助他们事业成长的平台。」2022 年,他开始全职运营这个资源库(所以其官网上也有一些付费资源)。除了这个资源库,他还开发了多个软件工具,包括一些插件和实用工具。
下面我们就以 AI 工程师路线图为例,简单展示一下其用法,其它路线图就留给用户自行探索了。
按图索骥成为 AI 工程师
首先可以看到,这个路线图非常长。这也说明了一点,要成为一位合格的 AI 工程师,决非朝夕之功。
一开始,你需要对前端、后端以及全栈开发的知识有所了解。
之后,你可以简单了解 AI 工程师的概念以及工作内容。同时层层递进学习各种基础概念的含义,比如 AI、AGI、LLM、推理、训练、嵌入、向量数据库、AI 智能体、RAG、提示词工程等等。用户可以在点击该路线图上相应的概念直达一些相应的资源,比如下图展示了 AI 智能体概念对应的资源。当然,用户也可以只使用该路线图,然后自行寻找相关资源。
接下来,该路线图进入了了解预训练模型的阶段。在这里,你能了解什么是预训练模型及其好处和劣势。同时,你也可以开始尝试使用 OpenAI、Anthropic 和谷歌等提供商提供的现成 AI 服务。
当然,相信我们的读者已经经历过了上面大部分阶段。
接下来就可以开始尝试更高阶一点的 AI 应用了,包括通过 API 使用 LLM 以及从 Hugging Face 等模型托管网站下载模型自己部署。在这个过程中,你会接触到 AI 服务提供商的 token 计数和定价策略、提示词工程基础以及模型微调等概念。
同时,你也可以开始了解 AI 安全和道德伦理方面的议题,包括 AI 模型越狱攻击、提示词注入攻击、偏见与公平性等等。更进一步,你还可以学习最佳的安全实践,包括 OpenAI Moderation API、对抗测试、限制输入和输出的方法等。
当然,要成为专业的 AI 工程师,可不能止步于使用模型的程度。现在,你已经做好准备开始学习真正的技术了。
从了解嵌入开始,你将学习语义搜索、数据分类、推荐系统等嵌入用例,还将了解开放的 AI 嵌入 API 以及开源的嵌入工具。
更进一步,你将学习向量数据库以及 RAG 的概念和实现方法。这个过程中你将学习 Chroma、Pinecone、Supabase、MongoDB Atlas 等常用向量数据库以及 Langchain、Llama Index 等实现 RAG 的方法。
之后,你或许就可以尝试一下构建 AI 智能体了。这其中涉及到实现方法,如何使用函数和工具以及 OpenAI Assistant API。
再然后,该路线图将带你进入多模态 AI 阶段,让你学会如何让 AI 具备理解图像、声音、视频等非文本数据的能力,以及如何实现文生图、语音生成、图像和视频生成等应用。另外,你也会了解到实现这些应用的好用工具和 API。
该路线图的最后,你将学习如何使用和构建 AI 开发工具,比如 AI 代码编辑器、代码补全工具。在这里你将学会使用一些好用的服务和工具,包括 Cursor、GitHub Copilot 和 Replit 等。
总体而言,这个路线图可以为你从头开始的 AI 工程师之旅提供指引,让你不至于在探索和学习过程中迷茫乃至失去方向。而如果你已经是一位颇有经验的 AI 工程师了,也可以使用这份路线图来梳理自己的知识体系。
当然,诚如前文所言,除了 AI 工程师路线图,该资源库中还包含 AI 与数据科学家、数据分析师、提示词工程师等多个与 AI 相关的路线图。不仅如此,这个开发者路线图资源库中还包含大量与 AI 并不直接相关的路线图,感兴趣的读者请自行探索吧。
#AUTOHALLUSION
当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架
本文的共同第一作者是马里兰大学电子计算机工程系的博士生吴曦旸(https://wuxiyang1996.github.io/)和计算机科学系的关天瑞(https://tianruiguan.phd/)。吴曦旸的研究方向主要涵盖强化学习、自动驾驶,以及大语言模型在机器人导航和计算机视觉中的应用。关天瑞的研究则聚焦于计算机视觉和视觉语言模型在机器人、自动驾驶等领域的应用。本文的指导老师为李典奇,周天翼教授 (https://tianyizhou.github.io/)和 Dinesh Manocha 教授 (https://www.cs.umd.edu/people/dmanocha)。
想象一下,有一天你在沙漠中看到一个雪人,或者在雪地里发现一棵棕榈树。面对这些与周围环境格格不入的景象,你是否会感到心理上的不适?
在认知科学领域,研究者普遍认为人脑倾向于利用以往的经验来解读观察到的信息并构建记忆。然而,当人脑接收到与以往认知不符的信息时,可能会因为 “认知失调”(Cognitive Dissonance)而对外部环境产生误判,进而在行为上表现出矛盾。例如,我们通常认为电脑是由人类操控的,但如果我们看到一只章鱼在操控电脑,这种不符合常理的场景会让人脑产生认知失调的不适感。
随着对大模型的深入研究,研究人员发现,在认知和推理任务上,大模型的思维过程与人脑有一定相似之处。因此,针对人脑认知失调特点设计的实验也能使大模型出现类似的 “幻觉” 现象。
基于这一观察,马里兰大学的研究团队提出了一个名为 AutoHallusion 的视觉大模型幻觉自动生成框架。这一工作基于团队之前在 CVPR 2024 上发表的工作 HalluionBench(https://arxiv.org/pdf/2310.14566)。它通过在场景图像中插入或删除特定物体,并针对这些修改后的图像提问,从而检测大模型在回答时可能出现的幻觉现象。
这一方法能够自动生成大量的大模型幻觉案例,有效缓解当前大模型幻觉研究中数据集缺乏的问题。在 GPT-4V、Gemini 和 Claude 等大模型上的实验表明,这些模型在本文提出的提出的基准数据集上问答准确率最高仅为 66.0%。该研究成果已发表于 EMNLP 2024。
- 论文标题:AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models
- 论文链接:https://arxiv.org/pdf/2406.10900
- 项目主页及代码:https://wuxiyang1996.github.io/autohallusion_page/
文章概述
大型视觉语言模型(LVLMs)在内容生成、自动驾驶和机器人等领域中扮演着重要角色。然而,它们也会出现 “幻觉” 现象,即生成的响应中包含视觉内容中不存在的信息。这些幻觉通常是由于语言模块过度依赖语言先验信息而忽略视觉输入所致。
为了解决这一问题,之前的工作通常收集幻觉案例建立基准数据集,并以此对大模型进行微调,以减少可能存在的幻觉。然而,手动创建幻觉案例和基准既耗时又昂贵。此外,之前的工作对大模型产生幻觉的机制研究有限,在缺乏足够代表性案例的情况下对大模型进行微调,可能会导致模型出现过拟合现象。
为此,本文提出了 AUTOHALLUSION 框架,可以自动生成各种幻觉案例并进行批量生产。该框架基于认知科学原理,针对大模型产生幻觉的原因,提出了三种主要策略:插入异常物体、插入成对物体和移除相关物体,通过操控场景中的物体构成来创建与语言先验相冲突的图像。
为了生成能够触发大模型幻觉的(图像 - 问题)组合,本文针对修改后的图像,设计相应的问题探测大模型的语言模块,定位特定物体或其在相关情境中的语言先验信息。如果大模型的推理受到语言先验的偏见影响,例如在根据图片回答某一特定物体的问题时,大模型根据场景图片的先验知识而非物体本身传递的信息来作答,那么就可能生成与事实不符或前后不一致的响应,从而导致幻觉现象。
AUTOHALLUSION 在包括 GPT-4V、Gemini、Claude 和 LLaVA 等最新的大模型上进行了实验,并整理发布了一个基准数据集,来评估模型性能。在该基准数据集上的实验结果表明,GPT-4V 等大模型的问答准确率最高仅为 66.0%。
数据集地址:https://github.com/wuxiyang1996/AutoHallusion
研究方法
AUTOHALLUSION 的整体流程分为四个部分:
1. 场景生成:AUTOHALLUSION 使用合成或真实世界图像作为场景图。例如,在办公室场景中,假设场景中有电脑、办公桌、办公椅等与办公室主题一致的物体,而不会有炒锅等与主题无关的物体。图像可以通过 DALL-E 等图像生成模型根据提示生成,也可以从 MSCOCO 等公开数据集中提取场景。
2. 图像处理:AUTOHALLUSION 采用三种策略操控场景中的物体构成,以创建与语言先验相冲突的图像:
- 插入异常物体:将与场景主题不相关的异常物体添加到场景中,例如,在办公室场景中添加通常不会出现的炒锅。
- 插入成对物体:对通常一起出现的两个物体进行分离,保留一个并移除另一个。例如,牙刷和牙膏通常一起出现,而在修改后的图像中,只保留牙刷并移除牙膏。
- 移除相关物体:从原场景中移除一个相关物体,例如,在办公室场景中抹除显示器。
3. 构造问题:AUTOHALLUSION 针对图像处理过程中插入或删除的物体进行提问,并相应地构造事实信息。问题主要分为两类:
- 存在性问题:询问目标物体是否存在于图像中,问题提示信息的细节级别不一,从不提供额外信息到提供完整的图像描述。
- 空间关系问题:询问目标物体与场景中其他物体的相对位置,并在问题提示中提供场景物体的名称或描述。
4. 幻觉检测:AUTOHALLUSION 通过对比大模型的回答与事实信息或其他回答,来判断其回答中是否存在幻觉。目前,AUTOHALLUSION 能够检测以下两种类型的大模型幻觉:
- 正确性:大模型的回答与基本事实不一致。
- 一致性:大模型在面对包括不同级别的补充信息的问题时,无法给出一致的答案,或者在针对某一特定物体的提问中,未能提供与图像描述一致的答案。
实验结果
下表展示了通过 AutoHallusion 生成的大模型幻觉案例的成功率,结果显示出以下几个主要发现:
- 插入物体的幻觉生成策略比删除物体的策略更有效。
- 基于物体存在性构建的问题比基于物体空间关系的问题更容易引发幻觉。
- GPT-4V 在防止大模型幻觉方面表现最好。
- 针对真实世界数据集构建的幻觉案例成功率高于合成数据集。本文认为,这可能是由于大模型难以处理真实世界图像中物体语义关系的复杂性所致。
下图展示了针对物体 - 场景对齐关系的消融实验结果。在该实验中,本文采用不同的大模型来生成用于图像编辑的物体,并在视觉问答(VQA)任务中进行评估。
基准数据集指标
本文从以下三个方面评估了通过 AutoHallusion 生成的基准数据集:
- 多样性:衡量数据集中不同场景和对象的数量,包括 200 个(合成)/160 个(真实世界)样本。
- 图像质量:通过原始图像和编辑图像的 IS(Inception Score)分数,以及原始图像与编辑图像之间的 Frechet Inception Distance (FID) 距离来评估。
- 有效性:通过每个样本中引发幻觉的平均问题数量来衡量。
下表展示了 GPT-4V、Gemini、Claude 和 LLaVA 等大模型在通过 AutoHallusion 生成的基准数据集上的表现。