引言

近期,在美国红杉AI峰会上,备受瞩目的人工智能领域权威吴恩达教授发表了关于AI Agent的前沿趋势与深刻见解。他指出,与常规的大型语言模型(LLM)应用相比,Agent工作流程展现出更为迭代和对话式的特点,为我们在AI应用开发领域开辟了新的思路。

在这次峰会上,吴恩达教授深入探讨了AI Agent的发展前景,这是一个令所有AI开发者和研究者都感到振奋的课题。他阐释了Agent工作流程的核心特性:相较于追求即时反馈,它更倡导通过持续的交流和迭代过程来交付任务,从而实现更优的成果。

Agent工作流程的特点

传统的LLM使用方式类似于一次性的输入和输出,而Agent工作流程则像是一个持续的对话,通过多次迭代来优化输出结果。这种方法要求我们改变与AI的互动方式,更多地将任务委托给Agent,并耐心等待其提供的结果。 agent_workflow

四种主要的Agent设计模式

吴恩达教授介绍了四种主要的Agent设计模式,每一种都展现了提高AI能力的潜力。

agentic_reasoning_design_patterns

  1. Reflection(反思)

    • Agent通过自我审视和修正输出,提高结果的质量。例如,在代码编写中,Agent能够自我反思并修正错误,从而生成更优质的代码。

Agent Reflection 是一个工具,我认为我们许多人都在使用,它就是起作用的工具。我认为它得到了更广泛的认可,而且实际上效果相当好。我认为这些是相当健壮的技术。当我使用它们时,我几乎总能让它们运行得很好,规划和多 Agent 合作。

我认为这更多是一个新兴的领域,当我使用它们时,有时候我对它们的表现感到惊讶,但至少在此刻,我感觉我不能总是可靠地让它们工作。让我通过几个方面来讲解这四种设计模式。如果你们中的一些人回去自己尝试,或者让你们的工程师使用这些,我认为你们会很快获得生产力的提升。

关于Reflection,这里有个例子。比方说我让一个系统为我写代码完成一个给定的任务。然后我们有一个编码 Agent ,只是一个你提示写代码的 LLM ,比如说,“嘿,定义 doTask,像这样写一个函数。”

自我 Reflection 的一个例子可能是,如果你然后用类似这样的提示对 LLM 进行提示:“这里有一段代码是为了完成一个任务,只是把它们刚刚生成的完全相同的代码给它,然后说,仔细检查代码的正确性、效率、构造是否良好。只需要像这样写一个提示。”

结果可能是,你提示写代码的同一个 LLM ,可能能够发现诸如第 5 行的这个错误,并通过某种方式修复它。如果你现在拿它自己的反馈给它,并重新提示它,它可能会得出一个第二版本的代码,这个版本的代码可能比第一版本工作得更好。

不保证,但它经常足够有效,对很多应用来说值得一试,预示着如果你让它运行单元测试,如果它未通过单元测试,那么为什么会未通过单元测试?有那样的对话或许能弄清楚为什么未通过单元测试。所以试着改变一些东西,可能得到第三版本。

顺便说一下,对于那些想要了解更多这些技术的人,我对它们感到非常兴奋,对于四个部分中的每一个,我都在底部有一个推荐阅读部分,那里,包含了更多的参考资料。

再次预示,多 Agent 系统,我描述的是一个单独的代码 Agent ,你提示它进行自我对话。这个想法的一个自然演化是,不是一个单独的代码 Agent ,你可以有两个 Agent ,其中一个是代码 Agent ,另一个是批评 Agent 。这些可以是相同的基础 LLM ,但以不同的方式进行提示。我们说一个,你是专家级的代码撰写者,对吧?写代码。另一个说,你是专家级的代码审查者,审查这段代码。

这种工作流实际上很容易实现。我认为这是一种非常通用的技术,对许多工作流程而言。这将显著提高 LLM 的性能。

  1. Tool Use(工具使用)

    • LLM能够生成代码和调用API,执行实际操作,从而扩展了其应用范围。这种模式下,LLM不仅能够生成文本,还能够与外部工具和接口交互。

tool-use

第二种设计模式是许多人已经看到的,基于 LLM 的系统使用的工具,左边是一个来自 Copilot 的截图。右边是我从 GPT-4 中提取的东西,但今天的 LLM ,如果你问它,什么是网上搜索中最好的咖啡机,对某些问题, LLM 会生成代码并运行代码。事实证明,有很多不同的工具被许多不同的人用于分析、获取信息、采取行动、个人生产力。

早期的工作转向使用,原来是在计算机视觉社区。因为在 LLM 之前,它们无法处理图像。所以唯一的选择是生成一个可以操纵图像的函数调用,比如生成一个图像或进行对象检测等。如果你实际上看看文献,很有趣的是,很多在使用方面的工作似乎都起源于视觉领域,因为在 GPT-4 等出现之前, LLM 对图像是盲目的,这就是使用,并扩展了 LLM 可以做的事情。

  1. Planning(规划)

    • Agent能够分解复杂任务并按计划执行,展现了AI在处理复杂问题上的能力。规划算法使得Agent能够更有效地管理和完成任务。

planning

然后是规划,对于那些还没有大量玩过规划算法的人,我感觉很多人谈论 ChatGPT 时刻,你会惊叹,从未见过这样的东西。我认为你还没有使用规划算法。许多人会对 AI Agent 有种惊讶的感觉。

我无法想象 AI Agent 能做得这么好。我进行过实时演示,其中一些失败了,AI Agent 绕过了这些失败。我实际上遇到了不少这样的情况,是的,我无法相信我的 AI 系统刚刚自主地做到了那一点。

但一个从 HuggingGPT 论文中改编的例子,你说,请生成一张图片,图片中的女孩在读书,而且与图像示例 dot jpeg 中的男孩姿势相同,请用语音描述新图像。所以给出这样一个例子,今天有 AI Agent ,你可以决定首先需要做的是确定男孩的姿势。然后,找到正确的模型,可能在 HuggingFace 上提取姿势。接下来需要找到姿势图像模型来合成一张女孩的图片,遵循指令。然后使用图像检测,最后使用文本到语音。

今天我们实际上有 Agent ,我不想说它们工作得很可靠,它们有点挑剔。它们不总是工作,但当它工作时,实际上相当了不起,但有了 Agent 性循环,有时你也可以从早期的失败中恢复过来。所以我发现我已经在使用研究 Agent 。所以我的一些工作,一部分研究,但我不觉得,自己去谷歌搜索并花很长时间。我应该发送给研究 Agent ,几分钟后回来看看它找到了什么,有时它有效,有时没有,但这已经是我的个人工作流程的一部分了。

  1. Multiagent Collaboration(多Agent协作)

    • 多个Agent扮演不同角色合作完成任务,模拟了一个真实的工作环境中的协作。这种方式的强大之处在于它能够让LLM不仅仅是执行单一任务的工具,而是成为一个能够处理复杂问题和工作流程的协作系统。

multiagent_collaboration

最后一个设计模式,多 Agent 合作,这个,听起来很有趣,但它的效果比你可能想象的要好得多。左边是一篇名为 ChatDev 的论文的截图,这完全是开源的,实际上是开源的。你们许多人看到了,闪亮的社交

媒体发布的 demo,ChatDev 是开源的,在我的笔记本电脑上运行。ChatDev 是一个多 Agent 系统的示例,你可以提示一个 LLM 有时表现得像软件工程公司的 CEO,有时像设计师,有时像产品经理,有时像测试人员。

通过提示 LLM 告诉它现在你是 CEO,现在你是软件工程师,它们合作,进行扩展的对话,以至于如果你告诉它,请开发一个游戏,开发一个多人游戏,它们实际上会花费几分钟编写代码,测试它,迭代它,并最终生成一个出人意料的复杂程序。

这种多 Agent 合作听起来可能有些奇特,但实际上它的效果比你可能想象的要好。这不仅仅是因为这些 Agent 之间的合作能够带来更加丰富和多样的输入,而且因为它能够模拟出一个更加接近真实工作环境的场景,其中不同角色和专业知识的人员为了共同的目标而努力。这种方式的强大之处在于它能够让 LLM 不仅仅是执行单一任务的工具,而是成为一个能够处理复杂问题和工作流程的协作系统。

这种方法的潜在价值巨大,因为它为自动化和提升工作流程的效率提供了新的可能性。例如,通过模拟一个软件开发团队的不同角色,一个企业可以自动化某些开发任务,从而加快项目的进度并减少错误。同样,这种多 Agent 合作方式也可以应用于其他领域,如内容创作、教育和培训、以及策略规划等,进一步拓宽 LLM 在各个行业的应用范围。

Agent工作流程的潜力与挑战

尽管这些Agent工作流程充满了潜力,但在快速发展的同时,也存在一些挑战。有的设计模式已经比较成熟可靠,而有的则仍存在不确定性。此外,快速token生成的重要性不容忽视,它能够让即使是基于质量较低的LLM,通过快速迭代生成新token,也可能获得良好的结果。

案例研究和实际应用

吴恩达教授通过案例研究和实际应用,进一步说明了Agent工作流程的有效性。例如,使用Human Eval Benchmark进行编码分析,以及GPT-3.5和GPT-4的性能比较,都显示了Agent工作流程的优越性。特别是在软件开发领域,多Agent系统的应用示例展示了如何通过模拟真实工作环境中的不同角色来提高开发效率和减少错误。

未来展望

吴恩达教授认为,AI Agent的能力将大幅扩展,我们需要学会与AI Agent合作的新工作方式。快速迭代和早期模型的潜力,预示着AI在各个领域的应用将更加广泛和深入。

总结

conclusion

通过 Agent Reflection、规划与多 Agent 合作等设计模式,我们不仅能够提升 LLM 的性能,还能够拓展它们的应用领域,使它们成为更加强大和灵活的工具。随着这些技术的不断发展和完善,我们期待着未来 AI Agent 能够在更多的场景中发挥关键作用,为人们带来更加智能和高效的解决方案。

它并不总是有效。我用过它。有时候它不起作用,有时候它令人惊讶,但这项技术确实在变得更好。还有一个设计模式,事实证明,多 Agent 辩论,即不同 Agent 之间的辩论,例如,可以让 ChatGPT 和 Gemini 互相辩论,这实际上也能带来更好的表现。

因此,让多个模拟的空气 Agent 一起工作也是一个强大的设计模式。总结一下,我认为这些是我见过的模式。我认为,如果我们能够使用这些模式,我们中的许多人可以很快实现实践上的提升。我认为, Agent 推理设计模式将会很重要。

这是我的简短总结幻灯片。我预计,因为 Agent 工作流,AI 能做的任务将在今年大幅扩展。一个实际上让人难以习惯的事情是,当我们向 LLM 发出提示时,我们希望立即得到回应。实际上,十年前当我在 Google 讨论我们称之为大框搜索时,输入长提示的原因之一,我未能成功推动的原因之一是因为当你进行网络搜索时,你希望在半秒钟内得到回应,对吧?这就是人性,即时抓取,即时反馈。

对于许多 Agent 工作流,我认为我们需要学会将任务委托给 AI Agent ,并耐心等待几分钟,甚至几小时以获得回应,但就像我见过许多新手经理将任务委托给某人,然后五分钟后检查一样,对吧?这不是生产性的。

我认为我们也需要学会这样做,与我们的一些 AI Agent 打交道,虽然这很难。我以为我听到了一些损失。然后一个重要趋势是,快速 token 生成器很重要,因为在这些 Agent 工作流中,我们不断迭代。所以 LLM 为 LLM 生成 token ,能够以远超任何人阅读速度的速度生成 token 是非常棒的。

我认为,即使是来自稍微低质量的 LLM ,快速生成更多 token 也可能与来自更好 LLM 的慢 token 相比,获得好的结果。这可能有点争议,因为它可能让你更多次地绕这个循环,有点像我在第一张幻灯片上展示的 GPDC 和一个 Agent 架构的结果。

坦率地说,我非常期待 Claude5 和 Claude4,GPT-5 和 Gemini 2.0 以及所有这些你们正在构建的精彩模型。我部分感觉,如果你期待在 GPT-5 上运行你的东西,零次射击,你可能真的会在某些应用上获得比你想象的更接近那种水平的表现,通过 Agent 推理,但在一个早期模型上,我认为,这是一个重要趋势。

老实说,通往 AGI 的道路感觉像是一次旅程而非一个目的地,但我认为这种 Agent 工作流程可能帮助我们在这个非常长的旅程上向前迈出一小步。

本文是转载文章 珩小派,版权归原作者所有。建议访问原文,转载本文请联系原作者。