近期,斯坦福大学教授李飞飞团队发表了一份最新的2024年《AI Agent综述》。
一、引言
1.1 背景 (Background)
本文将介绍支持Agent AI概念的相关研究论文、理论背景和现代实现。大型基础模型LLMs和VLMs推动了通用智能机器的发展。
尽管这些模型使用大型文本语料库进行训练,但它们的优越问题解决能力不仅限于传统的语言处理领域。LLMs能够处理复杂的任务,这些任务以前被认为是人类专家或特定领域算法的专属领域,从数学推理到专业法律问题的回答。
最近的研究显示了使用LLMs生成机器人和游戏AI的复杂计划的可能性,这标志着LLMs作为通用智能代理的一个重要里程碑。体现AI是利用LLMs执行任务规划的一系列工作,特别是LLMs的WWW规模领域知识和零样本体现能力,执行复杂的任务规划和推理。
最近的机器人研究也利用LLMs执行任务规划,通过将自然语言指令分解为子任务序列,然后使用低级控制器执行这些子任务。此外,它们还结合环境反馈来提高任务性能。
1.2 概览 (Overview)
多模态Agent AI(MAA)系统是基于对多模态感官输入的理解,在给定环境中生成有效行动的系统家族。随着大型语言模型(LLMs)和视觉语言模型(VLMs)的出现,提出了许多MAA系统,这些系统在从基础研究到应用的各个领域都有应用。这些研究领域通过整合各自领域的传统技术迅速发展,它们共享共同的兴趣,如数据收集、基准测试和伦理观点。本文关注MAA的一些代表性研究领域,即多模态性、游戏(VR/AR/MR)、机器人技术和医疗保健,并旨在提供这些领域的全面知识,以进一步推进研究。具体的学习成果包括MAA概述、方法论、性能评估、伦理考虑以及新兴趋势和未来方向。基于计算机的行动和通用代理(GAs)对许多任务都很有用。要使GA对用户真正有价值,它必须能够自然地与之交互,并泛化到广泛的上下文和模态。我们的目标是培养一个充满活力的研究生态系统,并在Agent AI社区中创建共同的身份和目标感。MAA有潜力在各种上下文和模态中广泛应用,包括来自人类的输入。因此,我们相信这个Agent AI领域可以吸引不同范围的研究人员,促进动态的Agent AI社区和共享目标的发展。
二、Agent AI集成 (Agent AI Integration)
2.1 无限AI代理 (Infinite AI agent)
AI代理的能力在于它们能够根据训练数据和输入信息进行解释、预测和响应。这些代理系统通常具备预测建模、决策制定、处理模糊性和持续改进的能力。然而,这些能力受到它们训练数据范围和算法的限制。例如,一些AI代理能够从新数据中学习,但许多大型语言模型在训练后不会更新它们的知识库。这意味着它们的推断通常只基于最后一次训练时的数据。研究者们正在开发能够将记忆信息从一般基础模型转移到新领域或场景中的无限代理,以实现场景理解、生成和交互编辑。
2.2 大型基础模型与Agent AI (Agent AI with Large Foundation Models)
大型基础模型在创建作为环境约束下代理行为基准的数据方面起着关键作用。例如,使用基础模型进行机器人操纵和导航的研究。这些模型能够生成响应特定语言指令的复杂计划,这标志着它们作为通用智能代理的一个重要里程碑。此外,对于生成特定语言指令下的条件人类运动的研究也在增长,这些研究强调了生成模型在增强AI代理适应性和响应性方面的能力。
2.2.1 幻觉 (Hallucinations)
生成文本的代理可能会出现幻觉,即生成的文本无意义或与提供的源内容不符。幻觉分为内在幻觉和外在幻觉,内在幻觉与源材料相矛盾,而外在幻觉则是生成的文本包含源材料中未包含的额外信息。为了减少语言生成中的幻觉,研究者们探索了使用检索增强生成或其他通过外部知识检索来夯实自然语言输出的方法。
2.2.2 偏见和包容性 (Biases and Inclusivity)
基于LLMs或LMMs的AI代理可能会因为设计和训练过程中的固有因素而产生偏见。这些偏见可能反映在训练数据中,包括对种族、性别、民族、宗教等的刻板印象和偏见。为了确保AI代理的响应和交互包容、尊重并敏感于来自不同背景的广泛用户,研究者们正在采取措施减少这些偏见,并提高代理的包容性。
2.2.3 数据隐私和使用 (Data Privacy and Usage)
AI代理处理、存储和潜在检索用户数据的方式是一个关键的伦理考量。这包括数据的收集、使用和目的,存储和安全性,数据的删除和保留,数据的可移植性和隐私政策,以及数据的匿名化处理。开发者必须确保数据不被用于未经用户同意的目的,并允许用户访问、更正和删除他们的数据。
2.2.4 可解释性和解释性 (Interpretability and Explainability)
AI代理的可解释性和解释性对于理解其决策过程至关重要。这包括在模仿学习中通过上下文提示或隐式奖励函数来学习代理,使其能够捕捉专家行为的关键方面,并减少对大量专家数据的需求。这种方法有助于提高代理在各种任务中的适用性和有效性,并增强其决策的透明度。
2.2.5 推理增强 (Inference Augmentation)
AI代理的推理能力可以通过多种方式增强,包括数据丰富、算法增强、人机交互、实时反馈集成、跨领域知识转移和特定用例的定制。这些方法有助于AI代理在处理复杂任务时提供更准确的推断,并确保其输出的准确性。
2.2.6 监管 (Regulation)
随着Agent AI技术的发展,其在体现系统中的集成为与代理的互动提供了新的可能。为了加快这一进程并减轻Agent AI开发中的工作负担,研究者们提出了开发下一代AI赋能的代理交互管道。这包括开发一个人机协作系统,使人类和机器能够进行有意义的沟通和互动,同时确保这些系统的输出是可预测和安全的。
2.3 紧急能力与Agent AI (Agent AI for Emergent Abilities)
在Agent AI领域,研究者们正致力于开发能够适应新环境和场景的交互式代理,这些代理能够利用通用基础模型的知识记忆来处理未见过的情境。这种紧急机制,即混合现实与知识推理交互,使得代理能够与人类协作,解决复杂环境中的挑战性任务,并探索未见环境以适应虚拟现实。例如,代理可以学习跨模态的微观反应,从网络源收集与交互任务相关的个体知识,并从预训练模型的输出中隐式推断信息。此外,代理还能够在现实agnostic的宏观行为上进行改进,改善语言和多模态领域的交互维度和模式,并根据特定的目标变量和角色进行调整。这种机制展示了Agent AI在适应性和泛化能力方面的潜力,为开发能够理解和互动的复杂自适应AI系统提供了新的方向。
3、Agent AI范式 (Agent AI Paradigm)
3.1 LLMs和VLMs (LLMs and VLMs)
大型语言模型(LLMs)和视觉语言模型(VLMs)是构建Agent AI系统的基础。LLMs擅长任务规划和蕴含丰富的世界知识,而VLMs如CLIP提供了与语言对齐的通用视觉编码器和零样本视觉识别能力。这些模型使得Agent AI系统能够理解和处理文本或视觉输入,为开发能够理解和响应多模态输入的智能代理提供了可能。
3.2 Agent Transformer定义 (Agent Transformer Definition)
与使用固定的LLMs和VLMs不同,Agent Transformer模型能够将视觉标记和语言标记作为输入,同时引入了“代理标记”这一新概念。这些代理标记为模型的输入和输出空间保留了特定的子空间,用于代理行为。这种模型不仅能够处理视觉和语言输入,还能够学习特定的代理任务,如机器人控制或API调用,提供了一种统一的训练多模态Agent AI的方法。
3.3 Agent Transformer创建 (Agent Transformer Creation)
Agent Transformer的创建涉及到定义代理在特定领域内的目标和行动空间。这包括确定代理需要执行的具体任务,并为每个任务分配唯一的代理标记。通过这种方式,代理模型能够被训练以执行特定的目标,并且能够根据环境反馈进行优化。这种方法允许利用预训练模型学习到的特征和知识,同时通过领域特定的数据来提升性能。
4、Agent AI学习 (Agent AI Learning)
4.1 策略和机制 (Strategy and Mechanism)
在Agent AI的学习过程中,策略和机制是至关重要的组成部分。这涉及到如何利用现有的大型基础模型和训练策略来提升代理的性能,以及如何通过不同的学习方法来优化代理在特定环境中的行为。
4.1.1 强化学习 (Reinforcement Learning (RL))
强化学习是一种让代理通过与环境的交互来学习最佳行为策略的方法。在Agent AI中,RL被用来训练代理以执行复杂任务,如机器人控制。代理通过尝试不同的行动并根据结果接收奖励或惩罚来学习,从而优化其行为以获得最大的累积奖励。
4.1.2 模仿学习 (Imitation Learning (IL))
模仿学习通过模仿专家的行为来训练代理。在这种方法中,代理观察专家的决策和行动,然后尝试复制这些行为。这种方法特别适用于那些难以通过传统RL方法学习的任务,因为它可以直接从专家的经验中学习,而不需要通过试错来发现有效的行为。
4.1.3 传统RGB (Traditional RGB)
在传统的RGB(红绿蓝)模型中,代理通过处理视觉信息来学习任务。这些模型通常需要大量的数据和复杂的算法来处理高维的视觉输入,如图像和视频。随着深度学习技术的发展,这些模型在图像识别和场景理解方面取得了显著进展。
4.1.4 上下文学习 (In-context Learning)
上下文学习是一种利用大型语言模型的内部知识来执行任务的方法。通过在模型的输入上下文中提供示例或提示,代理能够学习如何执行特定的任务,而无需大量的标注数据。这种方法在自然语言处理任务中尤其有效,并且可以扩展到多模态任务中。
4.1.5 代理系统中的优化 (Optimization in the Agent System)
在代理系统中,优化涉及多个方面,包括如何提高代理的决策质量、如何更有效地利用资源以及如何改进代理的长期性能。这可能包括调整代理的奖励函数、改进学习算法或增强代理的适应性和鲁棒性。
4.2 代理系统 (Agent Systems)
4.2.1 代理模块 (Agent Modules)
代理模块是构成复杂Agent AI系统的基本单元。这些模块可以负责特定的任务,如感知、决策、记忆和行动。通过组合不同的模块,可以构建出能够执行多任务的高级代理系统。每个模块都可以专门化,以提高整个系统的性能和效率。
4.2.2 代理基础设施 (Agent Infrastructure)
代理基础设施提供了支持Agent AI系统运行所需的技术和服务。这包括数据存储、计算资源、通信协议和用户界面等。一个强大的代理基础设施能够确保代理系统能够高效、可靠地运行,并能够适应不断变化的需求和环境。
4.3 代理基础模型 (Agentic Foundation Models)
代理基础模型是指那些预训练的、能够为Agent AI系统提供强大功能和知识的模型。这些模型可以是LLMs、VLMs或其他类型的AI模型,它们通过预训练获得了广泛的知识和技能,可以被微调以适应特定的任务或领域。使用这些模型可以加速Agent AI系统的开发,并提高其性能。