2025 年将是 AI Agent 发展的重要一年。
谷歌最近发布了一篇关于 Agent 的白皮书。以下是白皮书的主要内容:
- AI Agent 简介
- 工具在 Agent 中的角色
- 通过针对性学习提升模型性能
- 使用 LangChain 快速上手智能体
- 利用 Vertex AI Agents 构建生产级应用
这是学习 AI Agent 的绝佳起点。
什么是 Agent ?
他们将生成式 AI Agent 定义为“一个通过观察世界并利用其可用工具采取行动来实现目标的应用程序。”
组件
以下是通用 Agent 架构及其组件的概览:
- 用于驱动决策的模型
- 与外部数据和服务交互的工具
- 用于管理 Agent 如何获取信息、进行推理/规划并采取行动的协调机制
模型 V.S. Agent
以下是一张清晰的对比表,用于理解独立模型与 Agent 之间的区别。
具备 ReAct 推理的 Agent
以下是一个在协调层中使用 ReAct 推理构建的 Agent 示例。它通过 1 到 n 次的循环进行思考、采取行动(伴随输入)和观察,并且可以访问关键工具来尝试完成任务。
扩展
扩展以标准化的方式弥合 Agent 与 API 之间的差距。它能够帮助 Agent 根据用户的请求决定选择哪个 API。
函数
函数支持在客户端执行 API 调用,并为开发者提供更大的控制权。
函数调用生命周期
一张非常有趣的图表展示了函数调用的生命周期。请注意,函数本身并不直接与 API 交互。客户端会拦截 JSON 数据并发起 API 调用,然后将结果用于 Agent 的最终响应。
数据存储
通过向量数据库提供对结构化和非结构化数据的访问。
关于数据存储的更多信息
数据存储通常以向量数据库的形式实现。同时,还可以提供各种格式的数据给 Agent。
RAG
关于 RAG 的内容不多,但这张图总结了一个典型的 Agentic RAG 系统的样子。Agent 可以包含从推理循环到访问帮助增强检索数据的工具等多个组件。
白皮书链接:
https://www.kaggle.com/whitepaper-agents