Agent遇上4万个工具？一个Token搞定！-AI.x-AIGC专属社区-51CTO.COM

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Agent遇上4万个工具？一个Token搞定！

发布于 2024-10-30 14:09

浏览

0收藏

ToolGen: Unified Tool Retrieval and Calling via Generation

随着大型语言模型（LLMs）的发展，它们无法与外部工具直接交互以自主执行任务，这仍然是一个关键的限制。传统方法依赖于将工具描述作为上下文进行输入，这受到上下文长度的限制，并且需要单独的、通常效率不高的检索机制。我们引入了 ToolGen，这是一种范式转变，通过将每个工具表示为唯一的token，直接将工具知识集成到LLM的参数中。这使得LLM能够生成工具调用和参数作为其下一次token预测能力的一部分，无缝结合工具调用和语言生成。我们的框架允许LLM访问和利用大量的工具，而无需进行额外的检索步骤，从而大大提高了性能和可扩展性。对超过 47,000 个工具进行的实验结果表明，ToolGen 不仅在工具检索和自主任务完成方面取得了优越的结果，而且为能够适应不同领域工具的新时代 AI 代理奠定了基础。ToolGen 通过从根本上将工具检索转变为生成过程，为更通用、高效和自主的 AI 系统铺平了道路。ToolGen 能够实现端到端的工具学习，并与其他先进技术（如思维链和强化学习）集成，从而扩展了LLMs 的实际能力。代码开源：https://github.com/Reason-Wang/ToolGen

现实场景中，工具可能会很多，无法全部放进模型的上下文中。因此在给定一个用户问题之后，一般会存在一个工具召回模块，它的目标是从一个工具集中找到与用户问题相关的工具来解决这个问题。

经典的ToolBench，有16000个工具集，总共有47000个API。从中捞出来与问题相关的工具，还是很困难的一个问题。

这个过程对应了下图的上半部分。图片上左为工具召回模块，一般借助相似度方法获取数量有限的工具。图片上右就是常见的Agent引擎做出相应的Action。

Agent遇上4万个工具？一个Token搞定！-AI.x社区

而本文介绍的ToolGen，整个流程分为2大步

工具映射到词表id，这样模型做决策的时候，就只需要预测出对应的token id即可

Agent遇上4万个工具？一个Token搞定！-AI.x社区

微调新添加进去的id，分为3小步

输入工具描述，输出对应的工具token id，学习新增id的具体含义
输入query，输出对应的工具token id，学会根据用户问题召回对应的工具
端到端的Agent训练，引导模型输出完整的plan,action,params

Agent遇上4万个工具？一个Token搞定！-AI.x社区

总的来说，ToolGen是将工具检索和执行统一为一个生成任务，简化了检索过程，并且可以与其他LLM功能（如链式推理和强化学习）集成。训练还算容易，最后结果也很亮眼。

Agent遇上4万个工具？一个Token搞定！-AI.x社区

本文转载自探索AGI，作者：猕猴桃

标签

已于2024-11-1 16:17:20修改

赞

收藏

回复

举报

回复

相关推荐

我们 Gemini 时代的下一个篇章

lazihuman • 803浏览 • 0回复
手动实现一个扩散模型DDPM

pangguiyu • 3198浏览 • 0回复
一个命令工具让GPT-4干掉Devin和RAG！Jim Fan：提示工程2.0没必要了！

51CTO技术栈 • 1372浏览 • 0回复
AI下一个重大飞跃是理解情感！第一个具有情商的对话型AI来了

duhorse • 1055浏览 • 0回复
超越Sora核心组件DiT，不再预测下一个token

Crystalcxt • 943浏览 • 0回复
Agents需要一个代码解释器

51CTO技术栈 • 712浏览 • 0回复
Hinton万字访谈：用更大模型「预测下一个词」值得全力以赴

轻薄滴假象 • 603浏览 • 0回复
如何使用GPT-4o函数调用构建一个实时应用程序？

51CTO内容精选 • 1826浏览 • 0回复
OpenAI开源GPT-4 SAE，提供1600万个解释模式

Aceryt • 1534浏览 • 0回复
ACL2024 | NLP-KG：一个比Google Scholar更强大的NLP文献搜索工具

Tang_Lan • 1134浏览 • 0回复
Gptpdf：一个简单巧妙的复杂Pdf解析工具，提升RAG效果

Syrupup • 2265浏览 • 0回复
CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

轻薄滴假象 • 1290浏览 • 0回复
一个更小、更快、更干净的 GraphRAG！！

玄姐聊AGI • 1103浏览 • 0回复
LabelU：一个强大且易用的多模态数据标注工具

AIGC观察者 • 1821浏览 • 0回复
xLAM: 一个赋能AI agent系统的动作大模型家族

sbf_2000 • 519浏览 • 0回复
对连续概率分布的一个常见误解

鱼虫子 • 284浏览 • 0回复
WordLlama：一个开源、快速、轻量级（16MB）的自然语言处理工具包！

乔晨80616 • 513浏览 • 0回复
怎么设计一个自己的大模型？设计一个大模型需要哪些能力？

AI探索时代 • 485浏览 • 0回复
一个轻量级RAG文本切块项目Chonkie

PaperAgent • 283浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

Agent：我要自己管钱包了！ 6天前发布
微软五大Agent联手，这下厉害了！ 2024-11-14 15:54:56发布

热门推荐

多模态大模型能力评测基准全面综述：理解、推理、生成、应用、趋势 0回复

社区专属福利，100%中奖：免费试用、快速上云 0回复

一文彻底搞懂深度学习 - 模型评估（Evaluation） 0回复

2025年人工智能十大趋势！最新预测 0回复

YOLOv11：实时目标检测的新飞跃 0回复

上一篇： AutoGPT Agent：LLM如何实现？

下一篇：搞定网页爬取和数据提取？Crawl4AI带你体验高效AI Agent工作流程

社区精华内容

目录

Copyright © 2005-2024 51CTO.COM 京ICP证060544版权所有未经许可请勿转载