斯坦福大学、耶鲁大学、南加州大学等研究人员联合开源了,专用于代码定位的智能体LocAgent。在软件开发和维护领域,代码定位是开发者日常工作中的核心任务之一,需要开发者根据问题描述,例如,错误报告、功能请求或性能问题等,快速、准确地找到需要修改的代码片段。但传统代码定位方法在处理复杂代码库时,面临复杂代码库导航困难,问题描述与代码实体之间的语义鸿沟,多跳推理的困难等。而LocAgent可以有效解决这些难题,能...
昨晚,谷歌在GoogleCloudNext25大会上,开源了首个标准智能体交互协议——Agent2AgentProtocol(简称A2A)。A2A将彻底打破系统孤岛,对智能体的能力、跨平台、执行效率产生质的改变,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企业应用平台。简单来说,这个A2A交互协议有点当年谷歌牵头80多家企业搞安卓系统的味道,因为首批就有50多家著名企业加入。...
全球AI领导者英伟达开源了,用于实体机器人和自动化驾驶的超大训练数据合集——NVIDIAPhysicalAIDataset。这个数据集一共15T,涵盖了超过320,000个机器人训练轨迹,以及多达1,000个通用场景描述,还包括一个SimReady集合。此外,用于支持端到端自动驾驶汽车(AV)开发的专用数据即将推出,这些数据将包括来自美国1,000多个城市和欧洲二十多个国家的多样化交通场景的20秒剪辑,这对于训练自动化驾驶非常珍贵。开源地址:http...
今天凌晨4点,著名大模型训练平台TogetherAI和智能体平台Agentica,联合开源了新模型DeepCoder14BPreview。该模型只有140亿参数,但在知名代码测试平台LiveCodeBench的测试分为60.6%,高于OpenAI的o1模型(59.5%),略低于o3mini(60.9%)。在Codeforces、AIME2024上的评测数据同样非常出色,几乎与o1、o3mini差不多。值得一提的是,TogetherAI不仅开源了DeepCoder14B模型权重,还把训练数据集、训练方法、训练日志和优化方法全...
今天凌晨1点半,Meta生成式AI领导者AhmadAlDahle在社交平台发布了一篇长文,对前天刚开源的Llama4质疑进行了官方回应。Ahmad表示,Llama4一开发完就发布了,所以,不同服务中模型质量难免会有一些差异。Meta很快会修复这些漏洞提升性能。同时否认在测试集上进行了预训练。但Meta在官网发布时特意点名DeepSeek,说他们新开源的Llama4Maverick在代码能力可以比肩其新开源的V3模型,国内不少知名媒体也以此为噱头来写标题。现在看...
上周四,OpenAI宣布其AgentSDK支持MCP之后,在智能体赛道产生了巨大影响,功能、开发流程都有了质的改变。并且OpenAI的桌面版ChatGPT、API也很快支持MCP。但很多人不知道去哪里找这些高效、实用的MCP服务。今天「AIGC开放社区」就为大家盘一盘,包括浏览器、数据库、文件系统、论文搜索、金融分析、游戏、知识检索、定位服务、网络安全等100多个开源MCP,无限扩展智能体武器库,打造自己的Manus。目前,这个开源MCP合集算是gith...
2025-03-31 09:41:43 1819浏览 0点赞 0回复 0收藏
微软、清华的研究人员联合发布了SECOM,一种专用于个性对话Agent的记忆构建和检索的创新方法。研究人员在LOCOMO和LongMTBench+两个超复杂数据集上进行了综合评估。LOCOMO数据集的对话平均长度超过300轮,包含约9000个标记的对话片段,是目前最长的对话数据集之一。LongMTBench+则通过合并多个会话构建更长的对话,平均包含约65轮对话。结果显示,LOCOMO数据集上,SECOM的GPT4Score达到71.57,比全历史方法高出17.42分,比轮次级...
2025-03-31 09:34:59 495浏览 0点赞 0回复 0收藏
加州大学伯克利分校、苏黎世联邦理工学院等多所高校的研究人员,深入剖析了大模型在执行Agent任务时面临的困境——过度思考。为了量化这种行为,研究人员开发了一套系统评估框架,并通过4018条轨迹分析发现,高推理努力配置的模型虽然解决了29.1%的问题,但成本高达1400美元;而低推理努力配置则以3.5倍更低的成本达到了21.0%的成功率。此外,生成两个低推理解决方案并选择其中一个具有较低过度思考得分的方法,实现了27.3%的解...
2025-03-26 10:58:20 630浏览 0点赞 0回复 0收藏
今天凌晨2点,OpenAI进行了技术直播,对GPT4o和Sora进行了重大更新,提供了全新文生图模型。除了文生图之外,该模型还支持自定义操作、连续发问、风格转换、图像PPT等超实用功能,例如,更改图片的宽高比、图像物体中的角度,用十六进制代码指定精确颜色等。尤其是生成图像的逼真度,肉眼几乎看不出任何破绽,在精细度、细节和文本遵循方面非常出色,可以媲美甚至在某些功能超过该领域的头部平台Midjourney。新图像模型功能展示...
2025-03-26 10:54:54 864浏览 0点赞 0回复 0收藏
昨晚,国内著名大模型平台DeepSeek开源了V3模型的最新版本0324。不过DeepSeek相当低调,国内的公众号、国外的社交平台没有做任何宣传,就是“悄悄”地把模型上传到huggingface。根据国外网友测试显示,V30324最大亮点之一就是代码能力,只需要简单的文本提示就能快速开发各种网站、App,可以比肩目前全球最强的闭源代码模型Claude3.7Sonnet思维链版本。但V30324是开源且免费的,推理效率更快。开源地址:https:huggingface.code...
2025-03-25 10:35:10 821浏览 0点赞 0回复 0收藏
全球AI领导者英伟达在“GTC2025”开发者大会上宣布,开源人形机器人通用大模型GR00TN1。该模型能够处理多模态数据,包括语言、图像、视频,可在家务、工厂等多样化环境中执行复杂操作任务。值得一提的是,GR00TN1的核心架构采用了模拟人类思维的“快慢思考”模式,可以让机器人的做法、思维更像人类,从而提升动作指令准确率。开源地址:https:huggingface.convidiaGR00TN12BGR00TN1的核架构的设计灵感来源于人类的快慢思维处理...
2025-03-20 10:39:11 915浏览 0点赞 0回复 0收藏
今天凌晨,知名大模型训练、开发平台Predibase发布了,首个端到端强化微调平台(RFT)。与传统的监督式微调相比,RFT不依赖大量的标注数据,而是通过奖励和自定义函数来完成持续的强化学习,同时支持无服务器和端到端训练方法,从数据管理、训练模型到应用部署可以在同一个平台全部完成。也就是说,你只需要一个浏览器,设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。在线体验地址:https:predibase.comreinf...
2025-03-20 10:36:16 1064浏览 0点赞 0回复 0收藏
AMD在官网开源了最新小参数模型Instella3B。比较特别的是,这是一个基AMDInstinct™MI300XGPU从头训练的模型。根据测试数据显示,Instella3B的性能超过了Llama3.23B、Gemma22B,可以媲美阿里开源的Qwen2.53B,这也证明了AMD的GPU也能训练出高性能的大模型。开源地址:https:huggingface.coamdInstella3BInstella3BSFT是经过监督微调的模型,使用了89.02亿tokens的数据,增强了遵循指令的能力。Instella3BInstruct则是经过直接偏...
2025-03-19 12:06:37 821浏览 0点赞 0回复 0收藏
今天凌晨,全球AI领导者英伟达(Nvidia)在美国圣何塞举办了“GTC2025”全球产品、开发者大会,涵盖大模型、AIAgent、实体机器人、AI专用芯片、量子计算等技术分享。其中,英伟达在官网宣布与Oracle(甲骨文)达成技术合作,提供160多种原生AI工具和100多个微服务,帮助企业构建超复杂、无缝衔接的Agent应用,将复杂、重复的数字业务实现自动化。还开源了一个专用于Agent的基础模型LlamaNemotron,目前,微软、埃森哲、德勤、SA...
2025-03-19 12:02:26 899浏览 0点赞 0回复 0收藏
昨晚,全球最大金融媒体CNBC消息,OpenAI向特朗普政府提交了一份最新的15页报告,从监管政策、出口限制、AI基础设施等多个维度介绍了,美国该如何保持全球AI领导地位。特朗普上台后,立刻就废除了拜登时期发布的14110号非常严厉的AI监管命令,并要求在180天内提交一份有效的AI发展计划。而这份报告就是计划之一。OpenAI在原报告中写道:“尽管美国目前在AI领域仍保持领先,但DeepSeek显示我们的领先优势并不大,并且正在缩小。...
2025-03-14 13:31:05 1343浏览 0点赞 0回复 0收藏
昨晚,谷歌CEOSundarPichai宣布,开源最新多模态大模型Gemma3,主打低成本高性能。Gemma3共有10亿、40亿、120亿和270亿四种参数。但即便最大的270亿参数,只需要一张H100就能高效推理,同类模型要达到这个效果最少要提升10倍算力,也是目前最强小参数模型。根据盲测LMSYSChatbotArena数据显示,Gemma3仅次于DeepSeek的R1671B,高于OpenAI的o3mini,Llama3405B等知名模型。DeepSeek的R1是相当有排面,国内外发布高性能低成本模型...
2025-03-13 13:00:26 1724浏览 0点赞 0回复 0收藏
3月12日凌晨1点,OpenAI进行了技术直播,开源了首个AgentSDK以及发布了ResponsesAPI,极大简化、增强智能体开发流程。AgentSDK特色功能之一就是支持多Agent之间的动态任务协作,可以像Manus那样开发超复杂的智能自动化业务流程。例如,跨国电商需要处理来自全球不同地区的订单,通过AgentSDK可以开发语言识别、库存查询、订单实时更新、售后服务等多个Agent,并且在整个销售、售后的过程中让它们之间协同自动化工作。ResponsesA...
2025-03-12 10:19:50 1398浏览 0点赞 0回复 0收藏
今天凌晨1点,OpenAI发布了最新研究,用CoT(思维链)监控的方式,可以阻止大模型胡说八道、隐藏真实意图等恶意行为,同时也是监督超级模型的有效工具之一。OpenAI使用了最新发布的前沿模型o3mini作为被监控对象,并以较弱的GPT4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。随着o1、o3、R...
2025-03-11 10:07:54 1111浏览 0点赞 0回复 0收藏
福布斯官网消息,中国AI初创企业Manus发布了,全球首个完全自主通用AIAgent,彻底改变一切。Manus与传统人机协作模式的智能体有很大不同,是完全自主自动化执行任务,例如,想让Manus帮你在巴黎找一套公寓,它会考虑周边犯罪统计数据、租金趋势、房间大小、天气等情况,然后根据你的详细要求,找出最符合标准的房产信息。根据Manus公布的通用测试平台GAIA数据显示,Manus在1级、2级、3级通用任务上,全部大幅度超过了OpenAI发布...
2025-03-10 10:14:22 1231浏览 0点赞 0回复 0收藏
今天凌晨3点,全球著名投资基金、咨询公司AndreessenHorowitz(简称a16z)发布了,2025年全球100生成式AI应用排行榜。本次榜单一共分为50生成式AI应用(网页)和50生成式AI(移动版),DeepSeek在网页版中排名第二,仅次于ChatGPT,从默默无闻到一鸣惊人仅用了不到2个月的时间。值得一提的是,中国其他知名大模型也进入了该排行榜,字节跳动的豆包排名第10;月之暗面排名11;海螺视频排名12;快手可灵排名20,全部超过了Sora、M...
2025-03-07 10:44:31 1435浏览 0点赞 0回复 0收藏