今天给大家分享一份《2024大语言模型能力测评报告》

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_人工智能

2023年,中央及地方围绕基础设施、算法、算力、数据等领域出台多项政策,坚持发展和安全并重、促进创新和依法治理相结合的原则,鼓励和规范作为硬科技的Al大模型产业发展。

百度、阿里、腾讯、智谱Al、百川智能等多家企业和机构,按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续,获得备案批准,对公众全面开放,标志着大模型发展进入新阶段,加速推动大模型产业化应用。

2024大语言模型能力测评报告(部分展示)

一、大模型市场发展洞察

2023年,全球大模型市场进入爆发阶段

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_人工智能_02

2023年中央及地方政府积极制定政策⿎励和规范大模型产业发展

2023年,中央及地方围绕基础设施、算法、算力、数据等领域出台多项政策,坚持发展和安全并重、促进创新和依法治理相结合的原则鼓励和规范作为硬科技的AI大模型产业发展。

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_人工智能_03

2023年下半年,中国百模大战掀开序幕

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_LLM_04

从头部企业到百模家族,大模型井喷式爆发增长

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_大模型_05

在法规的指导下,部分产品开始持证上岗

百度、阿里、腾讯、智谱A1、百川智能等多家企业和机构,按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续,获得备案批准,对公众全面开放,标志着大模型发展进入新阶段,加速推动大模型产业化应用。截止到2023年12月31日,已有两批超过20个大模型获得备案,面向公众开放。应用范围涵盖自然语言处理、图像识别、语音识别等多个领域,可应用于金融、医疗、教育等各个领域。

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_语言模型_06

2023年,中国大模型产品从通用产品向多行业拓展

2023年公布的中国大模型产品中,84.57%的大模型产品为非通用行业模型。其中工商业经济、教育医疗占比均高于通用模型占比。

数据结果统计显示中国大模型产品发布时间集中于Q2和Q3,占比达全年的80.32%。

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_人工智能_07

2023年,模型层百花齐放,并逐渐开始应用探索

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_ai_08

从通用大模型到大模型产品,大模型细分应用赛道不断涌现

2023年国内主要科技公司在推出通用大模型的同时,也正在根据企业资源特征、用户使用场景、生态圈层需求等将通用大模型产品逐渐扩展成为覆盖多个应用场景的产品家族。大模型头部厂商逐渐形成。

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_LLM_09

2023年大模型从极客世界走向大众

从定邀小众用户到 APP 端大众可以直接下载,大模型产品正在从极客世界走向更多大众。

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_人工智能_10

2023年下半年,中国大模型用户开始真正使用产品

2023年9月起, 中国大模型产品开始陆续开放公众注册和使用功能,

以开发者为例,用户大模型产品开始使用时间67.17%集中在2023年下半年。

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_LLM_11

2023年,中国大模型正在进⼊更多用户的认知心智中

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_人工智能_12

二、大模型产品测评方法和综合结果

大模型综合测评产品和版本

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_LLM_13

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_语言模型_14

大模型综合测评题库说明

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_人工智能_15

部分进阶能力板块获得高得分率,大模型能力整体提升

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_人工智能_16

核心发现——大模型“进阶能力”大幅提升

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_ai_17

核心发现——编程能力得到开发者认可,付费率达63.5%

大模型产品因在开发者中广泛使用,编程能力提升迅速,编程题平均得分87%,较上次测试得分率提升49.45%。

作为首批使用大模型产品的用户,开发者对大模型整体认可程度高,付费率高达63.5%。付费超过1000元的开发者与12.1%。

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_大模型_18

核心发现——上下文能力攻坚,水平大幅提升

精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)_LLM_19