本文主要用通俗易懂的方式介绍了大模型是什么,怎么用,以及用哪个排行榜选型的思路等问题
AI 大模型是什么意思?
一句话讲: 大模型机器模拟人脑,用权重方式存储大量知识和方法的人工智能系统。
大模型能够处理多种输入形式如文字、语音或图片,并生成相应的,以文字,语音,图片或行动为根基的输出。、
之所以被称为“大”模型,是因为这些基于Transformer架构的模型都有一个核心假设:随着训练数据量的增加及模型内参数(可类比为神经元)数量的增长,其性能也会显著提升,从实际的测试来说,也是如此,甚至在维度足够大以后,能够涌现出更强的泛化性解决问题的能力。
目前最先进的大模型已经拥有数百亿甚至更多参数,这使得它们在各种任务上表现出色。
大模型这轮创新,有哪些本质性的突破?
本轮大模型创新的核心突破点在于:
首先,大模型的理解能力显著提升,能够精准捕捉用户通过图片、文字或语音表达的需求;
其次,它们能够以自然流畅的形式与人交流,使交互过程更加人性化。
此外,这些模型展现出了一定的任务泛化能力,比如学会了下棋后,能够将策略应用于其他类似的游戏场景中。
基于上述进步,大模型不仅可以加速信息获取和处理速度,还能自动化完成许多原本需要人工逐步执行的任务。
然而,大模型也有一些局限, 在制定复杂的战略规划及即时学习新知识方面仍存在局限性,因此最适合的使用方式是辅助人类完成高层次决策下的具体实施工作,正如“副驾驶”模式所倡导的人机协作理念。
怎么用大模型?常见的大模型应用有哪些?
情况1:作为最终用户直接用
对于大多数用户而言,最直接的方式是下载如OpenAI的应用,或是国内的百度度小满、阿里通义千问、豆包、智谱清言等应用来体验。
根据个人经验,豆包和智谱清言在语音识别方面表现较为突出,使得输入更加简便快捷。几乎任何问题都可以尝试向这些大模型求助,尤其是在过去依赖于搜索引擎(如百度)解决的问题上,现在通过大模型不仅能够获得答案,它们还能预先检索网络信息后再作答,大大提高了回复的质量与速度。这种方式让获取信息变得更加高效便捷。
情况2:把大模型包装到自己的产品里,再对外提供服务
在自己现有的产品中整合大模型的能力,可以直接对外提供增强的服务。
一种典型的应用是通过检索增强(RAG)技术,将团队积累的知识与大模型结合,使大模型能够基于这些知识回答问题,显著减少客服答疑所需的人力。
此外,利用大模型的生成和联想能力,还可以应用于视频、图像生成等创意工作中,只需用户进行最终选择即可。
另外,在数据处理领域,如情感分析或语义分类等任务中,也可以发挥大模型的优势。
实现这种整合需要选择一个合适的大模型服务提供商,例如阿里云百炼等,并使用其提供的API及应用构建工具来搭建符合自身业务需求的服务体系。常见的业务形式包括但不限于RAG架构、Agent 代理模式等。
那大模型那么多,怎么选型好一些?
大模型本身的能力横评排行榜有两个主要方式。
第一种是 “基准测试”或“考试模式”,其核心思路是通过一系列固定的问题来评估模型的性能,涵盖数学、科学、常识等多个领域。 简单来说就是一对Q/A,问模型Q,看他的A回答的好不好。
常见的基准测试如GSM-8K专注于数学问题解决能力;MMLU则覆盖多学科知识;TheoremQA侧重于定理证明能力;GPQA则更注重常识推理与理解。
其次是“人类评估”或“竞技场模式”,该方法让两个模型针对同一开放性问题给出答案,由人评判哪个更好。竞技场模式因问题更加灵活且贴近实际应用场景而被认为更具参考价值。
尽管两种方式各有优缺点,但它们的结果在大多数情况下是相互印证的。
基准测试,可以参考huggingface的 : https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard 。
在当前时间,最新的情况如下:
而人类评估竞技场模式,也可以参考国外 https://lmarena.ai 的,或者咱们国内的平替 思南平台
竞技场模式下的截图:
那用哪些维度来选型好一些?
我比较建议从多个维度考虑,选择最适合需求的AI模型或框架非常重要。
1) 榜单排名:这可以帮助我们筛选出性能和质量均处于领先位置的模型,特别是针对特定任务(如代码生成、图像识别)优化过的模型更值得考虑。
2)可访问性与内容安全: 考虑到实际使用环境,尤其是对于国内用户而言,选择能够无障碍访问且符合数据安全与合规要求的本地化解决方案更为明智。
3) 是否开源 : 私有化部署的支持度也是一个关键考量因素,特别是在需要保护敏感信息或确保服务稳定性的场景下。
4) 成本考虑 :可以对比公开API调用的价格,如果是私有部署,还要关注模型大小,在能满足需求的前提下,越小成本越低。
在国内用的话,通义Qwen是我们比较推荐的
基于以上几点分析,如果你的应用场景主要在中国大陆,并且对数据隐私有着较高要求,那么通义可能是更好的选择:
1) 开源:通义Qwen是目前最为开放的大模型之一,提供了全尺寸,全模态的模型开源,私有部署友好。
2)排名优秀:目前国内的模型与国外模型的差距在飞速缩小,而阿里云通义因为有更多的卡的储备以及战略投入非常坚决,所以在模型训练的持续性上更好。在MMLU、TheoremQA、GPQA等客观评测指标上也表现优异,甚至在一些基准测评中超越了Llama 3 70B,并在Hugging Face的Open LLM Leaderboard上位居首位。在国内,其能力属于绝对的第一梯队,
3)价格:国内目前API的价格是非常透明的,现在还有100万免费token可供使用,无论是通过API调用还是自行构建模型,成本都相对较低。
4)安全性: 通过API调用的时候会有专门的内容审查模块,所以在内容安全和稳定性上有保障。
可以特别关注的是Qwen和Qwen VL两个版本,在国内开源榜单上均名列前茅。