量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎原创

51CTO技术栈

发布于 2024-7-25 12:52

浏览

0收藏

编辑 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

不管开源还是闭源模型，最近量化小模型的风头正在盖过大模型！

就在Llama3.1昨天正式发布以后，市面上一片兴奋：开源模型可以比肩GPT-4o，国内几乎所有供应商纷纷宣布接入Llama3.1的同时，我们也看到了圈内人士另一种声音：

“405B模型太大了”、“难以盈利、成本很高、速度一般。”

紧接着，素以小模型著称的Mistral AI也再一次用实力证明：Llama3.1真没必要那么“参数浪费”！

其今天刚刚发布的最新模型Mistral Large 2，参数只有123B，用不到三分之一的参数量性能就可以媲美Llama 3.1 405B，也不逊于GPT-4o、Claude 3 Opus等闭源模型。

这让“大模型顶流er”们哪里说理去！

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

1.AI大神、博主：模型太大不会被采用！量化才是正解！

事实真相就是这样。

AI大神贾扬清今天发推文表示：Llama 3.1 405B 确实是一款难以盈利的机型。

如果你用一台或半台机器去运行Llama3.1 405B，就会发现成本significant（巨高），速度却so-so（马马虎虎）。

那好，既然自己运行太高，我调用云厂商的接口还不行吗？

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

贾扬清又帮各位大模型爱好者们算了一笔账，目前大多数供应商调用405B的定价保持在30个tokens/s左右，才能覆盖住商业价值。对比来看，70B模型则更实惠多了，能达到150tokens/s以上。

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

不过贾扬清，表示即便405B的性价比不高，“但依然可以收支平衡，这取决于良好的优化和良好的工作量饱和度”，并同时提醒VC朋友们：“对于这个价格的纯API服务，不要期望像传统SaaS那样获得80%的利润率。”

这还没完，大神贾扬清最后下结论了：量化（模型）将成为标准！忘掉FP16吧，Int8/FP8才是出路！PS:Int8/FP8是指更小的神经张量的数值类型，代表着大模型所需的空间资源和算力资源。

并给出了一定的量化建议：量化需要谨慎。一个尺度足以处理整个张量的时代一去不复返了，而是需要进行channel/group的量化，以保证质量不会下降。

同时，贾扬清还预测405B会因为速度和价格的原因，采用和接受度会受到持续的影响。当然也Cue到了Mistral Large 2（123B），非常期待业内的测试效果。

NLP博主“刘聪NLP”也表示对于Llama3.1的成本有一种无力感：对于绝大多数开发者，Llama3.1的8B和70B版本的能力的提高才更有意义。

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

刘聪指出：405B即使效果很棒，但是有多少企业有资格玩一把呢？个人玩家就更不用说了，光模型大小就820G，别说有没有显卡，也许都没有820G磁盘空间下载都没资格，太难了！

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区

2.OpenAI也发现了这一点奥特曼不禁夸赞GPT-4o mini登顶

奥特曼也开始注意到mini模型更受开发者欢迎！

24日，就在Llama3.1让市场兴奋的同时，奥特曼一条推特让mini掰回了一局。

“我们尽量不对任何一次评估感到太过兴奋，但很高兴看到GPT-4o mini 在 lmsys 上的性能如此接近GPT-4o，而价格仅为其二十分之一。”

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

开放研究组织lmsys，昨天放出了一个Chatbot竞技场榜单更新，结果显示：GPT-4o mini一跃排行榜榜首，与GPT-4o并列第一，但价格更便宜，只有后者的1/20！而且各项性能都要由于早期版本。

这个榜单通过4000+用户的投票得到的，其中值得注意的是，在Hard Prompts和Coding Arena项中，GPT-4o mini依旧强悍。在数学任务上，GPT-4o mini也也跟turbo持平。

OpenAI创始成员 Karpathy在7月19日就曾发出一条推文表示：未来大模型的竞争态势是：先变小之后才能变大！

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

总结一下，量化模型的时代已经来了！至于原因，小编认为有两点：一、大模型侧训练所需的数据和算力已经出现了增长瓶颈，二、在盈利之前，绝大多数开发者难以负担大参数规模的成本。

最后，为各位奉上更小参数的Mistral Large 2下载链接，诸位不妨体验一把：

https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

本文转载自51CTO技术栈，作者：言征

标签

Llama3.1

量化

相关推荐

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

Crystalcxt • 809浏览 • 0回复
低比特量化的LLAMA3模型有多好？ | 香港大学&北航最新研究发布

angel • 3720浏览 • 0回复
Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航&ETH

Crystalcxt • 1349浏览 • 0回复
3倍生成速度还降内存成本，超越Medusa2的高效解码框架终于来了

轻薄滴假象 • 643浏览 • 0回复
最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

轻薄滴假象 • 714浏览 • 0回复
最强大模型 Llama 3.1-405B 架构设计剖析

玄姐聊AGI • 874浏览 • 0回复
解析Llama 3.1 与Meta 的 AI 战略，以及新的开放前沿模型生态系统

lintoms • 693浏览 • 0回复
Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？

NLP工作站 • 639浏览 • 0回复
一大堆Llama3.1-Chinese正在袭来

NLP工作站 • 746浏览 • 0回复
基于Llama 3.1和一台MacBook搭建商用级知识库

玄姐聊AGI • 784浏览 • 0回复
AI界的新宠：揭秘Llama 3.1如何革新AI合成技术

ermulong • 674浏览 • 0回复
微软开源Phi-3.5：支持手机、平板电脑，性能超Llama 3.1

Aceryt • 390浏览 • 0回复
ViT篇外：NVIDIA Llama-3.1-Minitron 4B

鲁班模锤1 • 510浏览 • 0回复
阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

Aceryt • 500浏览 • 0回复
清华大学提出1-Bit FQT：将全量化训练极限推到极致,训练速度提升5倍！

AI论文解读 • 332浏览 • 0回复
广告收入大涨近20%，市值却啪啪打脸，扎克伯格坦承交底：AI真的机会很大，Llama4明年年初

51CTO技术栈 • 347浏览 • 0回复
腾讯Hunyuan超越Llama 3，成为NLP领域新霸主

恰似惊鸿 • 318浏览 • 0回复
从 Llama 1 到 3.1：Llama 模型架构演进详解

Baihai_IDP • 232浏览 • 0回复
AI时代必备技能！AI大神吴恩达教你如何写出完美的prompt提示词

水晶花雨_32 • 180浏览 • 0回复

51CTO技术栈

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎原创

1.AI大神、博主：模型太大不会被采用！量化才是正解！

2.OpenAI也发现了这一点奥特曼不禁夸赞GPT-4o mini登顶

目录

51CTO

51CTO博客

51CTO学堂

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎 原创

1.AI大神、博主：模型太大不会被采用！量化才是正解！

2.OpenAI也发现了这一点奥特曼不禁夸赞GPT-4o mini登顶

目录

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎原创