我的环境是mac m2 32G ,没办法用GPU。

这是X inference的安装教程。

Mac M2 本地下载 Xinference

这里是mac部署7B的教程

使用Xinference 在mac m2 上部署模型 Qwen 7B

一、根据文档来选择合适的模型

大语言模型 — Xinference

二、这里部署一个2B的小模型

使用X inference下载部署小模型(qwen1.5)测试效果_推理效果

点击方框,即可选择部署

这里是下载过程

使用X inference下载部署小模型(qwen1.5)测试效果_本地部署2_02

三、推理效果

使用X inference下载部署小模型(qwen1.5)测试效果_推理效果_03

效果非常不好。并且速度也不快,可以在截图中看到推理速度

这是2B的推理速度,输出为每秒6个tokens

使用X inference下载部署小模型(qwen1.5)测试效果_本地部署2_04

这是qwen7B的推理速度,输出为每秒3个tokens

使用X inference下载部署小模型(qwen1.5)测试效果_语言模型_05

四、部署一个qwen1.5B

使用X inference下载部署小模型(qwen1.5)测试效果_Mac_06

这个推理效果和推理速度都非常棒了,至少推理的速度和我们正常使用chatgpt的速度一样,甚至更快。回答效果还可以,至少比上边部署的2B的模型效果好的多。

使用X inference下载部署小模型(qwen1.5)测试效果_推理效果_07