我的环境是mac m2 32G ,没办法用GPU。
这是X inference的安装教程。
Mac M2 本地下载 Xinference
这里是mac部署7B的教程
使用Xinference 在mac m2 上部署模型 Qwen 7B
一、根据文档来选择合适的模型
二、这里部署一个2B的小模型
点击方框,即可选择部署
这里是下载过程
三、推理效果
效果非常不好。并且速度也不快,可以在截图中看到推理速度
这是2B的推理速度,输出为每秒6个tokens
这是qwen7B的推理速度,输出为每秒3个tokens
四、部署一个qwen1.5B
这个推理效果和推理速度都非常棒了,至少推理的速度和我们正常使用chatgpt的速度一样,甚至更快。回答效果还可以,至少比上边部署的2B的模型效果好的多。