01.配置环境
首先就是开工第一步,先搭环境
我用的是学院的服务器,没有用租服务器的那种,需要租云服务器的话可以自己参考别的文章~
根据服务器的cuda配对应的python和pytorch
python=3.9
cuda=12.1
2.下载llama的模型
git clone https://huggingface.co/FlagAlpha/Llama2-Chinese-7b-Chat
*git在服务器和本地都会超时,可能是我的VPN不稳吧
最后选择了网页上直接下载,这样那两个参数文件都断断续续下载了一个下午,嗯...
然后把模型upload到服务器上
3.下载并部署gradio
1. 把链接中的gradio_demo.py和requirements.txt下载到服务器
https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/scripts/inference/gradio_demo.py
2.安装requirements.txt
* https://github.com/huggingface/peft.git 下载失败,又是网络的问题
按照github上的直接pip install peft,完成
*peft是什么
Parameter-Efficient Fine-Tuning (PEFT) 方法可以使预训练语言模型 (PLM) 高效适应各种下游应用,而无需微调模型的所有参数。 微调大型 PLM 的成本通常高得令人望而却步。 在这方面,PEFT 方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。 最近最先进的 PEFT 技术实现了与完全微调相当的性能。
3.把gradio.py里59、60、61行注释掉,然后手动安装gradio和gradio_demo.py里import的包;
pip install gradio
pip install bitsandbytes
pip install accelerate
pip install scipy
这两步中间会因为部分依赖代码没装上,需要继续把依赖的pip上
4.启动
python gradio_demo.py --base_model /home/camp/wsqllm/model/Llama2-Chinese-7b-Chat --tokenizer_path /home/camp/wsqllm/model/Llama2-Chinese-7b-Chat --gpus 0
这里的base_model和tokenize_path路径记得换成自己的
遇到bug
import torch无法实现,CUDA版本不匹配
原因是服务器的账户没实现多个账号环境变量区分,导致多人使用的cuda版本都混在一起了
*修改cuda的版本就可以了
吐槽一下这个服务器的账户,之前另一个3080的服务器大家都是一人一号,环境变量比较好控制,现在共用一个很怕改坏了影响别人的实验,部署完又重置回去了,等下次自己要用了再改过来。。
运行
遇到问题:并没有出现URL
报错如下:
Traceback (most recent call last):
File "/home/camp/wsqllm/gradio_demo.py", line 297, in <module>
user_input = gr.Textbox(
AttributeError: 'Textbox' object has no attribute 'style'
这个问题之前另一个实验也遇到过,没有某个attribute大概率是因为版本问题,参考的部署教程是去年9余额的,搜索了一下果然
gradio 新版本没有这个属性
pip install gradio==3.40.0
降低版本再次运行,成功生成对应URL
5.建立SSH隧道本地映射
有一个问题是这个linux服务器并不是本地的,由于不是商用也没有公网地址
因此需要自己搭建SSH通道,才能在本地电脑上查看
在本地的命令行里面输入ssh -L的命令,这里把服务器的IP地址码掉了,根据自己的实际更换一下
前面的端口号是生成的URL的端口号,后面的是访问服务器的地址和端口号
ssh -L 端口号:localhost:端口号 username@IP地址 -p 服务器端口号
完成后点击URL就可以看见搭建的可视化界面了
*感觉gradio也挺有意思的,可以快速搭建前端界面。让我想到之前本科用pycharts直接生成网页化图表再用前端知识做略微修改的过程。确实能提升一部分效率
由于只是想部署实操一下大模型就没有深挖这一块的内容,最新版本汇报错的坑以后有机会再挖掘吧
复盘了一下部署,整个流程还是挺方便简单的。但是花了2天左右的时间,除开自己摸鱼,有半天的时间花在了下模型文件上,有一天在配环境,还有半天在处理各种明明教程里写得很通畅但是自己疯狂报错的bug们