01.配置环境

首先就是开工第一步,先搭环境

我用的是学院的服务器,没有用租服务器的那种,需要租云服务器的话可以自己参考别的文章~

根据服务器的cuda配对应的python和pytorch

python=3.9

cuda=12.1

2.下载llama的模型

git clone https://huggingface.co/FlagAlpha/Llama2-Chinese-7b-Chat

*git在服务器和本地都会超时,可能是我的VPN不稳吧

最后选择了网页上直接下载,这样那两个参数文件都断断续续下载了一个下午,嗯...

然后把模型upload到服务器上

3.下载并部署gradio

1. 把链接中的gradio_demo.py和requirements.txt下载到服务器

https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/scripts/inference/gradio_demo.py

2.安装requirements.txt

* https://github.com/huggingface/peft.git 下载失败,又是网络的问题

按照github上的直接pip install peft,完成

*peft是什么

Parameter-Efficient Fine-Tuning (PEFT) 方法可以使预训练语言模型 (PLM) 高效适应各种下游应用,而无需微调模型的所有参数。 微调大型 PLM 的成本通常高得令人望而却步。 在这方面,PEFT 方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。 最近最先进的 PEFT 技术实现了与完全微调相当的性能。

3.把gradio.py里59、60、61行注释掉,然后手动安装gradio和gradio_demo.py里import的包;

pip install gradio
pip install bitsandbytes
pip install accelerate
pip install scipy

这两步中间会因为部分依赖代码没装上,需要继续把依赖的pip上

4.启动

python gradio_demo.py --base_model /home/camp/wsqllm/model/Llama2-Chinese-7b-Chat --tokenizer_path /home/camp/wsqllm/model/Llama2-Chinese-7b-Chat --gpus 0

这里的base_model和tokenize_path路径记得换成自己的

遇到bug

大模型教学助手架构_服务器

import torch无法实现,CUDA版本不匹配

原因是服务器的账户没实现多个账号环境变量区分,导致多人使用的cuda版本都混在一起了

*修改cuda的版本就可以了

吐槽一下这个服务器的账户,之前另一个3080的服务器大家都是一人一号,环境变量比较好控制,现在共用一个很怕改坏了影响别人的实验,部署完又重置回去了,等下次自己要用了再改过来。。

运行

大模型教学助手架构_大模型教学助手架构_02

遇到问题:并没有出现URL

报错如下:

Traceback (most recent call last):

File "/home/camp/wsqllm/gradio_demo.py", line 297, in <module>

user_input = gr.Textbox(

AttributeError: 'Textbox' object has no attribute 'style'

这个问题之前另一个实验也遇到过,没有某个attribute大概率是因为版本问题,参考的部署教程是去年9余额的,搜索了一下果然

gradio 新版本没有这个属性

pip install gradio==3.40.0

降低版本再次运行,成功生成对应URL

大模型教学助手架构_服务器_03

5.建立SSH隧道本地映射

有一个问题是这个linux服务器并不是本地的,由于不是商用也没有公网地址

因此需要自己搭建SSH通道,才能在本地电脑上查看

在本地的命令行里面输入ssh -L的命令,这里把服务器的IP地址码掉了,根据自己的实际更换一下

前面的端口号是生成的URL的端口号,后面的是访问服务器的地址和端口号

ssh -L 端口号:localhost:端口号 username@IP地址 -p 服务器端口号

大模型教学助手架构_大模型教学助手架构_04

 完成后点击URL就可以看见搭建的可视化界面了

*感觉gradio也挺有意思的,可以快速搭建前端界面。让我想到之前本科用pycharts直接生成网页化图表再用前端知识做略微修改的过程。确实能提升一部分效率

由于只是想部署实操一下大模型就没有深挖这一块的内容,最新版本汇报错的坑以后有机会再挖掘吧

大模型教学助手架构_llama_05

复盘了一下部署,整个流程还是挺方便简单的。但是花了2天左右的时间,除开自己摸鱼,有半天的时间花在了下模型文件上,有一天在配环境,还有半天在处理各种明明教程里写得很通畅但是自己疯狂报错的bug们