LLaMA大模型背景介绍
LLaMA是Meta AI公司在2023年2月发布的开源大模型,在开放基准上有着非常出色的表现,是迄今为止最流行的开放语言模型之一。
同期谷歌的PaLM大模型,OpenAI的GPT-4都采用闭源的方式,不能从源码来剖析模型的结构,LLaMA的开源降低了大模型的研究门槛,后续许多大模型都是借鉴或沿用了LLaMA的模型框架。另一方面由于LLaMA的开源,开发者可以将LLaMA作为基座模型进行本地部署搭建,用新的语料继续预训练或者微调,从而保证了数据的安全性不需要发送给第三方。
LLaMA网络结构相比Transformer的改进
LLaMA和GPT系列一样采用Transformer的堆叠Decoder,以上下文预测下一个词作为预测目标,在海量文本上进行无监督预训练。LLaMA的训练语料是以英语为主的拉丁语系,在分词方面,LLaMA采用sentencepiece实现的Byte-level BPE对语料进行分词编码。
和标准的Transformer相比,LLaMA借鉴了同期其他的研究成果对模型的局部结构进行了调整,包括
- 前置层归一化+RMSNorm归一化函数
- 门控线性单元和SwiGLU激活函数
- 旋转位置编码RoPE
1.前置层归一化+RMSNorm归一化函数
为了使模型训练更加稳定,在Decoder单元将第一个层归一化移动到多头注意力之前,将第二个层归一化移动到前馈传播层之前,同时残差连接位置调整到多头注意力层和前馈传播层之后,如下图所示
前置层归一化
在归一化的计算方式上,采用RMSNorm函数,相比于标准的LayerNorm舍弃了均值的影响,是均值为0时LayerNorm的特例,使得计算变得简单加快模型训练和推理效率。
2.门控线性单元和SwiGLU激活函数
LLaMA采用门控线性单元GLU配合Swish激活函数,代替了标准transformer的前馈传播层全连接+ReLU的结构,SwishGLU的形式在大部分测评中被证明比全连接+ReLU更加有效。SwiGLU的计算公式如下
SwiGLU公式
3.旋转位置编码RoPE
LLaMA采用旋转位置编码Rotary Position Embedding,RoPE的思想是找到一个变换将位置信息注入Query和Key向量中,这样注意力中的Query和Key的内积计算能够感知到两者的相对位置距离,这个变换的求解结果对应为向量旋转,因此取名为旋转位置编码。
旋转位置编码RoPE示意图
LLaMA中文化Atom大模型简述
LLaMA对中文的支持较差,训练数据中中文占比很少,且词表对中文字符的覆盖度不够,因此本篇采用Llama中文社区推出的原子大模型Atom,它基于LLaMA架构在中文语料上重新预训练,并且拓充了词表提高了模型对中文文本表征能力和编码解码速度,可在HuggingFace模型仓库进行下载
Atom模型下载
在Python中调用HuggingFace LLaMA模型
根据中文LLaMA社区官网的案例快速开始,在Python中使用HuggingFace对Atom-7B进行调用测试如下
import torch
from transformers import AutoTokenizer, LlamaForCausalLM
model = LlamaForCausalLM.from_pretrained('./Atom-7B', torch_dtype=torch.float16)
model = model.to("cuda").eval()
tokenizer = AutoTokenizer.from_pretrained('./Atom-7B', use_fast=False)
tokenizer.pad_token = tokenizer.eos_token
input_ids = tokenizer(['<s>Human: 请给一个去苏州旅游的攻略\n</s><s>Assistant: '], return_tensors="pt",
add_special_tokens=False).input_ids.to('cuda')
generate_input = {
"input_ids": input_ids,
"max_new_tokens": 512,
"do_sample": True,
"top_k": 50,
"top_p": 0.95,
"temperature": 0.3,
"repetition_penalty": 1.3,
"eos_token_id": tokenizer.eos_token_id,
"bos_token_id": tokenizer.bos_token_id,
"pad_token_id": tokenizer.pad_token_id
}
generate_ids = model.generate(**generate_input)
text = tokenizer.decode(generate_ids[0])
print(text)
将问题:“请给一个去苏州旅游的攻略”拼入Human Assistant提示词模板,文本生成如下
<s> Human: 请给一个去苏州旅游的攻略
</s><s> Assistant: 1. 交通:建议乘坐高铁或飞机前往,距离上海约2小时车程。也可以选择自驾车或者公共汽车出行。
2. 住宿推荐:可以住在市中心的酒店、民宿等住宿设施中;也可以考虑在风景优美的郊区寻找合适的住所。
3. 推荐景点:拙政园(中国四大名园之一)、狮子林(园林艺术瑰宝)、留园(江南古典私家花园的典范)、虎丘塔(古代建筑和石刻艺术的代表)等等。
4. 建议游玩时间:5-7天为宜,每天安排一到两个主要景区游览即可。
5. 注意事项:带好身份证件以及必要的证件如护照签证等,注意天气变化并携带雨具防晒用品等物品。遵守当地法律法规及风俗习惯和文化禁忌。尊重当地的文化传统和环境保护意识。避免与当地人发生冲突或其他不愉快的事情。
6. 其他信息:了解一些关于苏州的历史文化和风土人情的知识是非常有益的。还可以参加一些本地的特色活动体验一下当地的生活方式与文化氛围。最后记得留下自己的旅行心得和经验分享哦!
</s>
基于text-generation-webui部署LLaMA问答平台
text-generation-webui是一个用于运行大型语言模型的Gradio Web用户界面,他可以将本地的模型文件部署为一个Web服务,实现模型推理,问答对话,模型训练,参数管理等功能。
github text-generation-webui项目
先通过anaconda创建Python虚拟环境
$ conda create -n textgen python=3.8
$ conda activate textgen
下载text-generation-webui项目到本地,安装requirements中所需要的依赖
$ git clone https://github.com/oobabooga/text-generation-webui
$ cd text-generation-webui
$ pip install -r <requirements file according to table below>
安装过程中可能会有各种版本不兼容的错误,逐个解决即可,安装完成启动server.py
$ cd text-generation-webui
$ python server.py
2023-12-15 16:42:44 INFO:Loading the extension "gallery"...
Running on local URL: http://127.0.0.1:7861
To create a public link, set `share=True` in `launch()`.
浏览器打开127.0.0.1:7861进入text-generation-webui客户端,进入model页加载模型,提前将Atom-7B模型目录放置到text-generation-webui路径下的models目录下,然后在网页端选择Atom-7B,选择bf16精度,点击load加载模型
model模型加载
加载成功后会提示已经成功加载模型
模型加载成功
回到Chat界面,在文本框中输入内容,点击Generate即可完成文本生成
使用大模型进行对话测试
在Parameters界面可以对generate的参数进行调整吗,比如最大生成单词数,温度系数,top-k,top-p等。
参数管理页面
其他功能读者可自行测试,本文作为对LLaMA的简单介绍和快速开始,后续会对其中部分技术细节做深入分析,全文完毕。