Meta 最近推出了 LLaMa 3,这是其大型语言模型 (LLaMa) 的最新版本,为个人、创作者、研究人员和企业提供了一个强大的工具。LLaMa 3 模型的参数范围从 80 亿到 700 亿不等,为各种应用提供了不同程度的复杂性和功能。
您不一定需要连接到互联网才能使用 Llama 3。
它可以在 M1/M2 Mac、Windows 或 Linux 上本地运行。
下面是一个如何使用 Llama 3 本地版本的示例。
本文介绍了三个开源平台,它们将帮助您在个人设备上运行 Llama 3。
在 Meta AI Llama 3 发布后不久,就出现了多种本地使用选项。本文概述了三种开源工具,这些工具使您能够在 Mac、Windows 和 Linux 操作的个人设备上操作 Llama 3。
- Ollama
- Open WebUI
- LM Studio
先决条件
在开始安装过程之前,请确保您的系统满足以下要求:
- 具有 PyTorch 和 CUDA 的 Python 环境:必须安装具有 PyTorch 和 CUDA 的 Python 环境才能有效地运行模型。
- Wget 和 md5sum:这些工具对于下载和验证模型文件是必需的。
- Git:克隆必要的存储库。
分步安装指南
步骤 1:设置 Python 环境
首先使用 Conda 设置适当的 Python 环境,或者您选择的任何支持 PyTorch 和 CUDA 的虚拟环境。
conda create -n llama3 python=3.8
conda activate llama3
步骤 2:安装所需的软件包
在您的环境中,安装必要的 Python 包。
pip install torch transformers
步骤 3:克隆 LLaMa 3 存储库
从 Meta 的 GitHub 页面克隆最新的 LLaMa 3 存储库:
git clone https://github.com/meta-llama/llama3.git
cd llama3
pip install -e .
第 4 步:注册并下载模型
在 Meta LLaMa 网站上注册
访问 Meta LLaMa 网站并注册下载模型。需要注册才能访问模型并确保遵守 Meta 的许可协议。
下载模型
一旦您的注册获得批准,您将收到一封带有签名 URL 的电子邮件。请注意,该 URL 将在 24 小时或一定数量的下载后过期。
- 导航到您下载的 LLaMa 存储库:
cd your-path-to-llama3
- 运行下载脚本:
chmod +x download.sh
./download.sh
出现提示时,输入电子邮件中的 URL。不要使用“复制链接”选项,而是手动复制链接以确保准确性。
步骤 5:运行模型
下载模型后,您可以使用提供的示例脚本之一运行推理。根据您下载的特定模型调整参数。
torchrun --nproc_per_node=1 example_chat_completion.py \
--ckpt_dir Meta-Llama-3-8B-Instruct/ \
--tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model \
--max_seq_len 512 --max_batch_size 6
请确保将检查点目录和分词器路径替换为特定路径。
其他注意事项
- 模型并行值:根据模型的并行要求调整参数(例如,8B 模型的 MP 值为 1,70B 模型的 MP 值为 8)。
--nproc_per_node
- 序列长度和批次大小:根据您的硬件功能和应用程序的特定要求进行调整。
--max_seq_len
--max_batch_size
Ollama
平台: Mac, Linux, Windows (Beta)
Ollama 是一个免费的开源应用程序,它支持在您自己的机器上运行各种大型语言模型,包括 Llama 3,即使它不是最强大的。利用开源库 llama.cpp 的增强功能,Ollama 允许您在本地运行 LLM,而无需大量硬件。此外,它还具有一种包管理器,只需一个命令即可快速有效地下载和部署 LLM。
要开始使用 Ollama CLI,请从 ollama.ai/download 下载应用程序。它与三个主要操作系统兼容,Windows 版本目前处于“预览”状态(测试版的温和术语)。
安装后,只需打开您的终端即可。运行 Ollama 的命令在所有平台上都是相同的。
在终端中运行以下命令:
# download the 7B model (3.8 GB)
ollama run llama3
# or for specific versions
ollama run llama3:70b-text
ollama run llama3:70b-instruct
然后,您可以开始与它聊天:
ollama run llama3
>>> hi Hello! How can I help you today?
使用 Docker 打开 WebUI
平台: Mac, Linux, Windows
Open WebUI 提供了一个灵活的、自托管的用户界面,可以完全在 Docker 中运行。它与 Ollama 以及其他兼容 OpenAI 的大型语言模型 (LLM) 兼容,例如 LiteLLM 或定制的 OpenAI API。
通过为 Mac、Linux 或 Windows 系统提供一键安装应用程序来简化流程,使你能够轻松构建、共享和运行容器化应用和微服务。
如果您已经在 PC 上设置了 Docker 和 Ollama,那么入门就很简单了。
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
然后去 http://localhost:3000,设置一个帐户,然后开始聊天!
注意:如果这是您第一次将 Llama 3 与 Docker 一起使用,则需要下载模型。为此,只需在屏幕左下角选择您的姓名后单击设置图标即可。然后,从弹出窗口的左侧选择“模型”,然后从 Ollama 注册表中输入模型名称以开始下载。
您可以在多种型号之间进行选择,包括 Llama 3、Lama 2、Mistral 等。
LM Studio
平台: Mac, Linux (Beta), Windows
LM Studio 使用 llama.cpp 项目,可以处理不同的模型,例如 Hugging Face 的 ggml Llama、MPT 和 StarCoder。
步骤:
1. 从其网站下载 LM Studio 并安装。
2. 下载 Llama 3 8B Instruct 模型。
但是请记住,LM Studio并不开源,只是免费使用
LM Studio 内置聊天界面,可帮助用户更好地互动。
首先进入“lmstudio.ai”,下载并安装适合操作系统的版本:
LM Studio,选择要安装的LLM。
可以通过选择主窗口中列出的社区建议模型之一来实现进行,也可以使用HuggingFace上可用的任何模型的搜索栏查找关键字,例如llama,我们根据本地计算机的运算能力,选择最小的8b。
模型搜索列表中可以看到安装/下载文件的大小。请确保下载的大小没有问题。(部分国内需要魔法)
然后选择llama3的模型
然后就可以开始和llama3对话了
在屏幕左上角的发布日期栏,是“compatibility guess”。LM Studio已经检查了本地系统,并展示它认为可以在计算机上运行的那些模型。要查看所有模型,点击“compatibility guess”(#1)。点击左边的一个模型,右边就会显示可用的版本,并显示那些根据你的电脑规格应该可以工作的模型(#2)。
根据计算机的能力/速度,较大的模型将更准确,但速度较慢。并且这个模型中的大多数都是量化的,包含了GGML和GGUF等格式。(具体这些格式可以参考我们以前的文章)
模型下载完成后,(1)在窗口顶部的下拉菜单中选择模型;(2)选择左侧栏中的聊天气泡;(3)打开右侧的“Context Overflow Policy”和“Chat Appearance”。