Meta 最近推出了 LLaMa 3,这是其大型语言模型 (LLaMa) 的最新版本,为个人、创作者、研究人员和企业提供了一个强大的工具。LLaMa 3 模型的参数范围从 80 亿到 700 亿不等,为各种应用提供了不同程度的复杂性和功能。

您不一定需要连接到互联网才能使用 Llama 3。

它可以在 M1/M2 Mac、Windows 或 Linux 上本地运行。

下面是一个如何使用 Llama 3 本地版本的示例。

本文介绍了三个开源平台,它们将帮助您在个人设备上运行 Llama 3。

在Mac、Windows、Linux 上本地运行 Llama 3_Mac

在 Meta AI Llama 3 发布后不久,就出现了多种本地使用选项。本文概述了三种开源工具,这些工具使您能够在 Mac、Windows 和 Linux 操作的个人设备上操作 Llama 3。

  • Ollama
  • Open WebUI
  • LM Studio

先决条件

在开始安装过程之前,请确保您的系统满足以下要求:

  • 具有 PyTorch 和 CUDA 的 Python 环境:必须安装具有 PyTorch 和 CUDA 的 Python 环境才能有效地运行模型。
  • Wget 和 md5sum:这些工具对于下载和验证模型文件是必需的。
  • Git:克隆必要的存储库。

分步安装指南

步骤 1:设置 Python 环境

首先使用 Conda 设置适当的 Python 环境,或者您选择的任何支持 PyTorch 和 CUDA 的虚拟环境。

conda create -n llama3 python=3.8
conda activate llama3

步骤 2:安装所需的软件包

在您的环境中,安装必要的 Python 包。

pip install torch transformers

步骤 3:克隆 LLaMa 3 存储库

从 Meta 的 GitHub 页面克隆最新的 LLaMa 3 存储库:

git clone https://github.com/meta-llama/llama3.git
cd llama3
pip install -e .

第 4 步:注册并下载模型

在 Meta LLaMa 网站上注册

访问 Meta LLaMa 网站并注册下载模型。需要注册才能访问模型并确保遵守 Meta 的许可协议。

下载模型

一旦您的注册获得批准,您将收到一封带有签名 URL 的电子邮件。请注意,该 URL 将在 24 小时或一定数量的下载后过期。

  1. 导航到您下载的 LLaMa 存储库
cd your-path-to-llama3
  1. 运行下载脚本
chmod +x download.sh
./download.sh

出现提示时,输入电子邮件中的 URL。不要使用“复制链接”选项,而是手动复制链接以确保准确性。

步骤 5:运行模型

下载模型后,您可以使用提供的示例脚本之一运行推理。根据您下载的特定模型调整参数。

torchrun --nproc_per_node=1 example_chat_completion.py \
    --ckpt_dir Meta-Llama-3-8B-Instruct/ \
    --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model \
    --max_seq_len 512 --max_batch_size 6

请确保将检查点目录和分词器路径替换为特定路径。

其他注意事项

  • 模型并行值:根据模型的并行要求调整参数(例如,8B 模型的 MP 值为 1,70B 模型的 MP 值为 8)。--nproc_per_node
  • 序列长度和批次大小:根据您的硬件功能和应用程序的特定要求进行调整。--max_seq_len--max_batch_size

Ollama

平台: Mac, Linux, Windows (Beta)

Ollama 是一个免费的开源应用程序,它支持在您自己的机器上运行各种大型语言模型,包括 Llama 3,即使它不是最强大的。利用开源库 llama.cpp 的增强功能,Ollama 允许您在本地运行 LLM,而无需大量硬件。此外,它还具有一种包管理器,只需一个命令即可快速有效地下载和部署 LLM。

要开始使用 Ollama CLI,请从 ollama.ai/download 下载应用程序。它与三个主要操作系统兼容,Windows 版本目前处于“预览”状态(测试版的温和术语)。

安装后,只需打开您的终端即可。运行 Ollama 的命令在所有平台上都是相同的。

在终端中运行以下命令:

# download the 7B model (3.8 GB) 
ollama run llama3 

# or for specific versions
ollama run llama3:70b-text
ollama run llama3:70b-instruct

然后,您可以开始与它聊天:

ollama run llama3 
>>> hi Hello! How can I help you today?

使用 Docker 打开 WebUI

平台: Mac, Linux, Windows

Open WebUI 提供了一个灵活的、自托管的用户界面,可以完全在 Docker 中运行。它与 Ollama 以及其他兼容 OpenAI 的大型语言模型 (LLM) 兼容,例如 LiteLLM 或定制的 OpenAI API。

通过为 Mac、Linux 或 Windows 系统提供一键安装应用程序来简化流程,使你能够轻松构建、共享和运行容器化应用和微服务。

如果您已经在 PC 上设置了 Docker 和 Ollama,那么入门就很简单了。

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

然后去 http://localhost:3000,设置一个帐户,然后开始聊天!

注意:如果这是您第一次将 Llama 3 与 Docker 一起使用,则需要下载模型。为此,只需在屏幕左下角选择您的姓名后单击设置图标即可。然后,从弹出窗口的左侧选择“模型”,然后从 Ollama 注册表中输入模型名称以开始下载。

您可以在多种型号之间进行选择,包括 Llama 3、Lama 2、Mistral 等。

在Mac、Windows、Linux 上本地运行 Llama 3_llama3_02

LM Studio

平台: Mac, Linux (Beta), Windows

LM Studio 使用 llama.cpp 项目,可以处理不同的模型,例如 Hugging Face 的 ggml Llama、MPT 和 StarCoder。

步骤:
1. 从其网站下载 LM Studio 并安装。
2. 下载 Llama 3 8B Instruct 模型。

但是请记住,LM Studio并不开源,只是免费使用

LM Studio 内置聊天界面,可帮助用户更好地互动。

首先进入“lmstudio.ai”,下载并安装适合操作系统的版本:

在Mac、Windows、Linux 上本地运行 Llama 3_llama3_03

LM Studio,选择要安装的LLM。

可以通过选择主窗口中列出的社区建议模型之一来实现进行,也可以使用HuggingFace上可用的任何模型的搜索栏查找关键字,例如llama,我们根据本地计算机的运算能力,选择最小的8b。

在Mac、Windows、Linux 上本地运行 Llama 3_llama3_04

模型搜索列表中可以看到安装/下载文件的大小。请确保下载的大小没有问题。(部分国内需要魔法)

在Mac、Windows、Linux 上本地运行 Llama 3_Docker_05

然后选择llama3的模型

在Mac、Windows、Linux 上本地运行 Llama 3_Mac_06

然后就可以开始和llama3对话了

在Mac、Windows、Linux 上本地运行 Llama 3_Windows_07

在屏幕左上角的发布日期栏,是“compatibility guess”。LM Studio已经检查了本地系统,并展示它认为可以在计算机上运行的那些模型。要查看所有模型,点击“compatibility guess”(#1)。点击左边的一个模型,右边就会显示可用的版本,并显示那些根据你的电脑规格应该可以工作的模型(#2)。

根据计算机的能力/速度,较大的模型将更准确,但速度较慢。并且这个模型中的大多数都是量化的,包含了GGML和GGUF等格式。(具体这些格式可以参考我们以前的文章)

模型下载完成后,(1)在窗口顶部的下拉菜单中选择模型;(2)选择左侧栏中的聊天气泡;(3)打开右侧的“Context Overflow Policy”和“Chat Appearance”。