Mac 上 Llama2 大语言模型安装到使用-低调大师

Mac 上 Llama2 大语言模型安装到使用

2024-03-07 391

LLAMA介绍

LLaMA是由Facebook的母公司Meta AI设计的一个新的大型语言模型。LLaMA拥有70亿到650亿个参数的模型集合，是目前最全面的语言模型之一。

Llama是目前唯一一个可以进行本地部署和本地训练的大型模型，对各种提问有非常好的处理能力。非常适合个人和中小型企业，构建自己的大数据模型。

很多人都说是ChatGPT的平替。通过微调来满足特定小众行业的使用，将会在未来有非常大的潜力。

Mac上由于没有Nvidia显卡的加持，无法配置CUDA进行深度学习。好在有大神制作了C++的库，能实现小成本在低配Mac上跑模型的能力。

llama.cpp

是一个推理框架，在没有GPU跑LLAMA时，利用Mac M1/M2的GPU进行推理和量化计算。

Mac跑LLAMA唯一的路。同样也可以在Windows下面跑起来。

它是ggml这个机器学习库的衍生项目，专门用于Llama系列模型的推理。llama.cpp和ggml均为纯C/C++实现，针对Apple Silicon芯片进行优化和硬件加速，支持模型的整型量化 (Integer Quantization): 4-bit, 5-bit, 8-bit等。社区同时开发了其他语言的bindings，例如llama-cpp-python，由此提供其他语言下的API调用。

https://github.com/ggerganov/llama.cpp

安装llama.cpp

本地快速部署体验推荐使用经过指令精调的Alpaca-2模型，有条件的推荐使用6-bit或者8-bit模型，效果更佳。下面以中文Alpaca-2-7B模型为例介绍，运行前请确保： 1、系统应有make（MacOS/Linux自带）或cmake（Windows需自行安装）编译工具 2、建议使用Python 3.10以上编译和运行该工具 3、必装的mac依赖 xcode-select --install # Mac的Xcode开发者工具，基本是必装的，很多地方都需要用到。 brew install pkgconfig cmake # c和c++的编译工具。

1、源码编译

git clone https://github.com/ggerganov/llama.cpp

2、编译对llama.cpp项目进行编译，生成./main（用于推理）和./quantize（用于量化）二进制文件。

make

Windows/Linux用户如需启用GPU推理，则推荐与BLAS（或cuBLAS如果有GPU）一起编译，可以提高prompt处理速度。以下是和cuBLAS一起编译的命令，适用于NVIDIA相关GPU。

make LLAMA_CUBLAS=1

macOS用户无需额外操作，llama.cpp已对ARM NEON做优化，并且已自动启用BLAS。M系列芯片推荐使用Metal启用GPU推理，显著提升速度。只需将编译命令改为：LLAMA_METAL=1 make，

LLAMA_METAL=1 make

3、检查编译成功会在目录下产生main等可执行的命令，下面转换量化模型文件时，会用到的命令就准备好了。

手动转换模型文件为GGUF格式

如果下载的是生成好的gguf模型就不需要手动转换了。为啥要这个格式。这个格式的LLAMA.cpp才认。其它格式的数据不认。

1、下载 Llama 2 模型首先，从 Hugging Face https://huggingface.co/meta-llama 上下载你想要使用的 Llama 2 模型，比如 7B-Chat，我的Mac是8G内存，M2芯片，估计也只能跑到这个模型，再大的机器跑不动。值得一提的是：https://huggingface.co/meta-llama/Llama-2-7b-chat 下载时，第一次需要授权，需要到meta官网，下面这个链接 https://llama.meta.com/llama-downloads

去提交一下邮件。这里选国家时会有意想不到的结果，自己思考一下。

如果要体验英文原版，就用上面的，会比较麻烦，但是对英文的回复比较好。参考教程 https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/manual_conversion_zh

如果要使用中文语料库，需要先合并为原始模型和中文的模型，再生成bin，再去转换为gguf格式。喜欢折腾的可以试试。

如果要使用我这个中文混合模型，可以直接下载gguf格式。下面这几步都不用了。省事多了。

下载地址：https://huggingface.co/hfl/chinese-llama-2-7b-gguf/tree/main 记得选ggml-model-q4_0.gguf这个模型。

2、下载 llama.cpp 库，并按上面的流程进行编译安装成功

3、转换模型格式然后，你需要把模型的文件转换成 GGUF 格式，使用 llama.cpp 库中的 convert.py 脚本来完成。转换时需要指定模型的路径和上下文长度（模型可以处理的最大的文本长度），不同的模型可能有不同的上下文长度。

如果模型是 LLaMA v1，则使用 --ctx 2048，如果你的模型是 LLaMA v2，则使用 --ctx 4096。这里使用 --ctx 4096。如下所示：

# 转换模型文件
python3 convert.py models/7B-Chat --ctx 4096

如果安装过程缺python包直接pip install 安装即可。

4、量化模型文件

使用 llama.cpp 库中的 quantize 程序来进行模型量化，使用 quantize 命令：

# 运行 quantize 程序，指定输入和输出的模型文件和量化方式
./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q4_0.gguf q4_0

这样，在 7B-Chat 文件夹中就生成一个 4 位整数的 GGUF 模型文件。

5、运行模型

./main -m ./models/7B/ggml-model-q4_0.bin \
        -t 8 \
        -n 128 \
        -p 'The first president of the USA was '

# run the inference 推理
./main -m ./models/llama-2-7b-hf/ggml-model-q4_0.bin -n 128
#以交互式对话
./main -m ./models/llama-2-7b-hf/ggml-model-q4_0.bin --color -f prompts/alpaca.txt -ins -c 2048 --temp 0.2 -n 256 --repeat_penalty 1.3
#chat with bob
./main -m ./models/llama-2-7b-hf/ggml-model-q4_0.bin -n 256 --repeat_penalty 1.0 --color -i -r "User:" -f prompts/chat-with-bob.txt

此步骤过于烦锁，主要是模型文件占了几十GB。所以我直接下载别人的中文模型进行使用。不需要再手动进行转换、量化等操作。

以WebServer形式启动

调用手册：https://github.com/ggerganov/llama.cpp/blob/master/examples/server/README.md

用WebServer形式。可以对接到别的系统里面，像FastGPT或者一些界面上，就可以无缝使用了。

1、启动server 参数请./server -h 查看，或者参考手册

./server --host 0.0.0.0 -m /Users/kyle/MyCodeEnv/models/ggml-model-q4_0.gguf -c 4096 --n-gpu-layers 1

默认会开到8080端口上，配置可改。不加gpu-layers走CPU，会报错。设个1就行

2、用CURL进行测试

curl --request POST \
    --url http://127.0.0.1:8080/completion \
    --header "Content-Type: application/json" \
    --data '{"prompt": "给我讲个冷笑话:","n_predict": 128}'

3、效果如图

感觉就是训练的还是量少，有些问题会胡说。理解不了的问题反应会非常慢。会花很长的时间。

Python调用接口库

https://github.com/abetlen/llama-cpp-python https://llama-cpp-python.readthedocs.io/en/latest/install/macos/

1、Mac用户，pip编译，最简安装llama-cpp-python (with Metal support) 为了启用对于Metal (Apple的GPU加速框架) 的支持，使用以下命令安装llama-cpp-python: CMAKE_ARGS="-DLLAMA_METAL=on" FORCE_CMAKE=1 pip install llama-cpp-python

2、代码中使用，安装好之后可以直接用requests调用。无需第1步的llama-cpp-python依赖包。使用通用的ChatGPT的问答形式回答。也可以不经Server直接调用模型文件

# -*- coding: utf-8 -*-
import requests

url = 'http://localhost:8080/v1/chat/completions'
headers = {
    'accept': 'application/json',
    'Content-Type': 'application/json'
}
dataEn = {
    'messages': [
        {
            'content': 'You are a helpful assistant.',
            'role': 'system'
        },
        {
            'content': 'What is the capital of France?',
            'role': 'user'
        }
    ]
}
data = {
    'messages': [
        {
            'content': '你是一个乐于助人的助手',
            'role': 'system'
        },
        {
            'content': '二战是哪一年爆发的?',
            'role': 'user'
        }
    ]
}

response = requests.post(url, headers=headers, json=data)
print(response.json())
print(response.json()['choices'][0]['message']['content'])

3、直接调用模型文件，需要安装llama-cpp-python包

# -*- coding: utf-8 -*-
from llama_cpp import Llama

# 加截模型
# llm = Llama(model_path='/Users/kyle/MyCodeEnv/models/ggml-model-q4_0.gguf', chat_format="llama-2") # 可以指定聊天格式
llm = Llama(model_path='/Users/kyle/MyCodeEnv/models/ggml-model-q4_0.gguf')

# 提问
response = llm("给我讲一下英国建国多少年了", max_tokens=320, echo=True)
# response = llm.create_chat_completion(
#     messages=[
#         {"role": "system", "content": "你是一个乐于助人的助手"},
#         {
#             "role": "user",
#             "content": "给我讲一个笑话"
#         }
#     ]
# )
# print(response)

# 回答
print(response['choices'][0])

最后贴个官方的教程

https://llama-cpp-python.readthedocs.io/en/latest/install/macos/

再慢慢研究研究微调和训练自己的语料吧。

跟上LLM的步伐。不接触AI就要落后了。更多精彩内容，请关注我的公众号：青塬科技。

微信关注我们

原文链接：https://my.oschina.net/qyhstech/blog/11046186

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

德国防部密码 1234，德媒：这真的安全吗

近日，德国军方被曝出一段涉及“考虑协助乌克兰袭击克里米亚大桥”的录音，从而遭致其国内的严厉批评。目前德国防部已就此进行回应，但期间又发生了一个令人迷惑的安全细节，再遭当下神经已高度紧绷的德媒质疑。当地时间3月3日，德国国防部长鲍里斯·皮斯托留斯（ Boris Pistorius）就窃听丑闻一事举行新闻发布会，其讲话部分于4日以加密录音文档的形式被公布在德国防部网站上。德国防部提醒，游客可以通过点击该文档链接进入德国国防军的云存储服务器，并输入密码“1234”来访问一个13MB大小的MP3录音文档。 3月3日，德国柏林，德国国防部长皮斯托留斯就“德军方谈话遭俄罗斯窃听”一事对媒体发表讲话，指责俄方发动“信息站”。虽然该录音文档在云存储上未进行分类，密码“1234”甚至可能只是个临时占位符，但密码的简单性仍遭到德媒批评。对此，德国《图片报》就将国防部页面的提示截图贴在报道内，并反问“密码是1234，这真的安全吗？” 《图片报》指出，目前仍不清楚俄方究竟是如何通过什么手段窃听获得了长达38分钟的德国高层军官通话的录音，但这些高层军官因使用“WebEx”（第三方远程会议软件）进行高度机密的...

2024-03-07

310

零一万物宣布开源 Yi-9B 模型，并声称该模型是当前 Yi 系列模型中的“理科状元”——代码和数学能力表现最佳；不偏科，中文能力也很强。“这是继今年1月23日开源多模态模型 Yi-VL-34B 之后，零一万物在开源方向上的又一重要成果。 ” 根据介绍，Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型，它的基本信息如下：参数大小：Yi-9B 的实际参数为 8.8B。上下文长度：与 Yi 系列其他模型一样，默认上下文长度是 4K tokens。训练数据：数据量：Yi-9B 是在 Yi-6B （使用了 3.1T tokens 训练）的基础上，使用了 0.8T tokens 进行继续训练。数据时间：使用截止至 2023 年 6 月的数据。模型优势一直以来，Yi 系列模型的中英文能力很强，但在代码和数学方面还有提升空间。Yi-9B 补足了这一短板，增强了 Yi 系列模型全方位的能力。代码和数学能力出色，综合实力强劲在综合能力方面（Mean-All），Yi-9B 的性能在尺寸相近的开源模型中最好，超越了 DeepSeek-Coder、DeepSeek-Math、M...

2024-03-07

296

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。