RAG三件套运行的新选择 - GPUStack-低调大师

RAG三件套运行的新选择 - GPUStack

2024-11-12 620

GPUStack 是一个开源的大模型即服务平台，可以高效整合并利用 Nvidia、Apple Metal、华为昇腾和摩尔线程等各种异构的 GPU/NPU 资源，提供本地私有部署大模型解决方案。

GPUStack 可以支持 RAG 系统中所需要的三种关键模型：Chat 对话模型（大语言模型）、Embedding 文本嵌入模型和 Rerank 重排序模型三件套，只需要非常简单的傻瓜化操作就能部署 RAG 系统所需要的本地私有模型。

下面介绍如何安装 GPUStack 和 Dify，并使用 Dify 来对接 GPUStack 部署的对话模型、Embedding 模型和 Reranker 模型。

安装 GPUStack

在 Linux 或 macOS 上通过以下命令在线安装，在安装过程中需要输入 sudo 密码：

  curl -sfL https://get.gpustack.ai | sh -

如果环境连接不了 GitHub，无法下载一些二进制文件，使用以下命令安装，用 --tools-download-base-url 参数指定从腾讯云对象存储下载：

curl -sfL https://get.gpustack.ai | sh - --tools-download-base-url "https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com"

在 Windows 上以管理员身份运行 Powershell，通过以下命令在线安装：

Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

如果环境连接不了 GitHub，无法下载一些二进制文件，使用以下命令安装，用 --tools-download-base-url 参数指定从腾讯云对象存储下载：

Invoke-Expression "& { $((Invoke-WebRequest -Uri 'https://get.gpustack.ai' -UseBasicParsing).Content) } --tools-download-base-url 'https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com'"

当看到以下输出时，说明已经成功部署并启动了 GPUStack：

[INFO]  Install complete.

GPUStack UI is available at http://localhost.
Default username is 'admin'.
To get the default password, run 'cat /var/lib/gpustack/initial_admin_password'.

CLI "gpustack" is available from the command line. (You may need to open a new terminal or re-login for the PATH changes to take effect.)

接下来按照脚本输出的指引，拿到登录 GPUStack 的初始密码，执行以下命令：

在 Linux 或 macOS 上：

cat /var/lib/gpustack/initial_admin_password

在 Windows 上：

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\initial_admin_password") -Raw

在浏览器访问 GPUStack UI，用户名 admin，密码为上面获得的初始密码。

重新设置密码后，进入 GPUStack：

纳管 GPU 资源

GPUStack 支持纳管 Linux、Windows 和 macOS 设备的 GPU 资源，通过以下步骤来纳管这些 GPU 资源。

其他节点需要通过认证 Token 加入 GPUStack 集群，在 GPUStack Server 节点执行以下命令获取 Token：

在 Linux 或 macOS 上：

cat /var/lib/gpustack/token

在 Windows 上：

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\token") -Raw

拿到 Token 后，在其他节点上运行以下命令添加 Worker 到 GPUStack，纳管这些节点的 GPU（将其中的 http://YOUR_IP_ADDRESS 替换为你的 GPUStack 访问地址，将 YOUR_TOKEN 替换为用于添加 Worker 的认证 Token）：

在 Linux 或 macOS 上：

curl -sfL https://get.gpustack.ai | sh - --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN --tools-download-base-url "https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com"

在 Windows 上：

Invoke-Expression "& { $((Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content) } --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN --tools-download-base-url 'https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com'"

通过以上步骤，我们已经创建了一个 GPUStack 环境并纳管了多个 GPU 节点，接下来可以使用这些 GPU 资源来部署私有大模型。

部署私有大模型

访问 GPUStack，在 Models 菜单中部署模型。GPUStack 支持从 HuggingFace、Ollama Library、ModelScope 和私有模型仓库部署模型，国内网络建议从 ModelScope 部署。

GPUStack 支持 vLLM 和 llama-box 推理后端，vLLM 专门针对生产推理进行了优化，在并发和性能方面更能满足生产需求，但 vLLM 只支持 Linux 系统。llama-box 则是一个灵活、兼容多平台的推理引擎，是 llama.cpp 的优化版本，对性能和稳定性进行了针对性的优化，支持 Linux、Windows 和 macOS 系统 ，不止支持各种 GPU 环境，也支持在 CPU 环境运行大模型，更适合需要多平台兼容性的场景。

GPUStack 会在部署模型时自动根据模型文件的类型选择适当的推理后端，如果模型为 GGUF 格式，GPUStack 会使用 llama-box 作为后端运行模型服务，如果为非 GGUF 格式， GPUStack 会使用 vLLM 作为后端运行模型服务。

部署 Dify 对接所需要的文本对话模型、Embedding 文本嵌入模型、Reranker 模型，记得部署时勾选 GGUF 格式：

Qwen/Qwen2.5-7B-Instruct-GGUF
gpustack/bge-m3-GGUF
gpustack/bge-reranker-v2-m3-GGUF

GPUStack 还支持 VLM 多模态模型，部署 VLM 多模态模型需要使用 vLLM 推理后端：

Qwen2-VL-2B-Instruct

模型部署好后，RAG 系统或其他生成式 AI 应用可以通过 GPUStack 提供的 OpenAI / Jina 兼容 API 对接 GPUStack 部署的模型，接下来使用 Dify 来对接 GPUStack 部署的模型。

Dify 集成 GPUStack 模型

安装 Dify

采用 Docker 方式运行 Dify，需要准备好 Docker 环境，注意避免 Dify 和 GPUStack 的 80 端口冲突，使用其他主机或修改端口。执行以下命令安装 Dify：

git clone -b 0.11.1 https://github.com/langgenius/dify.git
cd dify/docker/
cp .env.example .env
docker compose up -d

访问 Dify 的 UI 界面 http://localhost，初始化管理员账户并登录。

集成 GPUStack 模型

首先添加 Chat 对话模型，在 Dify 右上角选择"设置-模型供应商"，在列表中找到 GPUStack 类型，选择添加模型：

填写 GPUStack 上部署的 LLM 模型名称（例如 qwen2.5-7b-instruct ）、GPUStack 的访问地址（例如 http://192.168.0.111）和生成的 API Key，还有模型设置的上下文长度 8192 和 max tokens 2048：

接下来添加 Embedding 模型，在模型供应商的最上方继续选择 GPUStack 类型，选择添加模型：

添加 Text Embedding 类型的模型，填写 GPUStack 上部署的 Embedding 模型名称（例如 bge-m3 ）、GPUStack 的访问地址（例如 http://192.168.0.111）和生成的 API Key，还有模型设置的上下文长度 8192：

接下来添加 Rerank 模型，继续选择 GPUStack 类型，选择添加模型，添加 Rerank 类型的模型，填写 GPUStack 上部署的 Rerank 模型名称（例如 bge-reranker-v2-m3 ）、GPUStack 的访问地址（例如 http://192.168.0.111）和生成的 API Key，还有模型设置的上下文长度 8192：

添加后重新刷新，然后在模型供应商确认系统模型配置为上面添加的三个模型：

在 RAG 系统使用模型

选择 Dfiy 的知识库，选择创建知识库，导入一个文本文件，确认 Embedding 模型选项，检索设置使用推荐的混合检索，并开启 Rerank 模型：

保存，开始将文档进行向量化过程，向量化完成后，知识库即可以使用了。

可以通过召回测试确认知识库的召回效果，Rerank 模型将进行精排以召回更有相关性的文档，以达到更好的召回效果：

接下来在聊天室创建一个聊天助手应用：

在上下文中添加相关知识库即可使用，此时 Chat 模型、Embedding 模型和 Reranker 模型将共同为 RAG 应用提供支撑，Embedding 模型负责向量化、 Reranker 模型负责对召回的内容进行精排，Chat 模型负责根据问题和召回的上下文内容进行回答：

以上为使用 Dify 对接 GPUStack 模型的示例，其他 RAG 系统也可以通过 OpenAI / Jina 兼容 API 对接 GPUStack，即可利用 GPUStack 平台部署的各种 Chat 模型、Embedding 模型和 Reranker 模型来支撑 RAG 系统。

以下为 GPUStack 功能的简单介绍。

GPUStack 功能介绍

异构 GPU 支持：支持异构 GPU 资源，当前支持 Nvidia、Apple Metal、华为昇腾和摩尔线程等各种类型的 GPU/NPU
多推理后端支持 ：支持 vLLM 和 llama-box (llama.cpp) 推理后端，兼顾生产性能需求与多平台兼容性需求
多平台支持：支持 Linux、Windows 和 macOS 平台，覆盖 amd64 和 arm64 架构
多模型类型支持：支持 LLM 文本模型、VLM 多模态模型、Embedding 文本嵌入模型和 Reranker 重排序模型等各种类型的模型
多模型仓库支持：支持从 HuggingFace、Ollama Library、ModelScope 和私有模型仓库部署模型
丰富的自动/手动调度策略：支持紧凑调度、分散调度、指定 Worker 标签调度、指定 GPU 调度等各种调度策略
分布式推理：如果单个 GPU 无法运行较大的模型，可以通过 GPUStack 的分布式推理功能，自动将模型运行在跨主机的多个 GPU 上
CPU 推理 ：如果没有 GPU 或 GPU 资源不足，GPUStack 可以用 CPU 资源来运行大模型，支持 GPU&CPU 混合推理 和纯 CPU 推理两种 CPU 推理模式
多模型对比：GPUStack 在 Playground 中提供了多模型对比视图，可以同时对比多个模型的问答内容和性能数据，以评估不同模型、不同权重、不同 Prompt 参数、不同量化、不同 GPU、不同推理后端的模型 Serving 效果
GPU 和 LLM 观测指标：提供全面的性能、利用率、状态监控和使用数据指标，以评估 GPU 和 LLM 的利用情况

GPUStack 提供了建设一个私有大模型即服务平台所需要的各项企业级功能，作为一个开源项目，只需要非常简单的安装设置，就可以开箱即用地构建企业私有大模型即服务平台。

总结

以上为安装 GPUStack 和使用 Dify 集成 GPUStack 模型的配置教程，项目的开源地址为：https://github.com/gpustack/gpustack。

GPUStack 作为一个低门槛、易上手、开箱即用的开源平台，可以帮助企业快速整合和利用异构 GPU 资源，在短时间内快速搭建起一个企业级的私有大模型即服务平台。

如果觉得写得不错，欢迎点赞、转发、关注。

微信关注我们

原文链接：https://my.oschina.net/gpustack/blog/16507444

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

深度解析 DeepFlow 如何采集大模型服务的业务指标

为高质量支撑 2024 年客服大模型商用，中国移动构建了客服大模型“混合云”生产环境，确保大模型应用安全稳定运行、智算资源高效利用。面对当前跨云调用拓扑的复杂性，以及运维保障与业务运营中服务质量观测指标的缺失问题，多团队共同合作基于 eBPF 与 Wasm 技术构建客服大模型生产运行态可观测能力。 01｜大模型服务的观测需求在基于基础大模型构建的客服大模型中，虽然这些基础模型在自然语言处理方面表现出强大的计算能力，但其训练、微调和推理的细节仍难以完全理解和控制。尤其是在行业应用中，这些模型在响应性能、准确性和数据安全性方面常常表现为“黑盒”。因此，亟需开发针对大型语言模型的可观测性解决方案，以实现模型的可感知、可维护、可评估和可信任，从而提升平台能力和服务质量。当前，大模型的应用面临一些挑战。在业务稳定性方面，为避免对流量的影响，业务团队严格禁止安装 APM 探针。此外，由于不同团队负责多个大模型，统一拓扑和指标的协调难度较大。因此，在构建可观测性解决方案时，必须做到对业务的零侵扰。近年中国移动磐基 PaaS 平台已经携手 DeepFlow 借助 eBPF 技术实现了全栈且无侵扰的...

2024-11-12

350

“过去 24 个月，AI 行业的最大变化是什么？是大模型基本消除了幻觉。” 11 月 12 日，百度创始人李彦宏在百度世界 2024 大会上，发表了主题为《应用来了》的演讲，发布两大赋能应用的AI技术：检索增强的文生图技术（ iRAG ）和无代码工具“秒哒”。文心 iRAG 用于解决大模型在图片生成上的幻觉问题，极大提升实用性；无代码技术“秒哒”让每个人都拥有程序员的能力，将打造数百万“超级有用”的应用。截至 11 月初，百度文心大模型的日均调用量超 15 亿，相较 5 月披露的 2 亿，增长 7.5 倍，相较一年前首次披露的 5000 万次，更是增长约 30 倍。李彦宏表示“这个增速超出预期”，说明 AI 是真需求。他感慨，这条陡峭的增长曲线，代表着过去两年中国大模型应用的爆发。在AI应用的发展趋势上，李彦宏表示，智能体是 AI 应用的最主流形态，即将迎来爆发点。他依次讲解了公司、角色、工具和行业四大类智能体，将做智能体类比为 PC 时代做网站、或是移动时代做自媒体账号，“不同之处是智能体更像人、更智能，更像你的销售、客服和助理。智能体可能会变成AI原生时代，内容、信息和服务的新...

2024-11-12

277

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。