Xinference 1.8.1 震撼发布!GLM 4.5 & Qwen3 全系列模型一键体验
Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。 Xinference 的功能和亮点有:
- 🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
- ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
- 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!
- ⚙️ 接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。
- 🌐 集群计算,分布协同:支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。
- 🔌 开放生态,无缝对接:与流行的三方库无缝对接,包括 LangChain, LlamaIndex, Dify,以及 Chatbox。
🚀 Xinference v1.8.1 更新日志
✅ 本次亮点
- 🧠 全面支持 GLM 4.5 系列 & Qwen3 Instruct / Thinking / Coder 全系列模型,包含多种能力形态,满足问答、推理、代码生成等多场景需求。
- 🧪 实验性发布 CUDA 12.8 镜像,镜像标签为 v1.8.1-cu128,欢迎体验并反馈使用效果。
- 📏 max_tokens 不设置时自动使用最大支持长度 提升推理结果完整性,避免因未设置 max_tokens 而被截断。
- 📦 模型虚拟空间机制(virtualenv)增强
- 自动跳过系统已安装依赖:https://inference.readthedocs.io/zh-cn/latest/models/virtualenv.html#skip-installed-libraries
- 支持为单个模型独立启用虚拟空间并指定额外依赖:https://inference.readthedocs.io/zh-cn/latest/models/virtualenv.html#model-launching-toggle-virtual-environments-and-customize-dependencies
- 🧩 加载模型时支持设置环境变量
- 更灵活地控制模型运行时配置:https://inference.readthedocs.io/zh-cn/latest/user_guide/launch.html#set-environment-variables
🌐 社区版更新
📦 安装方式
- pip 安装:pip install 'xinference==1.8.1'
- Docker 使用:拉取最新版镜像或使用 pip 更新
🆕 新模型支持
- GLM 4.5 系列
- Qwen3-Instruct
- Qwen3-Thinking
- Qwen3-Coder
✨ 新特性
- 支持模型加载时启用虚拟环境 & 指定依赖包
- 支持 max_tokens 自动设为最大长度
- 新增 Qwen3-30B-A3B-it
- 支持在模型加载时设定环境变量
- 支持 kokoro MLX、bge-m3 (llama.cpp)、deepseek-v3 (mlx)
🛠 功能增强
- 支持 MLU 设备检测
- vLLM embedding 模型支持上下文自动截断
- 重构 UI 模块,整合 Web 与 Gradio UI
- sglang structured output 修复兼容
- 移除 sglang 依赖避免与 vllm 冲突
- Dockerfile 基础镜像升级,并支持 CUDA 12.8 构建
🐞 Bug 修复
- 修复 Qwen3 Reranker GPU 显存异常问题
- 修复旧版 vLLM 与 0.10.0 兼容性问题
- 修复 enable_thinking 模式中 reasoning 输出问题
📚 文档更新
- 增加虚拟空间与依赖配置文档
- 更新模型环境变量设置文档
🏢 企业版更新
- 发布 0.2.0 版本
- 提升高可用能力:支持 Supervisor 主从同步与容错机制
- 模型副本部署能力增强:可为每个副本单独指定部署机器与显卡
我们感谢每一位参与的社区伙伴对 Xinference 的帮助和支持,也欢迎更多使用者和开发者参与体验和使用 Xinference。 欢迎您在 https://github.com/xorbitsai/inference 给我们一个 星标,这样你就可以在 GitHub 上及时收到每个新版本的通知。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
LazyLLM教程 | 第3讲:大模型怎么玩:用LazyLLM带你理解调用逻辑与Prompt魔法!
上期,我们介绍了基础的RAG的基本概念,以及如何用LazyLLM实现一个基础的RAG。本期我们将深入介绍LazyLLM的特性,以Lazy的方式,逻辑更加清晰地构建出一个以数据流为核心范式的RAG应用~ 在本次教程中,您不仅可以学习到LazyLLM中的各种数据流的使用,还可以更加深入地学到如何使用在线和本地的大模型,并为它们设置上Prompt,同时还可以复用同一个本地大模型来构建多个不同角色的大模型。最后本喵将带领您一步步优化上期RAG,以LazyLLM中的数据流来重构基础RAG! LazyLLM是一款构建多Agent大模型应用的开发框架,协助开发者用极低的成本构建复杂的AI应用,并可以持续的迭代优化效果。基于LazyLLM的AI应用构建流程是: 原型搭建 → 数据分析 → 迭代优化 用户可以先基于LazyLLM快速跑通应用的原型,再结合场景任务数据进行bad-case分析,然后对应用中的关键环节进行算法迭代和模型微调,进而逐步提升整个应用的效果。LazyLLM 的设计目标是让算法研究员和开发者能够从繁杂的工程实现中解脱出来,从而专注算法和数据。 LazyLLM为同一模块的不同技术选型提...
- 下一篇
源雀 SCRM 开源版升级:企业公告功能上线,高效触达更灵活!
一:核心功能更新:企业公告开源 本次开源版重磅推出「企业公告」模块,支持通过企业微信应用向指定员工发送多样化通知: 开源功能: ✅ 文本通知:快速传达政策变更、任务安排等关键信息。 ✅ 图片/图文消息:支持上传产品手册、流程图示,信息呈现更直观。 ✅ 精准定向:按部门、角色或员工名单灵活选择接收对象,避免信息过载。 ✅ 历史消息:发送记录自动存档,便于审计与复盘,保障沟通透明度 商业版在开源基础上新增: 👏 视频文件推送:适用于培训教学、产品演示等需动态展示的场景。 👊 定时通知:预设发送时间,确保重要公告在最佳时机触达(如节假日提醒、活动预热)。 👍 通知撤回: 误发内容一键撤回,降低沟通事故风险。 二、典型应用场景 行政办公:HR通过图文公告一键下发考勤制度,员工企微实时查收。 销售协同:区域经理定向推送产品报价图,一线团队快速响应客户需求。 培训管理(商业版专属):上传教学视频,新人可反复观看学习业务流程。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8安装Docker,最新的服务器搭配容器使用