🌟 Xinference v1.3.1:全新 QwQ 模型支持与 Xllamacpp 的强强联手!
Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。 Xinference 的功能和亮点有:
* * 🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
* * ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
* * 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!
* * ⚙️ 接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。
* * 🌐 集群计算,分布协同:支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。
* * 🔌 开放生态,无缝对接:与流行的三方库无缝对接,包括 LangChain, LlamaIndex, Dify,以及 Chatbox。
📢 Xinference v1.3.1 发布! 🎉
🚀 Qwen 新推理模型 QwQ 支持,全新官方维护的 Xllamacpp 现已推出,支持 continuous batching 并发推理!
🔧 重要变更提醒:
当前默认依然使用 llama-cpp-python,要启用 Xllamacpp,请设置环境变量:USE_XLLAMACPP=1。
未来版本计划:
✅ v1.5.0:默认切换到 Xllamacpp
❌ v1.6.0:移除 llama-cpp-python
🚀 社区版
🔧 更新指南
📦 pip: pip install 'xinference==1.3.1'
🐳 Docker: 直接拉取最新版本,或在镜像内运行 pip 更新。
📜 更新日志
✨ 新增模型
🧠 LLM:
* 🌟 QwQ-32B
* 🌙 Moonlight-16B-A3B
* 🔬 InternVL2.5-MPO
🔥 新功能
* 🏗️ 全新 llama.cpp Python binding:Xllamacpp —— 由 Xinference 官方维护,支持 continuous batching 并发推理!
* 🏆 Qwen2.5-VL 现支持 AWQ 量化格式,提升推理效率!
* 🧠 新增模型能力选择项:reasoning_content 参数,可在 UI 上选择解析推理内容。
🛠️ BUG 修复
* 🖼️ 修复 jina-clip-v2 仅传入图像文本时报 无属性错误 的问题。
* ⚙️ 兼容 mlx-lm v0.21.5,提高稳定性。
* 📦 修复 Dockerfile 中 ffmpeg 和 ffprobe 依赖问题。
* 🚀 解决 Langchain-Chatchat 传递 max_tokens=None 时报错的问题。
* 🏗️ 修复 Qwen2.5-VL 在 modelscope 中的模型 ID。
* 📝 解决 create_embedding 传入多余参数导致的错误。
* 💬 修复 qwen2.5-vl-7b 无法聊天的问题。
🎨 UI 相关
* 🔊 为 音频模型 添加模型能力选项,增强可用性!
* 📋 模型列表新增复制按钮,一键复制 模型 UID 等属性,提升使用体验!
🏢 企业版
🔗 全面分布式推理支持,包括优化的 vLLM/sglang 引擎,支持 全国产化推理!
📩 欢迎联系 @首席客服 了解更多详情!
🔥 立即体验 v1.3.1,探索更强大的 AI 推理能力! 🚀
我们感谢每一位参与的社区伙伴对 Xinference 的帮助和支持,也欢迎更多使用者和开发者参与体验和使用 Xinference。
欢迎您在 https://github.com/xorbitsai/inference 给我们一个 星标,这样你就可以在 GitHub 上及时收到每个新版本的通知。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Gitee MCP Server v0.1.3 发布,Gitee 模型上下文协议 (MCP) 服务器
Gitee MCP Server v0.1.3 已经发布,Gitee 模型上下文协议 (MCP) 服务器。 更新内容 docs: Update alignment for MCP Hosts configuration images docs: Add installation guides for MCP hosts Bump version to 0.1.3, and fix file content handling. docs: Add practical scenario and images to README 详情查看:https://gitee.com/oschina/mcp-gitee/releases/v0.1.3
- 下一篇
英特尔人工智能创新应用大赛整装升级,AI 助手全程护航创新实践
3月14日,2025英特尔人工智能创新应用大赛(以下简称“大赛”)正式启动。本届大赛以“‘码’上出发,‘芯’创未来”为主题,在赛制、规模、奖项和赛事支持上实现多重升级,为开发者和企业提供展示创意和成果的广阔平台,鼓励他们充分利用英特尔及合作伙伴丰富的软硬件资源,探索AI应用的无限可能。 •体系升级:大赛延续个人、企业双赛道,各赛道分别新设“面向消费和商用领域”和“面向垂直行业及应用领域”的赛题。 •规模升级:大赛首次覆盖青少年群体,特别设立“未来之星奖”,为年轻开发者提供AI实践平台。 •支持升级:大赛为开发者提供升级的平台算力、全栈软件优化、实时答疑的AI赛事助手、Quick Start技术指南以及线上线下培训等坚实支撑。英特尔还将为进入半决赛的优秀团队提供端侧设备及云服务,助力他们勇闯决赛舞台。 •奖项设置升级:大赛设立百万奖金池,并在初赛与决赛阶段分设“英特尔平台实践奖”“创业奖”“组织奖”“特别奖”“商业价值奖”及六大专项奖等各类奖项,鼓励创意实践。 如今,AI正以前所未有的速度重塑生活与产业格局。AI PC的普及与DeepSeek等新模型的发展,不仅提升了技术性能,还拓展了应...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境