您现在的位置是:首页 > 文章详情

🌟 Xinference v1.3.1:全新 QwQ 模型支持与 Xllamacpp 的强强联手!

日期:2025-03-14点击:38

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。   Xinference 的功能和亮点有:
* * 🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
* * ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
* * 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!
* * ⚙️ 接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。
* * 🌐 集群计算,分布协同:支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。
* * 🔌 开放生态,无缝对接:与流行的三方库无缝对接,包括 LangChain, LlamaIndex, Dify,以及 Chatbox。


📢 Xinference v1.3.1 发布! 🎉

🚀 Qwen 新推理模型 QwQ 支持,全新官方维护的 Xllamacpp 现已推出,支持 continuous batching 并发推理!

🔧 重要变更提醒:
当前默认依然使用 llama-cpp-python,要启用 Xllamacpp,请设置环境变量:USE_XLLAMACPP=1。
未来版本计划:
✅ v1.5.0:默认切换到 Xllamacpp
❌ v1.6.0:移除 llama-cpp-python

🚀 社区版

🔧 更新指南

📦 pip: pip install 'xinference==1.3.1'
🐳 Docker: 直接拉取最新版本,或在镜像内运行 pip 更新。

📜 更新日志

✨ 新增模型
🧠 LLM:
* 🌟 QwQ-32B
* 🌙 Moonlight-16B-A3B
* 🔬 InternVL2.5-MPO

🔥 新功能
* 🏗️ 全新 llama.cpp Python binding:Xllamacpp —— 由 Xinference 官方维护,支持 continuous batching 并发推理!
* 🏆 Qwen2.5-VL 现支持 AWQ 量化格式,提升推理效率!
* 🧠 新增模型能力选择项:reasoning_content 参数,可在 UI 上选择解析推理内容。

🛠️ BUG 修复
* 🖼️ 修复 jina-clip-v2 仅传入图像文本时报 无属性错误 的问题。
* ⚙️ 兼容 mlx-lm v0.21.5,提高稳定性。
* 📦 修复 Dockerfile 中 ffmpeg 和 ffprobe 依赖问题。
* 🚀 解决 Langchain-Chatchat 传递 max_tokens=None 时报错的问题。
* 🏗️ 修复 Qwen2.5-VL 在 modelscope 中的模型 ID。
* 📝 解决 create_embedding 传入多余参数导致的错误。
* 💬 修复 qwen2.5-vl-7b 无法聊天的问题。

🎨 UI 相关
* 🔊 为 音频模型 添加模型能力选项,增强可用性!
* 📋 模型列表新增复制按钮,一键复制 模型 UID 等属性,提升使用体验!

🏢 企业版

🔗 全面分布式推理支持,包括优化的 vLLM/sglang 引擎,支持 全国产化推理!
📩 欢迎联系 @首席客服 了解更多详情!

🔥 立即体验 v1.3.1,探索更强大的 AI 推理能力! 🚀


我们感谢每一位参与的社区伙伴对 Xinference 的帮助和支持,也欢迎更多使用者和开发者参与体验和使用 Xinference。
 
欢迎您在 https://github.com/xorbitsai/inference 给我们一个 星标,这样你就可以在 GitHub 上及时收到每个新版本的通知。

 

原文链接:https://www.oschina.net/news/338881/xinference-1-3-1-released
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章