🚀Xinference v1.14.0 最新更新：模型副本并行加载，虚拟空间管理升级⚡-低调大师

🚀Xinference v1.14.0 最新更新：模型副本并行加载，虚拟空间管理升级⚡

2025-12-06 88

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。

Xinference 的功能和亮点有：
* * 🌟 模型推理，轻而易举：大语言模型，语音识别模型，多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
* * ⚡ 前沿模型，应有尽有：框架内置众多中英文的前沿大语言模型，包括 baichuan，chatglm2 等，一键即可体验！内置模型列表还在快速更新中！
* * 🖥 异构硬件，快如闪电：通过 ggml，同时使用你的 GPU 与 CPU 进行推理，降低延迟，提高吞吐！
* * ⚙ 接口调用，灵活多样：提供多种使用模型的接口，包括 OpenAI 兼容的 RESTful API（包括 Function Calling），RPC，命令行，web UI 等等。方便模型的管理与交互。
* * 🌐 集群计算，分布协同：支持分布式部署，通过内置的资源调度器，让不同大小的模型按需调度到不同机器，充分使用集群资源。
* * 🔌 开放生态，无缝对接：与流行的三方库无缝对接，包括 LangChain， LlamaIndex， Dify，以及 Chatbox。

🚀 Xinference v1.14.0 更新日志

✅ 本次亮点

* ⚡ 模型多副本并行加载
* 多副本（replicas）支持并行加载
* UI 显示每个副本的独立加载进度
* 在实例页面可查看所有副本状态

* 🧪 模型虚拟空间（virtualenv）增强
* 现在支持在页面中管理与删除虚拟空间
* 👉 文档参考：
https://inference.readthedocs.io/en/latest/models/virtualenv.html#manage-virtual-enviroments

* 🚫 引擎不可用时可显示具体原因
* 更容易排查运行环境问题，不再需要猜测为什么某个引擎不可用

* 🔍 Rerank 现在支持 llama.cpp 后端
* 重排模型可以用更轻量的推理方式运行

* 🔄 vLLM 新版（0.11.1+）完全兼容

* 🖼️ 新模型支持：FLUX.2-dev
* 高质量图像生成模型更新，模型能力进一步提升

🌐 社区版更新

📦 安装方式
* pip 安装：pip install 'xinference==1.14.0'
* Docker：拉取最新镜像或在容器内使用 pip 更新

🆕 新模型支持
* HunyuanOCR
* FLUX.2-dev

✨ 新特性
* 模型副本并行加载
* 虚拟空间可管理与删除
* rerank 支持 llama.cpp 后端
* vLLM 0.11.1+ 兼容

🛠 构建与修复
* 修复 gradio 6.x UI 启动模型异常
* 修复 hybrid CPU/GPU 集群下无法选择 GPU 的问题
* 兼容 xllamacpp 0.2.5+
* 修复 DeepSeek-OCR 在 Docker 中的报错
* 修复多模态模型缓存不显示的问题
* tool call ID 改为 UUID，避免冲突

📚 文档更新
* 更新 v1.13.0 发布文档
* 更新模型与文档生成流程

🏢 企业版更新

* 性能提升：多副本加载、推理调度更快
* 稳定性增强：修复若干问题，企业集群运行更可靠

参考
中文：https://xinference.cn/release_notes/v1.14.0.html
英文：https://xinference.io/release_notes/v1.14.0.html

我们感谢每一位参与的社区伙伴对 Xinference 的帮助和支持，也欢迎更多使用者和开发者参与体验和使用 Xinference。

欢迎您在 https://github.com/xorbitsai/inference 给我们一个星标，这样你就可以在 GitHub 上及时收到每个新版本的通知。

微信关注我们

原文链接：https://www.oschina.net/news/388100

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Maven With Me Pro 插件支持 JetBrains 官方授权，Maven 版本管理效率拉满！

🎉 重磅官宣！【Maven With Me Pro】插件正式支持 JetBrains 官方授权购买，Maven 版本管理效率拉满！🚀 大家好，专注攻克 Maven 项目版本管理难题的「Maven With Me Pro(MPVP)」插件，今日正式入驻 JetBrains 官方插件市场并开放官方授权购买！从此告别繁琐手动配置，一键解锁专业级 Maven 版本管理能力，让版本升级、依赖查询、徽章生成更高效、更稳定，彻底摆脱 pom.xml 配置的重复劳作！ 🔥 四大核心功能，玩转 Maven 版本管理版本一键升降回退（Maven 专属）快照版、Release 版全适配！输入目标版本，一键提交即可完成全局版修改并同步，展示 pom.xml 修改细节，告别逐行手动修改的繁琐与漏改风险，节省 80% 版本调整时间！（支持标准语义化版本格式，特殊场景可随时反馈适配）版本可视化展示（Maven 专属）项目视图直接显示当前项目版本号与核心依赖版本，无需反复打开 pom.xml 文件即可快速确认版本状态！还支持自定义展示规则，完美贴合你的开发习惯～依赖版本精准搜索（Maven 专属优化...

2025-12-05

116

自从进入DDR5时代，内存频率不断刷新上限，就在数日前，技嘉Z890 AORUS Tachyon ICE主板再次打破纪录，超频高手Saltycroissant与Sergmann先后凭借该主板，在24小时内将内存频率从13407MT/s推升至13530MT/s，刷新行业极限。根据HWBOT的数据更新来看，两次突破均采用相同时序（CL68-127-127-127-2）和海盗船Vengeance内存，但处理器分别为酷睿Ultra 7 265K与Ultra 9 285K，主板均为Z890 AORUS TACHYON ICE钛冰雕主板，使用了液氮散热，成绩获得了HWBOT认证通过。自2025年来，技嘉Z890 AORUS TACHYON ICE（钛冰雕主板）已借助DDR5内存超频创下10项纪录。这些成就主要由超频专家如HiCookie、Sergmann和Saltycroissant达成，他们应用了液态氮冷却技术、Intel Core Ultra处理器（典型型号如285K或265K）及多品牌DDR5内存（包括XPG、Corsair、ADATA、V-Color），并在HWBOT平台获得权威认证。...

2025-12-05

114

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。