Xinference v0.13.1 正式发布!一键部署,智能新篇!
- 🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
- ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
- 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!
- ⚙️ 接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。
- 🌐 集群计算,分布协同: 支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。
- 🔌 开放生态,无缝对接: 与流行的三方库无缝对接,包括 LangChain,LlamaIndex,Dify,以及 Chatbox。
🎉 Xinference快速迭代,v0.13.0 已正式发布!!!Apple M系列专用后端 MLX 来临,Mac 上加速高达 40% 🚀。目前已支持 qwen2 和 gemma-2。阿里云镜像也如约而至,且容量大幅缩减,解决大家在国内拉取 docker 的痛点。详细更新内容如下:
新增内置支持模型 📦
- qwen2 gguf格式 📝
- gemma-2-it 💻
新功能 🚀
- transformers推理后端支持开启continuous batching(连续批处理),优化LLM同时服务多请求的吞吐。支持generate / chat / vision任务,欢迎试用。详见:https://inference.readthedocs.io/zh-cn/latest/user_guide/continuous_batching.html 📊
- 支持mac arm芯片平台下的高速推理引擎MLX 🍏
- 官方GPU镜像以vllm镜像为基础进行重构。大幅减少镜像体积,要求宿主机cuda版本12.4+和nvidia驱动版本550+。详见:https://inference.readthedocs.io/zh-cn/latest/getting_started/using_docker_image.html 🎥
- 官方镜像支持从阿里云服务中拉取。详见:https://inference.readthedocs.io/zh-cn/latest/getting_started/using_docker_image.html ☁️
- 新增更多日志模块。现在与请求相关的详细的uvicorn日志将被记录在日志文件中,同时transformers和vllm在命令行和文件中也会有更详细的日志 📑
BUG修复 🐛
- 修复glm4 tool call的问题 🔧
- 修复rerank接口curl和python客户端返回documents行为不一致的问题 📜
- 更新glm4v模型的版本号,修复多GPU使用等若干问题。已下载的用户删除后重新下载即可 🔄
- 修复LLM为基础的rerank计算报错的问题 💡
- 修复deepseek-vl-chat模型缺少依赖的问题 🔗
UI相关 💻
优化鉴权模式下的使用体验 🔐
我们感谢每一位参与的社区伙伴对Xinference的帮助和支持,也欢迎更多使用者和开发者参与体验和使用Xinference。https://github.com/xorbitsai/inference 给我们一个星标,遮掩给你就可以在GitHub上及时收到每个新版本的通知。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Apache BookKeeper 一致性协议解析
导语 Apache Pulsar 是一个多租户、高性能的服务间消息传输解决方案,支持多租户、低延时、读写分离、跨地域复制(GEO replication)、快速扩容、灵活容错等特性。Pulsar 存储层依托于 BookKeeper 组件,所以本文简单探讨一下 BookKeeper(下文简称 BK) 的一致性协议是如何实现的。 背景 Pulsar相对于 Kafka 根本的区别在于数据一致性协议,这也是为什么 Pulsar 可以做到两副本就能保障高可用、高可靠,在磁盘使用方面更均衡,也不会存在单分区容量上限,同时在扩缩容、故障屏蔽等日常运维方面更加灵活和方便。 一致性协议简介 我们常见的一致性协议,比如 Raft、Kafka、ZAB 等,都是服务端集成协议(协议控制和数据存储绑定),简单来说一致性协议由服务端存储节点来执行。数据流向通常是客户端写数据到 Leader 节点,其他节点再通过推或拉的方式从 Leader 获取数据。 而 BK 的一致性协议控制和存储是分开的,协议控制是在客户端执行,可以称之为外部一致性协议,或者客户端一致性协议。数据流向为客户端向多台存储节点同时写入数据,存储节...
- 下一篇
以国际化布局推进开源腾飞,openKylin 成立乌干达及阿富汗用户组
随着全球经济一体化的加速推进,各个国家和地区之间的合作及联系日益密切。“一带一路”倡议旨在加强沿线国家之间的经济、文化和技术合作,openKylin社区的国际化发展提供了一个技术共享和交流合作的平台,助力推进中国开源社区高质量发展,同时服务“一带一路”倡议深入推进。 今年以来,openKylin面向全球发布用户组招募计划,吸引世界各地的开发者及用户加入社区。经对近期收到的国际用户组创建申请进行审核,社区正式成立乌干达(Uganda)及阿富汗(Afghanistan)用户组。开源技术具有开放性、共享性和创新性的特点,通过openKylin,沿线国家的开发者、企业和机构可以分享和获取最新的技术成果,共同推动技术创新和发展。 openKylin乌干达用户组成立仪式 openKylin阿富汗用户组成立仪式 openKylin用户组是为方便全球各国家及地区开源爱好者交流openKylin系统版本及用户体验、推广openKylin操作系统而成立的开源爱好者组织,其目的在于将开源社区的相关合作拓展至全球范围,吸引更多国际开发者贡献代码、想法和经验,提升openKylin社区的国际品牌影响力,并获得持...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS8编译安装MySQL8.0.19
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Red5直播服务器,属于Java语言的直播服务器
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,8上快速安装Gitea,搭建Git服务器