您现在的位置是:首页 > 文章详情

AI21 开源迷你语言模型 Jamba Reasoning3B

日期:2025-10-09点击:50

AI21Labs 宣布推出其最新的开源小语言模型 ——Jamba Reasoning3B。这款被称为 “迷你语言模型” 的系统专为在设备上进行人工智能计算而设计。Jamba Reasoning3B 是该公司在特拉维夫开发的 Jamba 系列模型的最新成员,并采用 Apache2.0许可证发布。

与大多数市场上流行的大型语言模型(LLM)不同,Jamba Reasoning3B 建立在 AI21自有的混合状态空间模型(SSM)- 变换器架构之上。状态空间模型是一种用于序列建模的深度学习算法,相比传统变换器在某些任务上更加高效。这类模型通过当前状态预测下一个状态。Mamba 是一种基于 SSM 的神经网络架构,构成了 Jamba 架构的一部分。

这款迷你语言模型的上下文窗口长度达到了 256000 个 token,最多可以处理 1000000 个 token,具备与 Anthropic Claude、Google Gemini 和 Meta Llama 等大型语言模型相似的能力,但却可以在 iPhone、Android 设备、Mac 和 PC 等小型设备上运行。

Futurum Group 的分析师 Brad Shimmin 表示,他一直是状态空间模型的支持者,认为这一理念在行业内已有相当长的历史,但直到现在才有切实可行的实现方式。他指出,随着技术的演进,状态空间模型的使用变得更加可行,因为其扩展性强且速度快。

SSM 类型模型使用绳索缩放技术来扩展模型的注意机制,从而有效优先处理任务,同时所需的计算能力比大型语言模型少。虽然 AI21是一家相对较小的生成 AI 公司,但由于其获得了 Google 和 AI 芯片巨头 Nvidia 的支持,并自2017年成立以来融资超过6亿美元,因此它可以通过建立生态系统来从开放源代码模型 Jamba Reasoning3B 中获利。

在发布会上,AI21展示了 Jamba 模型在广泛使用的基准测试系统如 IFBench、MMLU-Pro 和 Humanity's Last Exam 上的表现,证明其超越了包括阿里巴巴的 Qwen3.4B、谷歌的 Gemma3.4B、Meta 的 Llama3.23B、IBM 的 Granite4.0Micro 和微软的 Phi-4Mini 等多个大型开源 LLM。

Shimmin 认为,这款迷你语言模型在企业市场中有广阔的前景,因其支持检索增强生成技术,企业能够根据自身需求进行定制,同时确保数据的安全性。他提到,一个潜在的应用领域是客户服务中心,通过其推理能力来处理客户投诉,判断问题是否需要升级到人工或其他模型。

原文链接:https://www.oschina.net/news/376382
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章