Mistral AI 发布开源代码大模型 Codestral Mamba、数学大模型 Mathstral
法国人工智能初创公司 Mistral 以其强大的开源人工智能模型而闻名。今天,该公司在其不断壮大的大型语言模型 (LLM) 家族中推出了两个新产品:一个是基于数学的模型,另一个是面向程序员和开发人员的代码生成模型,其基础是去年底由其他研究人员开发的名为 Mamba 的新架构。
Codestral Mamba:https://mistral.ai/news/codestral-mamba/
Mathstral:https://mistral.ai/news/mathstral/
Mamba 试图通过简化注意力机制来提高大多数领先 LLM 所使用的 Transformer 架构的效率。与更常见的基于 Transformer 的模型不同,基于 Mamba 的模型推理时间更快,上下文时间更长。 包括 AI21 在内的其他公司和开发者已经发布了基于 Mamba 的新人工智能模型。
现在,Mistral 的 Codestral Mamba 7B 采用了这种新架构,即使输入文本较长,也能提供快速的响应时间。Codestral Mamba 非常适合代码生产力使用案例,尤其是本地编码项目。
Mistral 对该模型进行了测试,该模型将在 Mistral 的 la Plateforme API 上免费使用,可处理多达 256000 个词元的输入,是 OpenAI 的 GPT-4o 的两倍。
在基准测试中,Mistral 显示 Codestral Mamba 在 HumanEval 测试中的表现优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。
开发人员可以从 GitHub 仓库或通过 HuggingFace 修改和部署 Codestral Mamba。它将采用开源 Apache 2.0 License。
Mistral 声称,Codestral 早期版本的性能优于 CodeLlama 70B 和 DeepSeek Coder 33B 等其他代码生成器。
代码生成和编码助手已成为人工智能模型的广泛应用,GitHub 的 Copilot(由 OpenAI 提供支持)、亚马逊的 CodeWhisperer 和 Codenium 等平台越来越受欢迎。
Mistral 推出的第二个模型是Mathstral 7B,这是一个专为数学推理和科学发现而设计的人工智能模型。Mistral 与 Numina 项目共同开发了 Mathstral。
Mathstral 的上下文窗口为 32K,将采用 Apache 2.0 开源许可。Mistral 表示,该模型的性能超过了所有为数学推理设计的模型。它可以在推理计算时间更长的基准测试中取得 "明显更好的结果"。用户可以按原样使用,也可以对模型进行微调。
"Mathstral 是为特定目的构建模型时实现出色性能 / 速度权衡的又一范例,这也是我们在 la Plateforme 积极推广的开发理念,尤其是其新的微调功能,"Mistral 在一篇博文中说。
用户可以通过 Mistral's la Plataforme 和 HuggingFace 进入 Mathstral。
Mistral 公司倾向于在开源系统上提供模型,它一直在与 OpenAI 和 Anthropic 等其他人工智能开发商展开激烈竞争。最近,该公司获得了 6.4 亿美元的 B 轮融资,估值接近 60 亿美元。该公司还获得了微软和 IBM 等科技巨头的投资。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
隼瞻科技加入openKylin,共同探索 RISC-V 开源技术创新
近日,上海隼瞻科技有限公司(简称“隼瞻科技”)签署了openKylin社区CLA(Contributor License Agreement贡献者许可协议),正式加入openKylin开源社区。 隼瞻科技是一家提供专用处理器IP和EDA处理器设计平台的创新型高科技公司,为行业提供面向DSA的RISC-V专用处理器解决方案。隼瞻科技凭借处理器核、EDA处理器设计平台、跨平台软件生态移植解决方案等优势,推出多种模式结合的IP定制开发解决方案,产品涵盖高中低端专用处理器门类,可广泛应用于AIOT、DSP、5G网络、汽车电子、人工智能、高算力运算等多种复杂芯片解决方案。隼瞻科技致力于变革专用处理器的设计方法学,构筑中国处理器技术的高边疆,成为世界领先的处理器方案提供商。 加入openKylin社区后,隼瞻科技将依托其在RISC-V领域的技术专长和生态系统的创新动力,与openKylin社区携手并进。通过深化合作,双方将共同探索基于RISC-V的开源技术创新,推动相关项目的持续进步和社区生态的繁荣发展。未来,隼瞻科技将与openKylin社区一起为行业带来新的活力,共同促进开源文化在RISC-V...
- 下一篇
程序员应该关注的三种编程语言
有关编程语言的争论并不是什么新鲜事,虽然最近的讨论主要是围绕在 AI 的影响以及生成式 AI 是否会完全消除对编程语言熟练程度的需求方面,但对编程语言的持续学习仍然是不可或缺的一部分。 鉴于此,科技媒体 VentureBeat 归纳介绍了他们认为程序员需要重点掌握的三种语言。 Swift 苹果公司语言和运行时总监 Ted Kremenek 曾表示,程序员应该把目光投向 Swift,而不是传统的中坚力量 C++。“Swift 的安全性、速度和易用性,加上内置的 C 和 C++互操作性,意味 着Swift 是接替 C++ 的最佳选择。" Swift 在 2014 年由苹果公司推出,最新迭代版本 Swift 6 计划于今年晚些时候发布,并将进行多项改进。包括更安全、更简单的编程,新的编码时数据安全保障功能,可以在编码时诊断开发者项目中并发访问内存的情况。这一优化可以在对整个代码库进行最小改动的情况下发现和修复错误,增强了未来代码的安全性和可维护性。 该公司还指出,Swift 6 的速度将比 Python 快 8.4 倍。 延伸阅读:苹果称 Swift 是 C++ 的最佳继任者 Finch F...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS8编译安装MySQL8.0.19
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Red5直播服务器,属于Java语言的直播服务器
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,8上快速安装Gitea,搭建Git服务器