Mistral AI 发布 73 亿参数模型,“碾压” Llama 2 13B

法国人工智能初创公司 Mistral AI 宣布推出其首款大语言模型 Mistral 7B 是一个,号称是迄今为止同规模产品中最强大的语言模型;在 Apache-2.0 许可下开源,可完全免费使用,不受任何限制。

Mistral AI 是一个成立仅六个月的初创公司,于 6 月份筹集了 1.18 亿美元的巨额种子轮资金,据称是欧洲历史上最大的种子轮融资。Mistral 7B 是一个拥有 73 亿参数的模型。该公司声称在涵盖一系列任务的基准测试中,Mistral 7B 的表现均显著优于 Llama 2 7B 和 13B,并且与 Llama 34B 相当。

在涵盖数学、美国历史、计算机科学、法律等 57 个科目的大规模多任务语言理解 (MMLU) 测试中,Mistral 7B 模型的准确率为 60.1%,Llama 2 7B 和 13B 的准确率略高于分别为 44.4% 和 55.6%。

在常识推理和阅读理解测试中,Mistral 7B 的准确率也超过了两个 Llama 模型。在世界知识测试中,Llama 2 13B 与 Mistral 7B 不相上下,Mistral 称这可能是由于模型的参数数量有限,限制了它可以压缩的知识量。

唯一 Llama 2 13B 和 Mistral 7B 不相上下的领域则是世界知识测试,Mistral 声称“这可能是由于 Mistral 7B 的参数数量有限,从而限制了其可压缩的知识量。”

在编码任务方面,虽然 Mistral 称 Mistral 7B 的性能大为提高;但基准测试结果表明,它仍然没有超过经过微调的 CodeLlama 7B。在 0-shot Humaneval 和 3-shot MBPP 测试中,CodeLlama 7B 的准确率分别为 31.1% 和 52.5%,Mistral 7B 则分别为 30.5% 和 47.5%。

Mistral AI 表示,Mistral 7B 使用了 Grouped-query attention (GQA) 实现更快的推理,并使用 Sliding Window Attention (SWA) 以较小的成本处理更长的序列。

“Mistral 7B 采用了 SWA,其中每一层都关注先前的 4096 个隐藏状态。主要改进以及最初研究的原因是 O(sliding_window.seq_len) 的线性计算成本。在实际应用中,对 FlashAttention 和 xFormers 所做的更改使得在序列长度为 16k 且窗口为 4k 的情况下,速度提高了 2 倍。”

此外,该公司还计划在这项工作的基础上发布一个更大的模型,能够更好地推理并支持多种语言,预计将于 2024 年亮相。

更多详情可查看官方公告

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/259954/mistral-ai-mistral-7b

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。