您现在的位置是:首页 > 文章详情

零一万物开源 Yi-9B,代码数学综合能力全面增强

日期:2024-03-07点击:28

零一万物宣布开源 Yi-9B 模型,并声称该模型是当前 Yi 系列模型中的“理科状元”——代码和数学能力表现最佳;不偏科,中文能力也很强。“这是继今年1月23日开源多模态模型 Yi-VL-34B 之后,零一万物在开源方向上的又一重要成果。 ”

根据介绍,Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,它的基本信息如下:

  • 参数大小:Yi-9B 的实际参数为 8.8B。

  • 上下文长度:与 Yi 系列其他模型一样,默认上下文长度是 4K tokens。

  • 训练数据:

    • 数据量:Yi-9B 是在 Yi-6B (使用了 3.1T tokens 训练)的基础上,使用了 0.8T tokens 进行继续训练。

    • 数据时间:使用截止至 2023 年 6 月的数据。

模型优势

一直以来,Yi 系列模型的中英文能力很强 ,但在代码和数学方面还有提升空间。Yi-9B 补足了这一短板,增强了 Yi 系列模型全方位的能力。

代码和数学能力出色,综合实力强劲

  • 在综合能力方面(Mean-All),Yi-9B 的性能在尺寸相近的开源模型中最好,超越了 DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和 Gemma-7B。

  • 在代码能力方面(Mean-Code),Yi-9B 的性能仅次于 DeepSeek-Coder-7B,超越了 Yi-34B、SOLAR-10.7B、Mistral-7B 和 Gemma-7B。

  • 在数学能力方面(Mean-Math),Yi-9B 的性能仅次于 DeepSeek-Math-7B,超越了 SOLAR-10.7B、Mistral-7B 和 Gemma-7B。

  • 在常识和推理能力方面(Mean-Text),Yi-9B 的性能与 Mistral-7B、SOLAR-10.7B 和 Gemma-7B 不相上下。

  • 在语言能力方面,相比于其他相近尺寸的模型,Yi-9B 不仅具备不错的英文能力,还拥有 Yi 系列模型广受好评的强大中文能力。

消费级显卡可用,使用成本友好

  • Yi-9B(BF 16) 和其量化版 Yi-9B(Int8)都能在消费级显卡上轻松部署,使用成本较低,开发者友好。

未来展望 

为了最大程度地提高模型性能,团队计划根据 scaling laws 动态调整算力资源在模型大小和数据大小上的分配,因此,团队将继续研究以下方向:

  • 更优化的宽度扩增方法,尽量保留原模型的性能。

  • 更高效的分阶段训练和调参方式,尽量让模型收敛得更好。

有关模型训练方面等方面的更多详情可查看官方公告

原文链接:https://www.oschina.net/news/281895
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章