零一万物开源 Yi-9B，代码数学综合能力全面增强-低调大师

零一万物开源 Yi-9B，代码数学综合能力全面增强

2024-03-07 307

零一万物宣布开源 Yi-9B 模型，并声称该模型是当前 Yi 系列模型中的“理科状元”——代码和数学能力表现最佳；不偏科，中文能力也很强。“这是继今年1月23日开源多模态模型 Yi-VL-34B 之后，零一万物在开源方向上的又一重要成果。 ”

根据介绍，Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型，它的基本信息如下：

参数大小：Yi-9B 的实际参数为 8.8B。
上下文长度：与 Yi 系列其他模型一样，默认上下文长度是 4K tokens。
训练数据：
- 数据量：Yi-9B 是在 Yi-6B （使用了 3.1T tokens 训练）的基础上，使用了 0.8T tokens 进行继续训练。
- 数据时间：使用截止至 2023 年 6 月的数据。

模型优势

一直以来，Yi 系列模型的中英文能力很强，但在代码和数学方面还有提升空间。Yi-9B 补足了这一短板，增强了 Yi 系列模型全方位的能力。

代码和数学能力出色，综合实力强劲

在综合能力方面（Mean-All），Yi-9B 的性能在尺寸相近的开源模型中最好，超越了 DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和 Gemma-7B。

在代码能力方面（Mean-Code），Yi-9B 的性能仅次于 DeepSeek-Coder-7B，超越了 Yi-34B、SOLAR-10.7B、Mistral-7B 和 Gemma-7B。

在数学能力方面（Mean-Math），Yi-9B 的性能仅次于 DeepSeek-Math-7B，超越了 SOLAR-10.7B、Mistral-7B 和 Gemma-7B。

在常识和推理能力方面（Mean-Text），Yi-9B 的性能与 Mistral-7B、SOLAR-10.7B 和 Gemma-7B 不相上下。

在语言能力方面，相比于其他相近尺寸的模型，Yi-9B 不仅具备不错的英文能力，还拥有 Yi 系列模型广受好评的强大中文能力。

消费级显卡可用，使用成本友好

Yi-9B（BF 16）和其量化版 Yi-9B（Int8）都能在消费级显卡上轻松部署，使用成本较低，开发者友好。

未来展望

为了最大程度地提高模型性能，团队计划根据 scaling laws 动态调整算力资源在模型大小和数据大小上的分配，因此，团队将继续研究以下方向：

更优化的宽度扩增方法，尽量保留原模型的性能。
更高效的分阶段训练和调参方式，尽量让模型收敛得更好。

有关模型训练方面等方面的更多详情可查看官方公告。

微信关注我们

原文链接：https://www.oschina.net/news/281895

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Mac 上 Llama2 大语言模型安装到使用

LLAMA介绍 LLaMA是由Facebook的母公司Meta AI设计的一个新的大型语言模型。LLaMA拥有70亿到650亿个参数的模型集合，是目前最全面的语言模型之一。 Llama是目前唯一一个可以进行本地部署和本地训练的大型模型，对各种提问有非常好的处理能力。非常适合个人和中小型企业，构建自己的大数据模型。很多人都说是ChatGPT的平替。通过微调来满足特定小众行业的使用，将会在未来有非常大的潜力。 Mac上由于没有Nvidia显卡的加持，无法配置CUDA进行深度学习。好在有大神制作了C++的库，能实现小成本在低配Mac上跑模型的能力。 llama.cpp 是一个推理框架，在没有GPU跑LLAMA时，利用Mac M1/M2的GPU进行推理和量化计算。 Mac跑LLAMA唯一的路。同样也可以在Windows下面跑起来。它是ggml这个机器学习库的衍生项目，专门用于Llama系列模型的推理。llama.cpp和ggml均为纯C/C++实现，针对Apple Silicon芯片进行优化和硬件加速，支持模型的整型量化 (Integer Quantization): 4-bit, 5-b...

2024-03-07

399

Node.js 新版官网已开启 Beta 测试，体验地址：https://beta-node-js-org.vercel.app/en。 Node.js 新版官网首页当前官网首页 https://nodejs.org/en 可以看到，与当前版本相比，新版官网的视觉效果、页面布局、展现内容都有了很大的提升，整体上更大气、更现代化。而且首页关于 Node.js 的介绍也变得更突出、描述更全面。新版官网最大的交互变化是在首页添加了「全局搜索」入口，方便用户随时检索文档、博客、下载等信息。其他子页面一览：

2024-03-07

239

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。