Mistral AI 用「磁链链接」开源了 87 GB 的 8x7B MoE 模型-低调大师

Mistral AI 用「磁链链接」开源了 87 GB 的 8x7B MoE 模型

2023-12-10 433

有“欧洲版 OpenAI”之称的大模型创业公司——Mistral AI 昨天发布了一条仅包含磁力链接的推文：

来源：https://twitter.com/MistralAI/status/1733150512395038967

网友打开该磁力链接后发现居然是一个大小为 87 GB 的种子。从命名和目录结构来看，这是一个 PyTorch 模型文件。

上图的“params.json”JSON 格式文件显然是该模型的主要参数信息，具体如下：

结合参数和文件名信息，Mistral AI 这次“开源”的 mixtral-8x7b-32kseqlen 是一个基于混合专家 (Mixture of Experts, MoE) 的大模型，由 8 个 70 亿参数规模 (8×7b) 的专家网络组成。据称是全球首个开源 MoE 大模型。

MoE 是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务，每个子任务由专门的小型模型或“专家”负责，然后根据输入数据的特性选择性地激活这些“专家”。

MoE 核心组成：

专家(Experts)：训练有素的小型神经网络，擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式，如完全连接的网络、卷积网络等。
门控机制(Gating Mechanism)：MoE 架构决策者，这是一个智能路由系统，负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性，动态地将数据分配给不同的专家。

根据 mixtral-8x7b-32kseqlen 的参数信息，该模型对每个 token 的推理使用 2 个专家进行处理（和传闻中的 GPT-4 一样）。

此前揭秘 GPT-4 技术细节的文章提到，GPT-4 是由 16 个专家组成的 MoE 模型，每个专家则是一个包含 1110 亿参数的大模型，每次前向传递路由经过 2 个专家模型。

Mistral AI 目前仍没公布除模型下载链接外的任何信息，如果不想下载但又想体验一把，可以访问下面的网站：

对了，这不是 Mistral AI 第一次用“留种”的方式发布开源大模型。Mistral AI 在 9 月底发布的那条磁力链接是其开源的第一个大模型 Mistral-7B，该模型至今仍被称为「最好的 7B 模型」，在每个基准测试中都优于 Llama-2 13B，并且在代码、数学和推理方面优于 LLaMA-1 34B。

微信关注我们

原文链接：https://www.oschina.net/news/270317/mixtral-8x7b-32kseqlen

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

惊人发现：加班与生产力下降之间的联系

Slack的劳动力指数揭示了如何安排工作日以最大化员工生产力、幸福感和满意度的新发现。概要：你在工作上如何花费时间，它又在怎样消耗你？Slack的劳动力指数是基于对全球10,000多名办公室员工的调查回复得出的，揭示了如何安排工作日以最大化生产力和增强员工幸福感和满意度的新发现。主要知识点包括：在工作日结束时下线的员工比那些觉得有义务在下班后工作的员工的生产力得分高出20%。在工作日中抽出时间休息可以提高员工的生产力和幸福感，但有一半的办公室员工表示他们很少或从不休息。平均而言，办公室员工表示每天理想的专注时间约为四个小时，而每天超过两个小时的会议是大多数员工感到会议负担过重的临界点。每四个办公室员工中就有三个表示在下午3点到6点的时间段工作，但其中只有四分之一的人认为这些时间高效。几十年来，许多人在办公室加班被视为努力工作和生产力的标志，甚至是一种荣誉的象征。但Slack的新研究表明，尽管存在这种长期观念，但下班后工作往往与较低的生产力水平相关，并且可能是一个警告信号，表明员工正在处理过多的任务，需要帮助确定优先顺序和平衡时间。根据Slack对全球10,000多名办...

2023-12-10

408

本文分析了机器学习硬件性能的最新趋势，重点关注不同GPU和加速器的计算性能、内存、互连带宽、性价比和能效等指标。这篇分析旨在提供关于ML硬件能力及其瓶颈的全面视图。本文作者来自调研机构Epoch，致力于研究AI发展轨迹与治理的关键问题和趋势。（本文由OneFlow编译发布，转载请联系授权。原文：https://epochai.org/blog/trends-in-machine-learning-hardware#computational-price-performance 作者 |Marius Hobbhahn、Lennart Heim、Gökçe Aydos OneFlow编译翻译｜杨婷、宛子琳要点概览图1：常见机器学习加速器在给定精度下的峰值计算性能。自2016年以来，已出现了新的数值格式。趋势线展示了带有八个或更多加速器的数值格式：FP32、FP16（FP = 浮点、张量-* = 张量核心处理、TF = Nvidia 张量浮点、INT = 整数）我们研究了GPU在不同数值表示、内存容量、带宽以及互连带宽方面的计算性能，使用的数据集包括2010年到2023年常用于机器...

2023-12-05

374

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。