Mistral AI 发布 Mistral 3 系列开源模型
Mistral AI 宣布开源 Mistral3 系列模型,包括3B、8B、14B 三个小型密集模型及迄今为止功能最强大的 Mistral Large3,一款稀疏混合专家模型,使用 410 亿个活跃参数和 6750 亿个总参数进行训练。所有模型均以 Apache 2.0 许可证发布,覆盖从边缘设备到企业级推理的全场景需求。 公告称,Mistral Large 3 是目前世界上最好的开放权重模型之一,它完全基于 NVIDIA 的 3000 个 H200 GPU 从零开始训练而成。Mistral Large 3 是 Mistral 自开创性的 Mixtral 系列以来推出的首个专家混合模型,代表了 Mistral 在预训练方面的重大进步。经过后训练,该模型在通用提示上的表现与市面上最好的指令调优开放权重模型不相上下,同时还展现出卓越的图像理解能力,并在多语言对话(例如,非英语/中文)方面取得了一流的性能。 Mistral Large 3 与 vLLM 和 Red Hat 协同工作,对开源社区非常友好。Mistral AI 发布了一个使用llm-compressor构建的 NVFP4 格式的...
