快手开源新一代旗舰多模态模型 Keye-VL
快手宣布正式发布新一代旗舰多模态模型 Keye-VL-671B-A37B,并同步开放代码。公告称,该模型具备“善看会想”,并在在通用视觉理解、视频分析、数学推理等多项核心benchmark中全面领跑。 在保持基础模型强大通用能力的前提下,Keye-VL-671B-A37B 对视觉感知、跨模态对齐与复杂推理链路进行了系统升级,实现了多模态理解和复杂推理的全方位性能跃升:更会“看”、更会“想”、也更会“答”。无论是日常场景还是高难任务,都能给出更准确、更稳健的回应。 Keye-VL-671B-A37B采用DeepSeek-V3-Terminus作为大语言模型基座初始化,具备更强的文本推理能力,视觉模型采KeyeViT初始化,来自KeyeVL1.5,二者通过MLP层进行桥接。 Keye-VL-671B-A37B的预训练涵盖三个阶段,系统化构建模型的多模态理解与推理能力。模型复用Keye-VL-1.5的视觉编码器,该编码器已经通过8B大小的模型在1T token的多模态预训练数据上对齐,具备强大的基础感知能力。 结合严格筛选的约300B高质量数据预训练数据,以有限计算资源高效构建模型的核心感知...
