昆仑万维天工大模型登顶多模态榜单
昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。公告称,“这标志着昆仑万维天工大模型在多模态方面跻身世界领先水平,未来将有力支撑公司旗下AI业务矩阵取得关键性突破。”
腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。MME数据集是一个最近发布的多模态语言模型测评基准。MME通过评估大型多模态语言模型在涵盖感知和认知任务的 14 个子任务上的表现来全面评估它们。昆仑万维天工大模型多模态团队的Skywork-MM模型位列综合榜单第一,其中,感知榜单排名第一、认知榜单排名第二。
感知榜单排名第一
认知榜单排名第二
昆仑万维天工大模型多模态团队最新一篇论文指出,在数据侧,为了解决幻觉问题,团队构造了更加多样和精细的微调数据,加强大模型对于图片特征的理解能力,增强多模态语言模型的指令跟随能力并减少“幻觉”。Skywork-MM在减少幻觉方面提升显著。
Skywork-MM还通过适当的数据构造,增强了中文的指令追随能力、中文相关场景的识别能力,减轻了文化偏差对于多模态理解的影响。例如,对于典型的中文场景中的电视节目《非诚勿扰》,现有大模型难以准确识别,但Skywork-MM中文场景识别能力很强。
在模型侧,在模型设计上团队将视觉模型和大语言模型完全冻结,保持视觉模型在前置CLIP训练中学习到的视觉特征不损失,大语言模型的语言能力不损失。同时为了更好的关联视觉特征和语言特征,模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器。Skywork-MM模型的训练上,分为两个阶段,第一阶段使用双语的大规模图文pair数据进行图像概念和语言概念的关联学习;第二阶段使用多模态微调数据进行指令微调。
此外,Skywork-MM实际上使用的图文数据并不多(约50M),远远小于其他现有的MLLM使用的图文数据量(大于100M)。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Android 启用新版品牌标识,机器人 3D 效果更强
9 月 5 日,Google 通过官方博文宣布为 Android 启用新版品牌标识。 新的 Android 机器人图标据称从 Material Design 和 Google 品牌配色中汲取灵感,相比旧版图标 3D 效果更强同时可根据使用场景搭配更加灵活的光影和色彩效果。 Android 品牌的文本徽标也采用了更为圆滑的字体曲线,首字母从小写 a 替换为大写 A,此外 Google 还为本次品牌标识更新设计了视觉风格一致的 Android 机器人全身形象。 这些新设计将在今年年内上线。
- 下一篇
14.3k Star! 一款简洁优雅、可自由扩展的开源论坛平台-Flarum
应用简览 Flarum 是一款轻量级的开源论坛软件。 它响应快速、简便易用,与传统论坛程序不同,Flarum采用现代响应式设计,确保用户可以在各种设备上轻松访问论坛。 此外,Flarum具备打造成功社区所需的所有功能。它拥有丰富的扩展和插件,提供了足够的灵活性,以满足不同社区的需求。 主要特性 快速、简单。 不杂乱不臃肿,没有复杂的依赖关系。 Flarum 使用 PHP 构建,因此很容易被部署。 界面采用高性能且小巧的 JavaScript 框架 Mithril。 漂亮、响应式。 以人为本的论坛软件。 Flarum 被精心设计以在不同平台间保持一致性和直观性,开箱即用。 强大、可扩展。 你可以定制化、扩展或集成 Flarum 以满足你的社区需求。 免费、开源。 Flarum 以 MIT 许可证 发布。 应用特色 一、现代化的UI设计,多语言支持 Flarum 采用了现代化的用户界面,拥有清晰的布局和直观的导航,提供了卓越的用户体验。无论是发表帖子、回复评论还是浏览主题,都能够轻松找到所需的功能。 同时 Flarum 还支持多国语言,包含中文、繁体中文、英文、法文、俄文、日语等等。 二、...
相关文章
文章评论
共有0条评论来说两句吧...