昆仑万维天工大模型登顶多模态榜单-低调大师

昆仑万维天工大模型登顶多模态榜单

2023-09-06 440

昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型（Multimodal Large Language Model，简称“MLLM”）测评中，综合得分排名第一。公告称，“这标志着昆仑万维天工大模型在多模态方面跻身世界领先水平，未来将有力支撑公司旗下AI业务矩阵取得关键性突破。”

腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜，包含感知、认知两个总榜单以及14个子榜单。MME数据集是一个最近发布的多模态语言模型测评基准。MME通过评估大型多模态语言模型在涵盖感知和认知任务的 14 个子任务上的表现来全面评估它们。昆仑万维天工大模型多模态团队的Skywork-MM模型位列综合榜单第一，其中，感知榜单排名第一、认知榜单排名第二。

感知榜单排名第一

认知榜单排名第二

昆仑万维天工大模型多模态团队最新一篇论文指出，在数据侧，为了解决幻觉问题，团队构造了更加多样和精细的微调数据，加强大模型对于图片特征的理解能力，增强多模态语言模型的指令跟随能力并减少“幻觉”。Skywork-MM在减少幻觉方面提升显著。

Skywork-MM还通过适当的数据构造，增强了中文的指令追随能力、中文相关场景的识别能力，减轻了文化偏差对于多模态理解的影响。例如，对于典型的中文场景中的电视节目《非诚勿扰》，现有大模型难以准确识别，但Skywork-MM中文场景识别能力很强。

在模型侧，在模型设计上团队将视觉模型和大语言模型完全冻结，保持视觉模型在前置CLIP训练中学习到的视觉特征不损失，大语言模型的语言能力不损失。同时为了更好的关联视觉特征和语言特征，模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器。Skywork-MM模型的训练上，分为两个阶段，第一阶段使用双语的大规模图文pair数据进行图像概念和语言概念的关联学习；第二阶段使用多模态微调数据进行指令微调。

此外，Skywork-MM实际上使用的图文数据并不多（约50M），远远小于其他现有的MLLM使用的图文数据量（大于100M）。

微信关注我们

原文链接：https://www.oschina.net/news/257052

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Android 启用新版品牌标识，机器人 3D 效果更强

9 月 5 日，Google 通过官方博文宣布为 Android 启用新版品牌标识。新的 Android 机器人图标据称从 Material Design 和 Google 品牌配色中汲取灵感，相比旧版图标 3D 效果更强同时可根据使用场景搭配更加灵活的光影和色彩效果。 Android 品牌的文本徽标也采用了更为圆滑的字体曲线，首字母从小写 a 替换为大写 A，此外 Google 还为本次品牌标识更新设计了视觉风格一致的 Android 机器人全身形象。这些新设计将在今年年内上线。

2023-09-06

359

应用简览 Flarum 是一款轻量级的开源论坛软件。它响应快速、简便易用，与传统论坛程序不同，Flarum采用现代响应式设计，确保用户可以在各种设备上轻松访问论坛。此外，Flarum具备打造成功社区所需的所有功能。它拥有丰富的扩展和插件，提供了足够的灵活性，以满足不同社区的需求。主要特性快速、简单。不杂乱不臃肿，没有复杂的依赖关系。 Flarum 使用 PHP 构建，因此很容易被部署。界面采用高性能且小巧的 JavaScript 框架 Mithril。漂亮、响应式。以人为本的论坛软件。 Flarum 被精心设计以在不同平台间保持一致性和直观性，开箱即用。强大、可扩展。你可以定制化、扩展或集成 Flarum 以满足你的社区需求。免费、开源。 Flarum 以 MIT 许可证发布。应用特色一、现代化的UI设计，多语言支持 Flarum 采用了现代化的用户界面，拥有清晰的布局和直观的导航，提供了卓越的用户体验。无论是发表帖子、回复评论还是浏览主题，都能够轻松找到所需的功能。同时 Flarum 还支持多国语言，包含中文、繁体中文、英文、法文、俄文、日语等等。二、...

2023-09-05

422

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。