上海 AI 实验室发布新一代书生·视觉大模型

上海人工智能实验室(上海AI实验室)宣布联合清华大学、香港中文大学、商汤科技等机构开源新一代书生·视觉大模型(InternVL)。

新一代“书生·视觉基础”模型的视觉编码器参数量达60亿(InternVL-6B),首次提出了对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。

InternVL-6B不仅能处理复杂图片中细微的视觉信息并完成图生文任务,还可以识别和解读复杂页面中的信息,甚至解决其中的数理问题。

目前,InternVL全系列模型、代码均已开源,并提供Demo试用。

InternVL-6B具备纯视觉感知、图文检索、图文生成、图文多模态生成和对话等关键能力。谷歌ViT-22B是目前被公认为最强大的专注视觉的基础模型(非开源)。InternVL开源模型以不到1/3的参数量,在纯视觉任务(如ImageNet、ADE20K等)和图生文任务(如NoCaps、MS COCO等)上逼近或超过谷歌ViT-22B。

在视觉感知、图文检索、图文多模态生成和对话等30余个视觉基准测试上,InternVL-6B取得了开源社区的最优性能,超过了Meta、谷歌、微软、LAION等机构的同类开源模型。

在TinyLVLM 、MMBench等多模态大模型评测上,InternVL-6B取得了优秀的性能。其中,在MMBench-dev上,InternVL-6B达到76.6,虽然综合能力仍有待提高,但个别性能超越了GPT-4V(75.1)和Gemini(75.2)。

InternVL-6B具备强大的视觉表征和理解能力,尤其表现在面对信息复杂的图片时,模型仍可对细节进行精准捕捉,不仅可在图片或实际场景的复杂画面中捕捉细微的视觉信息,还可从复杂排版的图文页面中整合、解读信息,或辨别伪装外观的物体。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/276879

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。