多模态GPT-V出世！36种场景分析ChatGPT Vision能力，LMM将全面替代大语言模型？ | 京东云技术团队

2023-10-20 465

LMM将会全面替代大语言模型？人工智能新里程碑GPT-V美国预先公测，医疗领域/OCR实践+166页GPT-V试用报告首发解读

ChatGPT Vision，亦被广泛称为GPT-V或GPT-4V，代表了人工智能技术的新里程碑。作为LMM (Large Multimodal Model) 的代表，它不仅继承了LLM (Large Language Model) 的文本处理能力，还加入了图像处理的功能，实现了文本与图像的多模态交互。与传统的LLM相比，GPT-V更加强大和灵活，能够更深入地理解和生成与图像相关的内容。这种进化打开了无数新的应用可能性，从图像描述、创意设计到复杂的图文结合任务，GPT-4V都展现出了卓越的性能和广泛的潜力。

使用方法：GPT-V目前对于美国区ChatGPT Plus账户开放。

相关链接：ChatGPT can now see, hear, and speak

相关介绍：GPTV_System_Card.pdf

166页GPT-V试用报告：Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

性能：对于ChatGPT4，速度比纯文本中文Prompt慢40%左右。（注意，当从GPT4切换到GPT-V后，纯文本中文Prompt速度提升了大概200%）

花费：$20美元一月，限速3小时25条，尚未开放API

调研版本：10-12 ChatGPT Vision（图片聊天/GPT多模态功能） ChatGPT September 25 Version

本文图片部分为实践（OCR/医学等），部分来自网络（推特/Arxiv试用报告），题图由ChatGPT DALL-E 3生成。

本文尝试从以下案例，对AI新里程碑LMM进行探索：

TLDR总结：

1. ChatGPT Vision更偏向于有创造性的图片理解，而非机器性细节识别。

2. ChatGPT Vision试图以大模型的涌现能力，从高层次理解整个图片，将图片如同文字一般对待，而非是OCR式的匹配识别。ChatGPT Vision和OCR的区别，与语义搜索和关键词搜索的区别类似。

3. ChatGPT Vision具有较大幻觉问题，Few-shot/CoT等Prompting方法也无法改善这一点（涌现能力不足），说明ChatGPT Vision仍处于像当年ChatGPT v3一样的初期阶段。预计未来几年随着参数规模的进一步提升，多模态大模型可能会复现文本大模型的发展路径。

（图1：Few-shot方法不能提高GPT-4V获取仪表板信息的准确性，红色代表回答错误）

（图2：CoT方法不能稳定质变提高GPT-4V数苹果的准确性，红色代表回答错误，绿色代表正确）

适用场景：

1. 上下文概念性工作，如文章头图的自动审核初筛、皮肤病的照片辅助筛选，DR/CT照片影像学诊断，提供HTML alt text等。

2. 图片创意性工作，如1.3节商品销售文案生成、商品使用建议生成、商品创意名称生成等。

不适用场景：

1. 有精确性要求的文字工作：如1.1节患者诊疗单等OCR场景。

2. 主体过多的复杂图片，如1.3节前端网页代码复刻。

有潜力的场景：

1. 清晰图片/截图的总结性工作，包括1.3节图片的复杂理性/感性分析，如网络热图解释、教育场景

2. 高纬度大模型推理，如1.3节辨别电影/景点、客服、气候分析、设计图/网站设计建议等

1.0 基础功能

多图片上下文识别能力

（图3：研究者输入了多张购物账单小票/菜单图片，GPT-4V做出了正确回答）

理解图中标识（如箭头）和强调（如红圈标红）

（图4：对于使用箭头/画圈标识的图片，GPT-4V能做出了正确理解和回答）

1.1 OCR功能（幻觉严重，中文效果差）

中文：电脑截图（准确）

中文：清晰中文表格图片（幻觉严重）

中文：有复杂信息的真实患者诊疗单（幻觉严重）

患者诊疗单（给GPT的是原图，以下图片经过二次处理模糊了患者信息）

英文：准确：强对比度、轻微镜头畸变、中等像素噪声图片

阿拉伯语：部分准确：手写体转译英文

muin on X: "GPT-4V will be able to transcribe and translate manuscripts and texts. I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans. https://t.co/K6y6WffLvz" / X

1.2 医学诊断（高准确率）

肺部X光：肺炎判断（准确）

图像来源：GitHub - linhandev/dataset: 医学影像数据集列表『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia

图片输入

GPT-V判别结果：（肺炎, 0.7）

1.肺炎:

◦置信度: 0.7

◦原因: X光片上下肺区的密度增加可能提示肺炎的存在，但根据图片无法明确确定。

2.肺水肿:

◦置信度: 0.6

◦原因: 下肺区的密度增加可能与液体积聚有关，如心力衰竭导致的肺水肿。

3.间质性肺病:

◦置信度: 0.5

◦原因: 有一些间质改变的迹象，但需要与先前的影像进行比较。

4.支气管炎:

◦置信度: 0.4

◦原因: 慢性支气管炎可能导致一些观察到的不透明度。

5.结核病:

◦置信度: 0.3

◦原因: 尽管结核病可表现为不透明和可能的固实化，但该图像并不强烈地表现出结核病的典型特征。

6.肺癌:

◦置信度: 0.2

◦原因: 虽然没有明确的结节或肿块，但由于X光在显示其他结构后面的小结节时的局限性，肺癌不能完全排除。

皮肤病：黑色素瘤判断（部分准确）

数据源：ISIC Archive

https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=%5B%5D

图片输入

GPT-V判别结果（常见痣 0.6，黑色素瘤 0.3）

1. 黑色素细胞痣 (常见痣)

◦ 信心分数: 0.6

▪ 原因: 该皮损表现出与常见痣相似的特征，中央有深色区域。50岁左右的人群中很常见。

2. 老年性角化病

◦ 信心分数: 0.4

▪ 原因: 老年性角化病是老年人中常见的非癌性皮肤生长，颜色可能会有所不同。

3. 异型痣

◦ 信心分数: 0.5

▪ 原因: 这类痣与常见痣有所不同，通常较大。鉴于大小 (1.4mm) 和位置 (下肢)，需要考虑此诊断。

4. 黑色素瘤

◦ 信心分数: 0.3

▪ 原因: 黑色素瘤是一种皮肤癌，虽然所提供的图像有可能与黑色素瘤一致的特征，但需要皮肤科医生进行全面评估才能确诊。

5. 基底细胞癌

◦ 信心分数: 0.2

▪ 原因: 它是最常见的皮肤癌形式，但所提供的图像没有基底细胞癌的典型迹象。但鉴于患者的年龄，仍需考虑。

6. 血管瘤

◦ 信心分数: 0.2

▪ 原因: 血管瘤是由血管组成的良性肿瘤。图像中的红色可能暗示这一点，但从整体外观看，可能性较小。

老年疣（0.7）

数据源：ISIC Archive

图片输入

GPT-V判别结果（老年疣 0.7）

1. 老年疣 - 置信度：0.7

2. 黑色素痣 - 置信度：0.5

3. 基底细胞癌 - 置信度：0.4

4. 日光角化症 - 置信度：0.4

5. 鳞状细胞癌 - 置信度：0.3

该图像显示了皮肤的放大视图，老年疣在头部和颈部区域较为常见，且经常出现在中老年人群中，因此我给予了较高的置信度。

其他脑部/胸部X光诊断（高准确率）

（绿色代表正确，红色代表错误，黄色代表幻觉）

1.3 高纬度识别能力（高质量，虽有幻觉问题）

大众点评/小红书文案

商品使用建议（左），商品销售文案（右）

车祸车辆识别

红色代表错误

理解流程图

解释笑话

商品新颖命名

电路图描述

地标描述

菜谱生成

分析球类运动局势/运动员姿势（存在幻觉）

Abran Maldonado on X: "One of my favorite demos I tested out, in honor of football season, ChatGPT Vision will forever change coaching and sports analytics. Whether i build it or not, ChatGPT for coaching will be on every sideline in the league. Mark my words. https://t.co/uUYhsKpEGh" / X

幻觉（该运动员使用的是反手Backhand，而非正手forehand）：

识别电影/相机/景点等

给予用户产品安装/摄像等的建议和帮助

X: "ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm https://t.co/paG0hMshXb" / X

辅导扑克（存在幻觉）

网页截图到HTML代码（理解不足）

结果：

白板骨架到前端项目

Mckay Wrigley on X: "You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. https://t.co/bGWT5bU8MK" / X

https://twitter.com/mckaywrigley/status/1707101465922453701

清晰图片的复杂理性/感性分析

Pietro Schirano on X: "This is absolutely wild. I am completely speechless. https://t.co/wGTAx1hFgS" / X

https://twitter.com/skirano/status/1706874309124194707?

Mckay Wrigley on X: "ChatGPT breaks down this diagram of a human cell for a 9th grader. This is the future of education. https://t.co/L0Za0ZB5rs" / X

主体多的复杂图片的复杂理性分析

Alex Northstar on X: "Thanks ChatGPT, that can read & understand better than humans! https://t.co/TgVSuHgf8j" / X

https://twitter.com/NorthstarBrain/status/1707668600281063514

1.4 不足与风险

图片（含人眼不可见文字）的注入风险

（图中，用户以不可见的浅色字添加了Sephora化妆品促销水印，人眼无法察觉，但GPT-V可感知）

（图中，用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议）

不能使用于人脸识别

当 GPT-4 在2023年3月首次发布时，GPT-4V面部识别功能可能存在安全和隐私问题，因此 GPT-4V（具备视觉功能的 GPT-4）被暂缓发布。

在早期的模型中，用户本可以理论上上传人物照片，并要求识别他们，这显然是对隐私的侵犯。根据技术论文，GPT-4V（为 ChatGPT Vision 提供支持）现在拒绝此类请求的时间达到了98%。

GPT-4V(ision) technical work and authors

作者：京东健康李卓伦

来源：京东云开发者社区转载请注明来源

微信关注我们

原文链接：https://my.oschina.net/u/4090830/blog/10120875

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

京东小程序平台助力快送实现跨端 | 京东云技术团队

前言：京东小程序开放平台是由京东自主研发的开发者开放平台，类似于微信和支付宝的小程序开放平台，提供了丰富的开放能力和完整的小程序开发生命周期所需的功能。开发者可以轻松地使用开发者工具IDE进行开发、调试、预览和代码转换，并在控制台进行线上小程序发布、审核、灰度、AB测试等流程，此外还可以在管理后台监控小程序的异常、性能、业务数据。小程序作为一种轻量级、便捷、个性化的应用形态，可塑性非常强，其强大功能、低研发成本能够有效助力快送实现跨端。达达快送接入京东小程序项目取得了多方面显著的成果，这也为其他企业在接入小程序时提供了有益的借鉴和参考。背景：快送是给商家和个人用户发布同城运单的应用，包含小程序（7个渠道）和app（2个）、PC、h5、开放平台共15个端。快送概况：常规做法每端独立开发一套代码，这样的做法优势定制强分开迭代互不影响，不足：成本高，体验不一致。由于PC和H5基本不迭代，所以优先考虑的是小程序和app这2块是否有机会点。通过跨端来实现提高效率降低研发成本的目的。 1.1 小程序跨端 19年跨端情况：由于19年跨端方案不成熟，当时是自研工具通过编译时方案解决小程序...

2023-10-20

479

背景我们应对并发场景时一般会采用下面方式去预估线程池的线程数量，比如QPS需求是1000，平均每个任务需要执行的时间是t秒，那么我们需要的线程数是t * 1000。但是在一些情况下，这个t是不好估算的，即便是估算出来了，在实际的线程环境上也需要进行验证和微调。比如在本文所阐述分页查询的数据项组合场景中。 1、数据组合依赖不同的上游接接口，它们的响应时间参差不齐，甚至差距还非常大。有些接口支持批量查询而另一些则不支持批量查询。有些接口因为性能问题还需要考虑降级和平滑方案。 2、为了提升用户体验，这里的查询设计了动态列，因此每一次访问所需要组合的数据项和数量也是不同的。因此这里如果需要估算出一个合理的t是不太现实的。方案一种可动态调节的策略，根据监控的反馈对线程池进行微调。整体设计分为装配逻辑和线程池封装设计。 1、装配逻辑查询结果，拆分分片（水平拆分），并行装配（垂直拆分），获得装配项列表（动态列），并行装配每一项。 2、线程池封装可调节的核心线程数、最大线程数、线程保持时间，队列大小，提交任务重试等待时间，提交任务重试次数。固定异常拒绝策略。调节参数：字段 ...

2023-10-20

392

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

多模态GPT-V出世！36种场景分析ChatGPT Vision能力，LMM将全面替代大语言模型？ | 京东云技术团队

1.0 基础功能

多图片上下文识别能力

理解图中标识（如箭头）和强调（如红圈标红）

1.1 OCR功能（幻觉严重，中文效果差）

中文：电脑截图（准确）

中文：清晰中文表格图片（幻觉严重）

中文：有复杂信息的真实患者诊疗单（幻觉严重）

英文：准确：强对比度、轻微镜头畸变、中等像素噪声图片

阿拉伯语：部分准确：手写体转译英文

1.2 医学诊断（高准确率）

肺部X光：肺炎判断（准确）

图片输入

GPT-V判别结果：（肺炎, 0.7）

皮肤病：黑色素瘤判断（部分准确）

图片输入

GPT-V判别结果（常见痣 0.6，黑色素瘤 0.3）

老年疣（0.7）

图片输入

GPT-V判别结果（老年疣 0.7）

其他脑部/胸部X光诊断（高准确率）

1.3 高纬度识别能力（高质量，虽有幻觉问题）

大众点评/小红书文案

商品使用建议（左），商品销售文案（右）

车祸车辆识别

理解流程图

解释笑话

商品新颖命名

电路图描述

地标描述

菜谱生成

分析球类运动局势/运动员姿势（存在幻觉）

识别电影/相机/景点等

给予用户产品安装/摄像等的建议和帮助

辅导扑克（存在幻觉）

网页截图到HTML代码（理解不足）

白板骨架到前端项目

清晰图片的复杂理性/感性分析

主体多的复杂图片的复杂理性分析

1.4 不足与风险

图片（含人眼不可见文字）的注入风险

不能使用于人脸识别

京东小程序平台助力快送实现跨端 | 京东云技术团队

页面查询多项数据组合的线程池设计 | 京东云技术团队

相关文章

发表评论

资源下载

腾讯云软件源

Nacos

Spring

Rocky Linux

欢迎您来访！