36 种场景分析 ChatGPT Vision 能力,LMM 将全面替代大语言模型?
LMM将会全面替代大语言模型?人工智能新里程碑GPT-V美国预先公测,医疗领域/OCR实践+166页GPT-V试用报告首发解读
ChatGPT Vision,亦被广泛称为GPT-V或GPT-4V,代表了人工智能技术的新里程碑。作为LMM (Large Multimodal Model) 的代表,它不仅继承了LLM (Large Language Model) 的文本处理能力,还加入了图像处理的功能,实现了文本与图像的多模态交互。与传统的LLM相比,GPT-V更加强大和灵活,能够更深入地理解和生成与图像相关的内容。这种进化打开了无数新的应用可能性,从图像描述、创意设计到复杂的图文结合任务,GPT-4V都展现出了卓越的性能和广泛的潜力。
使用方法:GPT-V目前对于美国区ChatGPT Plus账户开放。
相关链接:ChatGPT can now see, hear, and speak
相关介绍:GPTV_System_Card.pdf
166页GPT-V试用报告:Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
性能:对于ChatGPT4,速度比纯文本中文Prompt慢40%左右。(注意,当从GPT4切换到GPT-V后,纯文本中文Prompt速度提升了大概200%)
花费:$20美元一月,限速3小时25条,尚未开放API
调研版本:10-12 ChatGPT Vision(图片聊天/GPT多模态功能) ChatGPT September 25 Version
本文图片部分为实践(OCR/医学等),部分来自网络(推特/Arxiv试用报告),题图由ChatGPT DALL-E 3生成。
本文尝试从以下案例,对AI新里程碑LMM进行探索:
TLDR总结:
(图1:Few-shot方法不能提高GPT-4V获取仪表板信息的准确性,红色代表回答错误)
(图2:CoT方法不能稳定质变提高GPT-4V数苹果的准确性,红色代表回答错误,绿色代表正确)
适用场景:
不适用场景:
有潜力的场景:
1.0 基础功能
多图片上下文识别能力
(图3:研究者输入了多张购物账单小票/菜单图片,GPT-4V做出了正确回答)
理解图中标识(如箭头)和强调(如红圈标红)
(图4:对于使用箭头/画圈标识的图片,GPT-4V能做出了正确理解和回答)
1.1 OCR功能(幻觉严重,中文效果差)
中文:电脑截图(准确)
中文:清晰中文表格图片(幻觉严重)
中文:有复杂信息的真实患者诊疗单(幻觉严重)
患者诊疗单(给GPT的是原图,以下图片经过二次处理模糊了患者信息)
英文:准确:强对比度、轻微镜头畸变、中等像素噪声图片
阿拉伯语:部分准确:手写体转译英文
muin on X: "GPT-4V will be able to transcribe and translate manuscripts and texts. I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans. https://t.co/K6y6WffLvz" / X
1.2 医学诊断(高准确率)
肺部X光:肺炎判断(准确)
图像来源:GitHub - linhandev/dataset: 医学影像数据集列表 『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia
图片输入
GPT-V判别结果:(肺炎, 0.7)
1.肺炎:
◦置信度: 0.7
◦原因: X光片上下肺区的密度增加可能提示肺炎的存在,但根据图片无法明确确定。
2.肺水肿:
◦置信度: 0.6
◦原因: 下肺区的密度增加可能与液体积聚有关,如心力衰竭导致的肺水肿。
3.间质性肺病:
◦置信度: 0.5
◦原因: 有一些间质改变的迹象,但需要与先前的影像进行比较。
4.支气管炎:
◦置信度: 0.4
◦原因: 慢性支气管炎可能导致一些观察到的不透明度。
5.结核病:
◦置信度: 0.3
◦原因: 尽管结核病可表现为不透明和可能的固实化,但该图像并不强烈地表现出结核病的典型特征。
6.肺癌:
◦置信度: 0.2
◦原因: 虽然没有明确的结节或肿块,但由于X光在显示其他结构后面的小结节时的局限性,肺癌不能完全排除。
皮肤病:黑色素瘤判断(部分准确)
数据源:ISIC Archive
https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=%5B%5D
图片输入
GPT-V判别结果(常见痣 0.6,黑色素瘤 0.3)
老年疣(0.7)
数据源:ISIC Archive
图片输入
GPT-V判别结果(老年疣 0.7)
该图像显示了皮肤的放大视图,老年疣在头部和颈部区域较为常见,且经常出现在中老年人群中,因此我给予了较高的置信度。
其他脑部/胸部X光诊断(高准确率)
(绿色代表正确,红色代表错误,黄色代表幻觉)
1.3 高纬度识别能力(高质量,虽有幻觉问题)
大众点评/小红书文案
商品使用建议(左),商品销售文案(右)
车祸车辆识别
红色代表错误
理解流程图
解释笑话
商品新颖命名
电路图描述
地标描述
菜谱生成
分析球类运动局势/运动员姿势(存在幻觉)
Abran Maldonado on X: "One of my favorite demos I tested out, in honor of football season, ChatGPT Vision will forever change coaching and sports analytics. Whether i build it or not, ChatGPT for coaching will be on every sideline in the league. Mark my words. https://t.co/uUYhsKpEGh" / X
幻觉(该运动员使用的是反手Backhand,而非正手forehand):
识别电影/相机/景点等
给予用户产品安装/摄像等的建议和帮助
X: "ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm https://t.co/paG0hMshXb" / X
辅导扑克(存在幻觉)
网页截图到HTML代码(理解不足)
结果:
白板骨架到前端项目
Mckay Wrigley on X: "You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. https://t.co/bGWT5bU8MK" / X
https://twitter.com/mckaywrigley/status/1707101465922453701
清晰图片的复杂理性/感性分析
Pietro Schirano on X: "This is absolutely wild. I am completely speechless. https://t.co/wGTAx1hFgS" / X
https://twitter.com/skirano/status/1706874309124194707?
Mckay Wrigley on X: "ChatGPT breaks down this diagram of a human cell for a 9th grader. This is the future of education. https://t.co/L0Za0ZB5rs" / X
主体多的复杂图片的复杂理性分析
Alex Northstar on X: "Thanks ChatGPT, that can read & understand better than humans! https://t.co/TgVSuHgf8j" / X
https://twitter.com/NorthstarBrain/status/1707668600281063514
1.4 不足与风险
图片(含人眼不可见文字)的注入风险
(图中,用户以不可见的浅色字添加了Sephora化妆品促销水印,人眼无法察觉,但GPT-V可感知)
(图中,用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议)
不能使用于人脸识别
当 GPT-4 在2023年3月首次发布时,GPT-4V面部识别功能可能存在安全和隐私问题,因此 GPT-4V(具备视觉功能的 GPT-4)被暂缓发布。
在早期的模型中,用户本可以理论上上传人物照片,并要求识别他们,这显然是对隐私的侵犯。根据技术论文,GPT-4V(为 ChatGPT Vision 提供支持)现在拒绝此类请求的时间达到了98%。
GPT-4V(ision) technical work and authors
作者:京东健康 李卓伦
来源:京东云开发者社区 转载请注明来源

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Semi Design v2.45.0 发布,抖音企业级 UI 库
Semi Design 是现代、全面、灵活的设计系统和 UI 库,由字节跳动抖音前端与 UED 团队设计、开发并维护,是一款包含设计语言、React 组件、主题等开箱即用的中后台解决方案,可用于快速搭建美观的 React 应用。 Semi Design v2.45.0 现已发布,此版本带来如下更新内容: 【Fix】 修复 resizable Table 宽度在行选择时错误设置为初始值问题(影响 v2.32~v2.44) 修复 select ellipsisTrigger 在某些边界条件下更新不正确的问题 修复 checkRelation 为 unRelated 的 Tree/TreeSelect 中,异步加载数据导致已选状态丢失问题 修复 select ellipsisTrigger 更多数量显示错误的问题#1560 更新说明:https://github.com/DouyinFE/semi-design/releases/tag/v2.45.0
- 下一篇
Radius —— 微软开源的云原生应用程序平台
微软刚刚发布了一个新的基于开源的软件平台,旨在帮助开发者和企业创建、部署和管理基于云的应用程序。这个平台叫做 Radius,它来自微软 Azure 孵化团队。 Radius 是一个云原生应用程序平台,使开发人员和支持他们的平台工程师能够协作交付和管理默认情况下遵循组织成本、运营和安全性最佳实践的云原生应用程序。Radius 是一个开源项目,支持跨私有云、Microsoft Azure 和 Amazon Web Services 部署应用程序,未来还会有更多云提供商推出。 Radius 旨在适应而不是破坏现有的开发任务和 CI / CD 管道,致力于帮助开发人员更好地了解构成其应用程序的所有组件,并处理权限、连接字符串等平台配置,以简化他们的任务。因此,运营商可以确保所有应用程序的部署都符合组织策略,然后使用 Radius 来管理应用程序及其资源。 微软举了一个例子,说明 Radius 如何与使用 Mongo 数据库的应用程序协作: 借助 Radius,开发人员可以在应用程序中对 Mongo 资源进行建模,并在开发和测试阶段使用其连接字符串。当需要在生产环境中进行部署时,开发人员只需将应...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 2048小游戏-低调大师作品
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS关闭SELinux安全模块