GPT-4 越来越笨?准确率从 97.6% 降至 2.4%
斯坦福大学和加州大学伯克利分校合作进行的一项“How Is ChatGPT's Behavior Changing Over Time?”研究表明,随着时间的推移,GPT-4 的响应能力非但没有提高,反而随着语言模型的进一步更新而变得更糟糕。
研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现,分别为:解决数学问题、回答敏感/危险问题、代码生成以及视觉推理。
他们使用了一个包含 500 个问题的数据集评估模型,测试模型必须确定给定的整数是否是素数。结果表明,GPT-4(2023 年 3 月版)在识别质数方面表现非常出色,正确回答了其中的 488 个问题,准确率达 97.6%。但 GPT-4 (2023 年 6 月版)在这些问题上的表现却非常糟糕,只答对了 12 个问题,准确率仅为 2.4%。
而与之相反,GPT-3.5(2023 年 6 月版)在这项任务中的表现则要比 GPT-3.5(2023 年 3 月版)好得多。
研究团队还使用了"Chain-of-Thought"(思维链)来帮助模型进行推理,提出“17077是一个质数吗?一步一步地思考”的问题。但最新版本的 GPT-4 不仅错误地回答了"否",还没有生成解题的中间步骤。
与 3 月份相比,GPT-4 在 6 月份不太愿意回答敏感问题。而且与 3 月份相比,GPT-4 和 GPT-3.5 在 6 月份生成代码时也出现了更多格式错误,质量明显下降。
对于 GPT-4,可直接执行的生成代码百分比从 3 月份的 52.0% 降至 6 月份的 10.0%;GPT-3.5 也从 22.0% 降至了 2.0%。两种模型的冗余度也有小幅增加,其中 GPT-4 增加了 20%。
视觉推理方面,GPT-4 和 GPT-3.5 的性能都略有提高。但对于 90% 以上的视觉推理查询,3 月份和 6 月份版本生成的结果完全相同。这些服务的总体性能也很低:GPT-4 为 27.4%,GPT-3.5 为 12.2%。且在某些特定问题上,GPT-4 在 6 月份表现要比在 3 月份差。
研究人员认为,这些结果表明,"相同"的 LLM 服务的行为会在相对较短的时间内发生重大变化,凸显了对 LLM 质量进行持续监控的必要性。
“我们计划通过定期评估 GPT-3.5、GPT-4 和其他 LLM 在不同任务中的表现,在一项持续的长期研究中更新本文介绍的结果。对于依赖 LLM 服务作为其日常工作流程组成部分的用户或公司,我们建议他们对其应用程序进行类似的监控分析。”
更多详情可查看完整报告。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
偶像剧加芯片有搞头吗?且看《我的中国芯》
最近优酷的独播新剧《我的中国芯》创造了新的“艺术形式”:爱情+芯片,让无数人惊叹小刀划屁股——开了眼了。 该剧以此前美日荷联手限制中国进口高精度 DUV 光刻机作为故事背景,讲了一个中国企业“造芯”的故事。剧情简介: 某民营科技公司承担国家燃点计划科研项目,研发用于光刻机的193纳米DUV激光器。使用这种激光器的光刻机可以解决绝大多数先进集成电路芯片的生产问题,如果研发成功,对国家具有重大意义。 在研发的关键时刻,公司大老板在国外出差期间,以涉嫌聚众斗殴的借口被扣留在国外。公司失去顶梁柱,陷入危机。老板娘朱琳临危出山,支撑危局。在研发总监李卫国的带领下,公司克服种种困难,包括多次陷入资金链断裂的危机,以及内部蛀虫的破坏。外部科研骗子也趁机拉拢李卫国一起去资本市场圈钱割韭菜,李卫国顶住了诱惑。 为了解决资金困难,朱琳抵押了自己的别墅,还出让了优质资产的很大一部分股份。李卫国带领的科研团队一路克服众多技术难关,最终研发成功。 朱琳和李卫国带领公司同事整顿公司,挖出了蛀虫,挡住了科研骗子无孔不入的渗透,并惩罚了科研骗子。 虽然这部剧还没开播,但光是看宣传片和剧照就已经难绷了…… 最先让人绷不...
- 下一篇
每日一博 | 百度知道上云与架构演进
作者 |百度知道研发组 导读 百度知道作为上线十多年的老产品线,业务场景多、架构老旧、代码风格不统一,同时业务迭代较快,整体承载流量大,稳定性要求高,给业务全面上云带来不小的挑战。本文基于实践,介绍知道如何进行上云方案的选型和落地,并同步进行架构演进,提升线上服务稳定性和容灾能力。 全文5302字,预计阅读时间16分钟。 01 背景与挑战 1.1 背景 随着集团PaaS化战略和云上百度战略推进,当前在线运行平台ORP已正式进入维稳阶段,不再进行功能更新和安全修复;同时ORP接入层在稳定性、变更效率等方面也无法满足云上部署要求。OXP逐渐成为业务发展和迭代的瓶颈。为了解决这一问题,同时增强资源弹性,降低业务资源成本,接入各类云原生能力,提升部署效率,保障线上服务稳定性,知道启动去OXP专项,将逐步完成整体上云及架构演进工作。 1.2 挑战 1、知道产品线老旧,历史债务多。 百度知道是一个已有十八年历史的老产品线,业务模式繁杂,上下游依赖较多,不同时期的重点方向不一样,架构老旧,代码风格不统一,改造成本高; 2、知道业务发展快,迭代变化快。 虽然产品线历史久远,为了适应新变化,业务迭代敏捷...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启