AI 聊天越久越
微软和Salesforce联合研究发现,即使是最先进的AI语言模型在长时间对话中也会出现严重的可靠性问题。当用户逐步表达需求时,系统性能平均下降39%,这一发现对AI助手的实际应用提出了重要警示。
研究团队创建了名为"分片"的测试方法,模拟用户在实际对话中逐步明确需求的过程。与传统的一次性提供完整信息不同,这种方法将任务分解为多个步骤,更贴近真实使用场景。
测试结果表明,AI模型的准确率从约90%暴跌至仅51%。从小型开源模型Llama-3.1-8B到大型商业系统GPT-4o,所有15个受测模型均出现这种急剧下降。
每个实验涉及90到120条指令,这些指令被分解为来自高质量数据集的较小子任务。
即便是研究中的顶级模型——Claude3.7Sonnet、Gemini2.5Pro和GPT-4.1——在多轮对话中的表现也比单轮对话差30%至40%。更令人担忧的是,这些模型的一致性大幅降低,同一任务的最佳和最差表现差异可达50个百分点。
研究识别出AI模型在多轮对话中的四个核心问题:
- 过早结论:在掌握全部必要信息前匆忙做出判断
- 过度依赖历史:过分相信自己此前的回答,即使其中存在错误
- 信息忽略:忽视对话过程中的重要信息
- 过度详述:提供过于详细的回答,导致对信息缺口的错误假设
为提高可靠性,研究团队尝试了多种技术改进,包括降低模型温度设定以减少随机性,以及让AI重复用户指令。然而,这些优化措施均未产生显著效果。研究发现,改变每步提供的细节程度同样无济于事。唯一可靠的解决方案是在对话开始时就提供所有必要信息。
性能下降呈现两个层面:模型基本能力仅下降约16%,但不可靠性却飙升112%。在单轮任务中,能力更强的模型通常更可靠,但在多轮对话中,所有模型的可靠性都同样糟糕,与其基线技能水平无关。
基于研究结果,专家提出两项实用建议:
- 对用户:当对话偏离主题时,与其试图修正,不如重新开始新对话。在对话结束时要求AI总结所有需求,并以此作为新对话的起点。
- 对开发者:应更加重视多轮对话的可靠性开发。未来模型需要在指令不完整的情况下保持稳定表现,而非依赖特殊提示技巧或参数调整。
研究人员强调,可靠性与原始性能同等重要,特别是对于需要处理复杂、多步骤交互的现实世界AI助手而言。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Opera 发布“AI 代理”浏览器 Opera Neon
Opera 的浏览器产品组合今日迎来了新成员。Opera Neon是该公司首款“AI 代理”浏览器,旨在“重新思考浏览器在代理网络中的角色”。开发人员声称,Neon 能够理解用户的意图,并利用 AI 驱动的功能将其转化为行动。 Opera Neon 由三个主要部分组成:Neon Chat、Do 和 Make。Neon Chat 是一个聊天机器人,可以搜索网页、提供当前标签页的上下文信息,以及执行 Copilot 或 ChatGPT 等现代聊天机器人可以执行的其他操作。 Neon Do 是Opera 今年早些时候推出的“浏览器操作员”的升级版。它可以理解网站内容并代表您执行操作,例如填写表格、预订行程和购物,所有 AI 处理都在本地进行。 Opera 补充说,隐私是 Neon 的重要组成部分。它可以和你一起浏览互联网,并使用 DOM 树和布局数据来理解页面,而不是通过分析像素或虚拟指针。除了提高隐私性之外,这种方法还能使系统更快、更高效。 有了 Neon,那些因缺乏技术知识而完全无法在网络上创作的时代已经一去不复返了。这项全新的代理技术可以帮助您创作,将您的想法转化为数字化、有形且可共享...
-
下一篇
Telegram 与 xAI 达成 3 亿美元合作
Telegram 已与埃隆马斯克的人工智能公司 xAI 达成合作伙伴关系,通过 Telegram 分发后者的聊天机器人 Grok,并将其集成到聊天应用平台上可用的应用程序中,为期一年。 Telegram 首席执行官帕维尔·杜罗夫 (Pavel Durov)周二表示,作为交易的一部分,xAI 将向该聊天应用支付3亿美元现金和股权。 Durov 表示,Telegram 还将从通过该应用购买的 xAI 订阅中获得50% 的收入。 今年早些时候,xAI 向Telegram 的高级用户开放了 Grok 聊天机器人。现在看来,Grok 可能会向所有用户开放。 Durov 在 X 上发布的一段视频显示,Grok 可以固定在应用内的聊天顶部,用户还可以通过搜索栏向 Grok 提问。值得注意的是,Meta 还将 Meta AI 集成到了Instagram 和 WhatsApp 的搜索栏中。 视频还展示了如何使用 Grok 撰写建议、总结聊天、链接和文档,以及创建贴纸。Grok 据称还能帮助企业解答问题并协助审核。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS8编译安装MySQL8.0.19
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker容器配置,解决镜像无法拉取问题
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Hadoop3单机部署,实现最简伪集群
- MySQL8.0.19开启GTID主从同步CentOS8