您现在的位置是：首页 > 文章详情

AI 聊天越久越

日期：2025-05-29点击：91收藏

微软和Salesforce联合研究发现，即使是最先进的AI语言模型在长时间对话中也会出现严重的可靠性问题。当用户逐步表达需求时，系统性能平均下降39%，这一发现对AI助手的实际应用提出了重要警示。

研究团队创建了名为"分片"的测试方法，模拟用户在实际对话中逐步明确需求的过程。与传统的一次性提供完整信息不同，这种方法将任务分解为多个步骤，更贴近真实使用场景。

测试结果表明，AI模型的准确率从约90%暴跌至仅51%。从小型开源模型Llama-3.1-8B到大型商业系统GPT-4o，所有15个受测模型均出现这种急剧下降。

每个实验涉及90到120条指令，这些指令被分解为来自高质量数据集的较小子任务。

即便是研究中的顶级模型——Claude3.7Sonnet、Gemini2.5Pro和GPT-4.1——在多轮对话中的表现也比单轮对话差30%至40%。更令人担忧的是，这些模型的一致性大幅降低，同一任务的最佳和最差表现差异可达50个百分点。

研究识别出AI模型在多轮对话中的四个核心问题：

为提高可靠性，研究团队尝试了多种技术改进，包括降低模型温度设定以减少随机性，以及让AI重复用户指令。然而，这些优化措施均未产生显著效果。研究发现，改变每步提供的细节程度同样无济于事。唯一可靠的解决方案是在对话开始时就提供所有必要信息。

性能下降呈现两个层面:模型基本能力仅下降约16%，但不可靠性却飙升112%。在单轮任务中，能力更强的模型通常更可靠，但在多轮对话中，所有模型的可靠性都同样糟糕，与其基线技能水平无关。

基于研究结果，专家提出两项实用建议：

研究人员强调，可靠性与原始性能同等重要，特别是对于需要处理复杂、多步骤交互的现实世界AI助手而言。

原文链接：https://www.oschina.net/news/352466

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。

Java分享