IEEE Spectrum：AI 辅助编程能力出现退化迹象-低调大师

IEEE Spectrum：AI 辅助编程能力出现退化迹象

2026-01-09 39

IEEE Spectrum 近期刊发的一篇文章《Newer models are more prone to silent but deadly failure modes》指出，过去一年中，多款大型语言模型在代码生成任务上的实际表现并未持续提升，部分情况下甚至出现质量下降。一些开发者发现，新一代模型生成的代码虽然“能跑”，但可靠性不如旧版本，修正成本反而上升。

文章提到，早期 AI 编程工具常见的问题是语法错误或明显逻辑错误，这类问题通常会直接触发报错，开发者可以快速定位并修复。但在更新的模型中，错误形态正在发生变化：模型更倾向于生成表面合理、可以执行，但在语义或逻辑层面存在问题的代码。这类“静默失败”不会引发异常，却可能在后续流程中造成更严重的隐患。

文章举例称，在处理数据分析任务时，新模型有时会在关键字段缺失的情况下，擅自改写逻辑以避免程序崩溃，导致结果看似正常，实则偏离原始需求。相比之下，一些旧模型反而更倾向于提示潜在问题或要求用户确认输入条件。

下面是一个简单的 Python 代码示例，作用是加载一个数据框，然后查找不存在的列。

df = pd.read_csv('data.csv') 
df['new_column'] = df['index_value'] + 1 # ‘index_value’ 不存在

显然，这段代码永远无法成功运行。Python 会生成一条易于理解的错误信息，解释说找不到列“index_value”。任何看到这条信息的人都会检查数据框，并注意到缺少这一列。

文章作者将此错误信息发送给了九个不同版本的 ChatGPT，主要基于 GPT-4 的各种变体以及较新的 GPT-5。作者要求每个版本都修复此错误，并明确表示只需要完整的代码，不需要任何注释。

GPT-4 / GPT-4.1 大多给出合适的提示，建议检查该列是否存在，如果不存在则进行修复。
GPT-5 则倾向于偷偷改写程序，它直接取每一行的实际索引（而不是虚构的“index_value”），然后加 1 来创建新列 new_column。这是最糟糕的结果：代码执行成功，乍一看似乎是正确的，但结果值本质上是一个随机数。在实际应用中，这会在后续代码中造成更大的麻烦。

文章作者认为，这种退化趋势可能与模型训练目标和评估机制有关。当前训练过程往往更强调“输出可被接受、代码能够运行”，而非严格保证语义正确性和安全性。同时，越来越多由 AI 生成、但未经过充分审查的代码被纳入训练数据，也可能放大这一问题。

作者最后指出，AI 编程工具依然具备显著价值，但在实际工程中仍需开发者保持审慎，依赖完善的测试与人工审查来兜底。短期内，AI 更适合作为辅助工具，而非可以完全信任的自动化编程替代方案。

微信关注我们

原文链接：https://www.oschina.net/news/395361/ai-coding-degrades

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Z Lab 发布开源推测解码框架 DFlash

Z Lab 发布了开源推测解码框架 DFlash，这是一种利用轻量级 Block Diffusion 模型进行草稿生成的推测解码方法。该方法旨在解决自回归大语言模型在推测解码中因串行草稿生成导致的效率瓶颈。 DFlash 通过融合目标模型的隐藏特征作为上下文条件，实现了高效且高质量的并行草稿预测。 https://github.com/z-lab/dflash 官方数据显示，DFlash 在 Qwen3-8B 上实现了高达 6.17倍的无损加速，其解码速度比目前最先进的推测解码方法 EAGLE-3 快近 2.5倍。目前，该项目已开源并发布了适配 Qwen3-4B 和 Qwen3-8B 的模型，相关论文即将发布。官方团队表示，目前正在将 DFlash 集成到 vLLM 中，并计划支持更大规模的 MoE 模型。

2026-01-09

34

Elon Musk 的人工智能工具 Grok 因其生成性别化及暴力图像的功能而遭到广泛批评，决定暂停大部分用户的图像生成能力。此举是在面临全球范围内的罚款和监管威胁后采取的，尤其是在英国有可能对 X 社交平台实施禁令的情况下。Grok 的图像生成功能曾被用于操纵女性的图像，甚至删除衣物并将其置于性暗示的姿势。如今，除了付费用户之外，大部分用户无法使用这一功能。在 X 平台上，Grok 发布声明称：“图像生成和编辑目前仅限于付费用户。” 这意味着绝大多数用户无法再利用 Grok 生成图像。付费用户的详细信息和信用卡信息被 X 保留，以便在功能被滥用时可以进行身份识别。《卫报》报道显示，Grok 被用于创建未经女性同意的色情视频，以及描绘女性被射杀和杀害的图像。英国首相 Keir Starmer 威胁要采取强硬措施，要求 X “控制” 涌现出的 AI 生成的部分裸露女性和儿童图像，并形容这种内容为 “令人发指” 和 “令人厌恶”。根据英国《在线安全法》，监管机构 Ofcom 在严重情况下有权寻求法院命令，阻止网站或应用在英国的使用，且可以对公司处以高达全球营业额 10% 的罚款。St...

2026-01-09

42

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。