IEEE Spectrum:AI 辅助编程能力出现退化迹象
IEEE Spectrum 近期刊发的一篇文章《Newer models are more prone to silent but deadly failure modes》指出,过去一年中,多款大型语言模型在代码生成任务上的实际表现并未持续提升,部分情况下甚至出现质量下降。一些开发者发现,新一代模型生成的代码虽然“能跑”,但可靠性不如旧版本,修正成本反而上升。 文章提到,早期 AI 编程工具常见的问题是语法错误或明显逻辑错误,这类问题通常会直接触发报错,开发者可以快速定位并修复。但在更新的模型中,错误形态正在发生变化:模型更倾向于生成表面合理、可以执行,但在语义或逻辑层面存在问题的代码。这类“静默失败”不会引发异常,却可能在后续流程中造成更严重的隐患。 文章举例称,在处理数据分析任务时,新模型有时会在关键字段缺失的情况下,擅自改写逻辑以避免程序崩溃,导致结果看似正常,实则偏离原始需求。相比之下,一些旧模型反而更倾向于提示潜在问题或要求用户确认输入条件。 下面是一个简单的 Python 代码示例,作用是加载一个数据框,然后查找不存在的列。 df = pd.read_csv('dat...
