开发者反馈 DeepSeek-V3.1 出现严重 bug:返回内容随机插入“极/極/extreme”等字符
近日有开发者反馈DeepSeek V3.1在生成文本时会在完全不可预期的位置插入“极”“極”“extreme”三个token。
开源社区用户给出多组复现场景:在 Go 等语言生成里,模型会把词元「粘」到标识符中,`Second` 前随机插入「极/極/extreme」,即便是 `top_k=1, temperature=1` 的保守解码也躲不过。
问题最早在火山、chutes等第三方API被发现,最初怀疑与IQ1_S高压缩量化、imatrix校准数据异常或部署配置错误有关,但随后测试证实官方网页端在FP8全精度下亦出现同样现象,且官方端出现概率最低,第三方显著升高。
中文简体“极”对应ID 2577,繁体“極”对应ID 16411,英文“extreme”对应ID 15075。
社区推测可能是训练数据清洗残留,或与模型“偷懒”机制相关,但部分案例仍无法解释。一旦触发,后续生成会愈发频繁,已严重影响编程及任何对结构敏感的任务可用性。


