为什么语言模型偏爱使用破折号?
> 编者按: 难道语言模型对破折号的偏爱,真的只是因为它们“喜欢”吗? > > 我们今天为大家带来的文章,作者的核心观点是:当前主流大语言模型对破折号的偏爱,很可能源于其训练数据中大量引入了 19 世纪末至 20 世纪初的纸质书籍 —— 这些文本本身就比当代英语更频繁地使用破折号。 > > 文章系统梳理并逐一反驳了多种主流解释,然后通过分析标点使用的历史趋势、尼日利亚英语语料库统计数据,以及 GPT-3.5 到 GPT-4o 破折号使用激增的时间节点,有力支撑了“旧书数字化”这一最合理的假说。 > > 尽管这一解释属于猜想,尚未得到官方证实,但它为我们理解 AI 写作风格提供了一条有趣的线索。 作者 | Sean Goedecke 编译 | 岳扬 如果你让大多数人说出 AI 生成文本的一个标志性特征,他们很可能会说破折号 —— 就像这样。语言模型对破折号的使用已频繁到让真正喜爱破折号的真人使用者望而却步[1],生怕自己的文字被误认为 AI 所作。更令人意外的是,要想通过提示词让模型避免使用破折号,竟出奇地困难:比如 OpenAI 论坛上的这个帖...
