揭示语言大模型的采样过程
作者 | Chip Huyen OneFlow编译 翻译|杨婷、宛子琳 机器学习模型具有概率性。对于同一个问题,机器可能会给出不同回答,以“世界上最棒的美食是什么?”这一问题为例。假如我们间隔一分钟,对同一个人提问,这个人两次给出的回答应该是相同的;但如果我们分两次问模型同样的问题,它给出的答案可能会发生变化。如果模型认为越南菜最好吃的概率为70%,意大利菜最好吃的概率为30%,那么相应的,模型会有70%的概率回答越南菜,30%的概率回答意大利菜。 这种概率特性使人工智能在创造性任务中大放异彩。创造力不就是超越常规可能、跳出思维框架的能力吗? 然而,这种概率性也会导致不一致(inconsistency)和幻觉问题。对于依赖事实的任务而言,这是致命的。 近期,本文作者调研了一家人工智能初创公司三个月的客户支持请求,发现五分之一的问题是用户不理解或不知道如何处理这种概率特性导致的。 要理解AI响应的概率性,就需要了解模型生成响应的方式,即采样(或解码)过程。本文包括以下三部分: 采样:采样策略和采样变量(包括温度、Top-k和Top-p)。 测试时采样:采样多个输出,以帮助提高...


