神经机器翻译推断阶段信心校准研究
本论文由腾讯 AI Lab 和清华大学合作完成,作者提出了一种评估神经机器翻译模型在推断场景下信心校准偏差的方法,并发现Transformer模型的信心尽管在训练场景中校准较好,但是在推断场景中仍然存在较大的校准偏差。以下为论文的详细解读。 On the Inference Calibration of Neural Machine Translation 基于概率的机器学习模型在给出预测结果的同时,往往会输出一个对应的信心指数(i.e., confidence),该信心指数可以代表模型对自身预测结果的正确性的一个估计。在金融、医疗等安全等级较高的场景中,我们希望模型不但有较好的预测精度(i.e., accuracy),并且能够做到“知之为知之,不知为不知”,对预测结果的正确性有准确的估计。 我们可以设想一个场景:在一个共同抗击疫情的各国联合医疗队中,各国医护人员可以使用机器翻译系统进行交流。在涉及患者病情的关键性描述中,我们要求机器翻译系统要如实反映其对翻译结果的信心。对于模型不自信的翻译结果,我们可以请语言专家有针对性的进行后处理,对于大部分模型自信的结果,我们可以直接使用。由此可...
