NLP度量指标BELU真的完美么?
刚接触自然语言处理的朋友通常会问我:当系统的输出是文本,而非对输入文本进行某种分类,如何对该系统进行评估。当模型的输入是文本信息,输出也是文本信息时,我们称之为序列到序列问题,也可称为字符串转换问题。
序列到序列建模是解决NLP中较难任务的核心,它包括:
1、 自动文摘(Text Summarization);
2、 文本简化(Text simplification);
3、 问答(Question answering);
4、 聊天机器人(Chatbots);
5、 机器翻译(Machine translation);
理解序列到序列建模问题相对容易,如何对其进行评价才是难点。
对于刚入门NLP的人来说,选取衡量标准较为困难。目前最流行的评价指标之一BLEU虽然常用,但也存在较大的缺陷。
本文将介绍BELU的工作原理