Beyond 预训练语言模型,NLP还需要什么样的知识?
近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本。2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过“超大规模无监督语料上的预训练语言模型+相对少量的监督样本进行任务精调(fine-tuning)”,可以大幅提升各类NLP任务的效果。 由于效果显著和应用机制简单,预训练语言模型以前所未有的速度在业界得到广泛应用,各大厂纷纷发布自己的预训练模型。现在,我们已毫不怀疑预训练语言模型的能力,并坚信它的发展必将持续提升各类NLP任务的效果。但是,对其能力的上限仍有疑问:预训练语言模型能带领我们彻底理解语言吗? 预训练语言模型的不足 2020年,GPT-3发布,再一次引发大家对“通用人工智能”的热情。在一开始被GPT-3的效果惊艳之后,GPT-3的不足也暴露出来:虽然GPT-3能自动从海量的无监督语料中学习到丰富的共现知识,并成功应用于下游任务上,但GPT-3并未真正理解语言,它只是成功地记住和拟合了语料。 如上图GPT-3关于眼睛的问答例子所示,如果一个事实没有出现在语料中,预训练语言模型只能通过已经记住的语料分布去泛化,这会导致出现不可...