历史回顾——NLP问题解决方案的演变史
NLP-深度学习时代之前:
在深度学习来临之前的日子里,在自然语言处理算法(NLP)领域出乎意料地有许多相对成功的经典挖掘算法,对于像垃圾邮件过滤或词类标记问题可以直接使用可解释的模型来解决它们。
但并非所有问题都可以通过这种方式解决,简单的模型不能充分捕捉语境或反语等细微语言要点。基于总体概括的算法(例如,文字袋(bag-of-words))证明了不足以捕捉文本的连续性,而n-gram努力克服这些困难,但受到维度灾难的严重影响。即使是基于HMM的模型也无法克服这些问题,因为它们是无记忆。
第一个突破——Word2Vec:
语言分析的主要挑战之一是将文本转换为数字输入的方式,只有完成这一步才能使得建模变得可行。在计算机视觉任务中这不是问题,因为在图像中,每个像素都用三个数字来表示,这三个数字描绘了三种基色的饱和度。多年来,研究人员尝试了大
