最新文本分类大综述-从1961-2020年文本分类自浅入深的发展
摘要。文本分类是自然语言处理中最基本的任务。由于深度学习的空前成功,过去十年中该领域的研究激增。已有的文献提出了许多方法,数据集和评估指标,从而需要对这些内容进行全面的总结。本文回顾1961年至2020年的文本分类方法,重点是从浅层学习到深度学习的模型。根据所涉及的文本以及用于特征提取和分类的模型创建用于文本分类的分类法。然后,详细讨论这些类别中的每一个类别,涉及支持预测测试的技术发展和基准数据集。并提供了不同技术之间的全面比较,确定了各种评估指标的优缺点。最后,通过总结关键含义,未来的研究方向以及研究领域面临的挑战进行总结。 文本分类流程。在许多NLP应用中,文本分类-为文本指定预定义标签的过程-是一项基础而重要的任务。文本分类的主要流程:首先是预处理模型的文本数据。浅层学习模型通常需要通过人工方法获得良好的样本特征,然后使用经典的机器学习算法对其进行分类。因此,该方法的有效性在很大程度上受到特征提取的限制。但是,与浅层模型不同,深度学习通过学习一组非线性变换将特征工程直接集成到输出中,从而将特征工程集成到模型拟合过程中。 文本分类发展历程。主要文本分类方法的示意图如图2所示。从1...