面向机器学习的自然语言标注1.1 语言标注的重要性
基础知识
人们几乎每天都会教计算机去解决一些新的激动人心的问题,这些问题包括如何在国际象棋比赛或“危险边缘”节目译注1中取胜,以及驾驶车辆时的最短路径选择。但仍有大量的问题是计算机不能完成的,特别是在理解人类语言方面。已经证明统计方法是解决这一问题的有效途径,但当可以为机器学习(Machine Learning, ML)算法提供关于数据集所包含信息的数据线索提示而不仅仅是数量巨大的数据时,ML通常可以产生更好的效果。讨论自然语言时,这些提示通常以标注的形式呈现——提供关于文本额外信息的元数据。但是,为了有效地指导计算机,让它从正确和足够的数据中学习是非常重要的。本书的目的是为你提供创建良好数据的工具以便服务于你自己的机器学习任务。本章主要内容包括:
为什么标注对语言学家和计算机科学家而言是同样重要的工具。
语料库语言学(corpus l