面向机器学习的自然语言标注导读
前言 本书的读者是那些使用计算机来处理自然语言的人。自然语言是指人类所说的任何一种语言,可以是当代语言(如英语、汉语、西班牙语),也可以指过去曾经使用过的语言(如拉丁语、古希腊语、梵语)。标注(annotation)是一个过程,它通过向文本中加入元数据来增强计算机执行自然语言处理(Natural Language Processing, NLP)的能力。特别地,我们考察如何通过标注将信息加入自然语言文本中以便改善机器学习(Machine Learning,ML)算法(一组设计好的计算机程序,它从文本提供的信息中推出规则,目的是将这些规则用于将来未标注的文本中)的性能。 面向机器学习的自然语言标注 本书详细介绍创建自己的自然语言标注数据集(称为语料库)所需的各个阶段和过程,以便为基于语言的数据和知识发现训练机器学习算法。本书的总体目标是为