面向机器学习的自然语言标注1.3 语言数据和机器学习
1.3 语言数据和机器学习 我们已经介绍了语言标注方法及其语言数据标注格式的例子,接下来将描述基于这些标注语料库的计算框架,即机器学习。机器学习是人工智能的一个分支,研究如何根据经验和已有数据学习和改善性能的算法。它们学习(或生成)一个函数,将具体的输入数据映射为想要的输出。就我们的目标而言,机器学习算法处理的“数据”是自然语言,最常见的格式是文本,更典型的是标注突显具体特征的标签,这些特征与学习任务相关。正如我们将要看到的,前面所讨论的标注为机器学习流程(训练阶段)提供了丰富的输入数据。 当在自然语言处理中使用标注数据集进行工作时,通常有3种类型的ML算法: 监督学习 监督学习是指任何通过生成一个函数将输入映射到一个预先设定的标签集合(想要的输出)的技术。标签通常是元数据标签,由人通过标注语料库的方式提供,其目的是用于机器学习中的训练过