面向机器学习的自然语言标注2.4 语料库的规模
2.4 语料库的规模
既然你已经知道想要寻找何种类型的数据以及如何表现它,那么你还需要决定实际需要收集与标注多少数据。如果你计划使用一个已有的语料库,那么语料库的总规模已经确定,但是你可能仍然需要决定对语料库的多少内容进行标注。
一般而言,无论标注目标是什么,收集与标注的数据越多,就离达成目标越近。然而,在多数情况下,在讨论语言标注任务时“越大越好”并不是切实可行的——时间、金钱、有限的资源以及精力都可能是限制你和你的标注人员能完成标注规模的因素。
注意: 如果这是你收集数据工作的第一轮,那么最重要的事情是产生一个包含与任务有关的所有现象例子的样本语料库。
也就是说,我们建议在第一次进行文档标注时从较小的规模开始——首先为标注人员选择少量的文档,看看标注任务与标注指南是否合适(标注指南将在第6章中讨论)。一旦你已经解决了一些问题,就可以返