面向机器学习的自然语言标注2.3 整合数据集
2.3 整合数据集
我们已经讨论整合数据集时需要考虑的一些问题:标注任务的范围、已有语料库是否含有对你有用的文档与标注信息、数据来源的多样化。
如果你计划将你的数据集公开,请确定你已经拥有对所标注信息向第三方重新发布的许可。有时可以仅发布独立的标注信息和从网站上收集数据的代码段,但最佳且最简单的方式是直接向内容提供者申请许可,尤其是当语料库和标注信息将用于商业而不是纯粹的教育目的时。
语料库构建指南
语料库语言学家John Sinclair(约翰·辛克莱尔)就构建语言学语料库提出了一些指南。尽管这些指南主要针对设计以语言现象研究为目的的语料库,但它们对任何构建语料库感兴趣的人都会有所帮助。论文全文可从http://www.ahds.ac.uk/creating/guides/linguistic-corpora/chapter1.htm下