【NLP】大数据之行,始于足下:谈谈语料库知多少
大数据之行,始于足下:谈谈语料库知多少 作者:白宁超 2016年7月20日13:47:51 摘要:大数据发展的基石就是数据量的指数增加,无论是数据挖掘、文本处理、自然语言处理还是机器模型的构建,大多都是基于一定量的数据,数据规模达到一定程度,采用基于规则方法或者概率统计学的方法进行模型构建,感兴趣知识的获取才更有意义。那么,是不是数据足够大就是大数据了?是不是数据足够多就构成语料库了?往往一个模型好坏跟训练数据或者检验数据的语料库息息相关。本文笔者带你走进语料库的世界,在随后模型构建过程避免一些语料注意事项,大大提升模型效率。(本文原创,转载请注明出处:大数据之行,始于足下:谈谈语料库知多少。) 1 语料库语言学 大多数学者普遍认为:语言学的研究必须基于语言事实的基础,必须详尽的大量的占有材料,才有可能在理论上得出比较可靠的结论。 语料库语言学:传统语言材料的搜集整理和加工完全以手工进行,费时费力,直到计算机出现并随之计算能力强大之后,原先手工的工作开始转向计算机去做,后来逐渐的方法完善中,提出一些初步的理论,形成了语料学这样一门语言学与计算机科学交叉的学科。 语料库语言学的研究范畴:...
