《R语言数据挖掘》----1.5 文本挖掘
本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.5节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.5 文本挖掘
文本挖掘基于文本数据,关注从大型自然语言文本中提取相关信息,并搜寻有意义的关系、语法关系以及提取实体或各项之间的语义关联。它也被定义为自动或半自动的文本处理。相关的算法包括文本聚类、文本分类、自然语言处理和网络挖掘。
文本挖掘的特征之一是数字与文本混合,或者用其他的观点来说,就是源数据集中包含了混合数据类型。文本通常是非结构化文件的集合,这将被预处理并变换成数值或者结构化的表示。在变换之后,大部分的数据挖掘算法都可以应用,并具有不错的效果。
文本挖掘的过程描述如下:
第一步准备文本语料库,包括报告、信函等。