《R语言数据挖掘》----1.6 网络数据挖掘
本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.6节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.6 网络数据挖掘
网络挖掘的目的是从网络超链接结构、网页和使用数据来发现有用的信息或知识。网络是作为数据挖掘应用输入的最大数据源之一。
网络数据挖掘基于信息检索、机器学习(Machine Learning,ML)、统计学、模式识别和数据挖掘。尽管很多数据挖掘方法可以应用于网络挖掘,但是由于异构的、半结构化的和非结构化的网络数据,所以网络挖掘不单纯是一个数据挖掘问题。
网络挖掘任务至少可以定义为3种类型:
网络结构挖掘(web structure mining):这有助于从超链接中寻找有关网址和页面的有用信息或者有价值的结