一分钟了解互联网数据挖掘流程
1、爬虫抓取网络数据 真实的数据挖掘项目,一定是从获取数据开始的,除了通过一些渠道购买或者下载专业数据外,常常需要大家自己动手爬互联网数据,这个时候,爬虫就显得格外重要了。 Nutch爬虫的主要作用是从网络上抓取网页数据并建立索引。我们只需指定网站的顶级网址,如taobao.com,爬虫可以自动探测出页面内容里新的网址,从而进一步抓取链接网页数据。nutch支持把抓取的数据转化成文本,如(PDF、WORD、EXCEL、HTML、XML等形式)转换成纯文字字符。 Nutch与Hadoop集成,可以将下载的数据保存到hdfs,用于后续离线分析。使用步骤为: 向hdfs中存入待抓取的网站url $ hadoop fs -put urldir urldir 注: 第一个urldir为本地文件夹,存放了url数据文件,每行一个url地址 第二个urldir为hdfs的存储路径。 启动nutch,在NUTCH_HONE目录下执行以下命令 $ bin/nutch crawlurldir –dir crawl -depth 3 –topN 10 命令成功执行后,会在hdfs中生成crawl目录。 2...
