hadoop使用(四)
做一个网络爬虫的程序吧,根据客户的需求,要求把相关的内容爬取到本地 最终选择的是apache nutch,到目前为止最新的版本是1.3 1. Nutch是什么? Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构 2. 在哪里要可以下载到最新的Nutch? 在下面地址中可以下载到最新的Nutch 1.3二进制包和源代码 http://mirror.bjtu.edu.cn/apache//nutch/ 3. 如何配置Nutch? 3.1 对下载后的压缩包进行解压,然后cd $HOME/nutch-1.3/runtime/local 3.2 配置bin/nutch这个文件的权限,使用chmod +x bin/nutch 3.3 配置JAVA_HOME,使用export JAVA_HOME=$PATH 4. 抓取前要做什么准备工作? 4.1...