使用代码查看Nutch爬取的网站后生成的SequenceFile信息
必须针对data文件中的value类型来使用对应的类来查看(把这个data文件,放到了本地Windows的D盘根目录下). 代码: 1 package cn.summerchill.nutch; 2 import java.io.IOException; 3 4 import org.apache.hadoop.conf.Configuration; 5 import org.apache.hadoop.fs.FileSystem; 6 import org.apache.hadoop.fs.Path; 7 import org.apache.hadoop.io.SequenceFile; 8 import org.apache.hadoop.io.Text; 9 import org.apache.nutch.crawl.CrawlDatum; 10 import org.apache.nutch.crawl.Inlinks; 11 import org.apache.nutch.parse.ParseData; 12 import org.apache.nutch.parse.Pa...






