Java爬虫之多线程下载IMDB中Top250电影的图片
介绍
在博客:Java爬虫之下载IMDB中Top250电影的图片中我们实现了利用Java爬虫来下载图片,但是效率不算太高。本次分享将在此基础上,利用多线程,提高程序运行的效率。
思路
本次分享建立在博客Java爬虫之下载IMDB中Top250电影的图片上,总体的爬虫思路没有变化,只是在此基础上引入多线程。多线程的思路如下:
- Java的每个任务类必须实现Runnable接口,因此,我们将新建ImageDownload类来实现Runnable接口。ImageDownload类的构造函数的参数有: url:网站的网址, dir: 图片储存目录。并在run()方法中实现将网页中的图片下载到本地。
- 在主函数中,调用ImageDownload类,利用多线程实现爬虫下载,提高运行效率。
程序
ImageDownload类的代码完整如下:
package wikiScrape; import java.io.File; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; import java.net.URLConnection; import org.apache.commons.io.FileUtils; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; /* ImageDownload类实现Runnable接口 * ImageDownload类的构造参数: url:网址的网址, dir: 图片存储目录 * ImageDownload类实现了将网页中的图片下载到本地 */ public class ImageDownload implements Runnable{ private String url; private String dir; public ImageDownload(String url, String dir) { this.url = url; this.dir = dir; } // run()函数: 将网页中的电影图片下载到本地 @Override public void run(){ // 利用URL解析网址 URL urlObj = null; try{ urlObj = new URL(url); } catch(MalformedURLException e){ System.out.println("The url was malformed!"); } // URL连接 URLConnection urlCon = null; try{ // 打开URL连接 urlCon = urlObj.openConnection(); // 将HTML内容解析成UTF-8格式 Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url); // 提取电影图片所在的HTML代码块 Elements elems = doc.getElementsByClass("ss-3 clear"); Elements pic_block = elems.first().getElementsByTag("a"); for(int i=0; i<pic_block.size(); i++) { // 提取电影图片的url, name String picture_url = pic_block.get(i).getElementsByTag("img").attr("src"); String picture_name = pic_block.get(i).getElementsByClass("bb").text()+".jpg"; // 用download()函数将电影图片下载到本地 download(picture_url, dir, picture_name); System.out.println("第"+(i+1)+"张图片下载完毕!"); } } catch(IOException e){ System.out.println("There was an error connecting to the URL"); } } // download()函数利用图片的url将图片下载到本地 public static void download(String url, String dir, String filename) { try { /* httpurl: 图片的url * dirfile: 图片的储存目录 */ URL httpurl = new URL(url); File dirfile = new File(dir); // 如果图片储存的目录不存在,则新建该目录 if (!dirfile.exists()) { dirfile.mkdirs(); } // 利用FileUtils.copyURLToFile()实现图片下载 FileUtils.copyURLToFile(httpurl, new File(dir+filename)); } catch(Exception e) { e.printStackTrace(); } } }
主函数ImageScraper.java的代码如下:
package wikiScrape; /* 本爬虫利用多线程爬取http://www.imdb.cn/IMDB250/中Top250的图片 * 先利用Jsoup解析得到该网页中的图片的url * 然后利用FileUtils.copyURLToFile()函数将图片下载到本地 */ import wikiScrape.ImageDownload; import java.util.ArrayList; import java.util.concurrent.*; import java.util.Date; public class ImageScraper { public static void main(String[] args) { Date d1 = new Date(); System.out.println("爬虫开始......"); // 爬取的网址列表,一共十个网页 ArrayList<String> urls = new ArrayList<String>(); urls.add("http://www.imdb.cn/IMDB250/"); for(int i=2; i<=10; i++) { urls.add("http://www.imdb.cn/imdb250/"+ Integer.toString(i)); } String dir = "E://log/"; // 图片储存目录 // 利用多线程下载每个页面中的图片 ExecutorService executor = Executors.newCachedThreadPool(); // Create and launch 100 threads for(int i=0; i<10; i++) { executor.execute(new ImageDownload(urls.get(i), dir)); } executor.shutdown(); // wait until all tasks are finished while(!executor.isTerminated()) { } System.out.println("程序运行完毕!"); Date d2 = new Date(); // 计算程序的运行时间,并输出 long seconds = (d2.getTime()-d1.getTime())/1000; System.out.println("一共用时: "+seconds+"秒."); } }
运行
运行上述主函数,结果如下:
一共也是下载了244张图片,运行结果与博客: Java爬虫之下载IMDB中Top250电影的图片中的结果一模一样,但是时间却少了一半!可见利用多线程来写爬虫效率相当高!
本次分享到此结束,欢迎大家交流~~

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Java 移位运算详解(2进制+原码+反码+补码)
一、参考 1、java高级之java的左移运算符和右移运算符 二、简述 1、定义: 符号 名称 实际操作 简单记忆 << 左移 2 进制左边补齐0位 乘以2的N次方 >> 右移 2 进制右边减少位数 除以2的N次方(其实并非如此,要舍去小数点) >>> 右移 2 进制右边0填充高位 除以2的N次方(其实并非如此,要舍去小数点) 2、速度:机器码是二进制01运算的,移位速度最快了 3、适用场景: 3.1、编码:字符编码,音频编码,压缩编码,加密编码 3.2、网络协议 3.3、数据文件格式:BMP,WAV 3.4、精确的bit操作 三、实例 既然是移位运算,那么int值肯定是要转成2进制数字才能看的直观明白。 Integer.toBinaryString(int num); //用来看到二进制的值。 以下就准备用15这个数字进行举例,不理解进制转换的请复习以下基础知识 16进制 2进制 10进制 0xF 1111 15 1、正整数简单左移右移 移位 2进制 10进制 15<<2 111100 60 15>>2 11 3 15...
- 下一篇
Lucene7.2.1系列(一)快速入门
系列文章: Lucene系列(一)快速入门 Lucene系列(二)luke使用及索引文档的基本操作 Lucene系列(三)查询及高亮 Lucene是什么? Lucene在维基百科的定义 Lucene是一套用于全文检索和搜索的开放源代码程序库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程序接口,能够做全文索引和搜索,在Java开发环境里Lucene是一个成熟的免费开放源代码工具;就其本身而论,Lucene是现在并且是这几年,最受欢迎的免费Java信息检索程序库。 另外,Lucene不提供爬虫功能,如果需要获取内容需要自己建立爬虫应用。Lucene只做索引和搜索工作。 Lucene官网 http://lucene.apache.org/ 打开Luncene官网你会发现Lucene版本更新的太快了,现在最新的版本已经是7.2.1。不过这也变相说明了Luncene这个开源库的火爆。 Lucene和solr 我想提到Lucene,不得不提solr了。 很多刚接触Lucene和Solr的人都会问这个明显的问题:我应该使用Lucene还是Solr? 答案很简单:如果你...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- 2048小游戏-低调大师作品
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2全家桶,快速入门学习开发网站教程