Java爬虫之下载IMDB中Top250电影的图片-低调大师

Java爬虫之下载IMDB中Top250电影的图片

2018-04-02 1112

介绍

在博客：Scrapy爬虫（4）爬取豆瓣电影Top250图片中我们利用Python的爬虫框架Scrapy，将豆瓣电影Top250图片下载到自己电脑上。那么，在Java的爬虫的也可以下载图片吗？答案当然是肯定的！
在本次分享中，我们将利用Java的Jsoup包和FileUtils.copyURLToFile()函数来实现图片的下载。我们将会爬取IMDB中Top250电影的图片到自己电脑上，其网页截图如下：

思路

我们实现图片下载的爬虫思路如下：

利用Jsoup解析网页，得到电影图片的url和name
利用FileUtils.copyURLToFile()函数将图片下载到本地

准备

在本文程序中，除了Jsoup包外，还用到了commons-io包，其下载地址为：https://mvnrepository.com/artifact/org.apache.commons/commons-io ，我们主要利用该package中的FileUtils.copyURLToFile(). 读者需要下载这两个包，并将它们在Eclipse中加入到项目的路径中。

程序

本次分享的主要程序为ImageScraper.java，其完整代码如下：

package wikiScrape;

/* 本爬虫爬取http://www.imdb.cn/IMDB250/中Top250的图片
 * 先利用Jsoup解析得到该网页中的图片的url
 * 然后利用FileUtils.copyURLToFile()函数将图片下载到本地
 */

import java.io.*;
import java.net.*;
import java.util.Date;
import java.util.ArrayList;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.apache.commons.io.FileUtils;


public class ImageScraper {

    public static void main(String[] args) {
        Date d1 = new Date();

        System.out.println("爬虫开始......");

        // 爬取的网址列表，一共十个网页
        ArrayList<String> urls = new ArrayList<String>();
        urls.add("http://www.imdb.cn/IMDB250/");
        for(int i=2; i<=10; i++) {
            urls.add("http://www.imdb.cn/imdb250/"+ Integer.toString(i));
        }

        String dir = "E://log/";  // 图片储存目录

        // 利用循环下载每个页面中的图片
        for(String url: urls) {
            int index = urls.indexOf(url)+1;
            System.out.println("开始下载第"+index+"个网页中的图片...");
            getPictures(url, dir);
            System.out.println("第"+index+"个网页中的图片下载完毕！\n");
        }

        System.out.println("程序运行完毕！");
        Date d2 = new Date();

        // 计算程序的运行时间，并输出
        long seconds = (d2.getTime()-d1.getTime())/1000;
        System.out.println("一共用时： "+seconds+"秒.");

    }

    // getContent()函数: 将网页中的电影图片下载到本地
    public static void getPictures(String url, String dir){

        // 利用URL解析网址
        URL urlObj = null;
        try{
            urlObj = new URL(url);

        }
        catch(MalformedURLException e){
            System.out.println("The url was malformed!");
        }

        // URL连接
        URLConnection urlCon = null;
        try{
            // 打开URL连接
            urlCon = urlObj.openConnection(); 
            // 将HTML内容解析成UTF-8格式
            Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url);
            // 提取电影图片所在的HTML代码块
            Elements elems = doc.getElementsByClass("ss-3 clear");
            Elements pic_block = elems.first().getElementsByTag("a");

            for(int i=0; i<pic_block.size(); i++) {
                // 提取电影图片的url, name
                String picture_url = pic_block.get(i).getElementsByTag("img").attr("src");
                String picture_name = pic_block.get(i).getElementsByClass("bb").text()+".jpg";
                // 用download()函数将电影图片下载到本地
                download(picture_url, dir, picture_name);
                System.out.println("第"+(i+1)+"张图片下载完毕！");
            }

        }
        catch(IOException e){
            System.out.println("There was an error connecting to the URL");
        }

    }

    // download()函数利用图片的url将图片下载到本地
    public static void download(String url, String dir, String filename) {  
        try { 

            /* httpurl: 图片的url
             * dirfile: 图片的储存目录
             */
            URL httpurl = new URL(url);  
            File dirfile = new File(dir); 

            // 如果图片储存的目录不存在，则新建该目录
            if (!dirfile.exists()) {    
                dirfile.mkdirs();  
            }  

            // 利用FileUtils.copyURLToFile()实现图片下载
            FileUtils.copyURLToFile(httpurl, new File(dir+filename));  
        } 
        catch(Exception e) {  
            e.printStackTrace();  
        }  
    }

}

运行

运行以上程序，结果如下：

查看E盘中的log文件夹，内容如下：

一共下载了244张图片，用时140秒，有几张图片下载失败，效果还算OK.
本次分享就到此结束喽，欢迎大家交流~~

微信关注我们

原文链接：https://yq.aliyun.com/articles/615229

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

初学Python——第一节课

一、Python语言的特性： 1.与C语言不同，Python语言是一门解释性语言。程序在执行过程中，执行一步、编译一步。 2.Python是一个动态类型语言，不需要定义变量的数据类型。 3.Python是一门强类型语言。（如果定义了一个变量，如果不人为的强制类型转换，它永远都是开始的那种数据类型）二、Python的优缺点：优点：1.简单易懂，初学者很容易入门 2.开发效率高，具有强大的标准库和第三方库，大大降低开发周期，避免重复造轮子 3.高级语言，不用考虑内存一类的底层细节 4.有很强的可移植性、可扩展性和可嵌入性当然，没有一门语言是完美的，它也有缺点： 1.运行速度慢，大多数情况下用户是感知不到的。相比C和JVAV来说，它确实慢一些，如果对速度要求很高，可以用其他语言去实现。 2.代码不能加密，源码是以明文形式存放的，当然这不一定是个缺点。如果需要源代码是加密的，可以不用这门语言来写。 3.线程不能利用多CPU的问题，Python的线程是操作系统的原生线程。接下来是一些初步的学习，零散的知识： 1.Python的默认编码为UTF-8，而非ASCII（至少在Python3里）...

2018-04-02

615

一、参考 1、java高级之java的左移运算符和右移运算符二、简述 1、定义：符号名称实际操作简单记忆 << 左移 2 进制左边补齐0位乘以2的N次方 >> 右移 2 进制右边减少位数除以2的N次方（其实并非如此，要舍去小数点） >>> 右移 2 进制右边0填充高位除以2的N次方（其实并非如此，要舍去小数点） 2、速度：机器码是二进制01运算的，移位速度最快了 3、适用场景： 3.1、编码：字符编码，音频编码，压缩编码，加密编码 3.2、网络协议 3.3、数据文件格式：BMP,WAV 3.4、精确的bit操作三、实例既然是移位运算，那么int值肯定是要转成2进制数字才能看的直观明白。 Integer.toBinaryString(int num); //用来看到二进制的值。以下就准备用15这个数字进行举例，不理解进制转换的请复习以下基础知识 16进制 2进制 10进制 0xF 1111 15 1、正整数简单左移右移移位 2进制 10进制 15<<2 111100 60 15>>2 11 3 15...

2018-04-02

614

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。