nodejs爬虫获取漫威超级英雄电影海报
昨天去看了《复联3》的首映,当我提前15分钟进入影院的时候, 看到了粉丝们取票的长队, 顿时有一种跨年夜的感觉...
最近看了node爬虫的一些知识, 这里用node爬取一下漫威官网的电影海报!
marvel
// https://marvel.com/movies/all const request = require('superagent') const cheerio = require('cheerio') const fs = require('fs-extra') const path = require('path') let url = 'https://marvel.com/movies/all' // 获取图片url和图片名字 async function getUrlAndName(){ // 用于存储返回值 let imgAddrArray = [] // 请求资源 const res = await request.get(url) // 将获取的html, 转换为资源符$, 相当于python中的xpath语法的etree过程 const $ = cheerio.load(res.text) // 定位资源位置, 将图片资源,和图片名字, 以数组方式, 返回给调用函数 $('.row-item-image a').each(function(i, elem){ let movieName = $(this).attr('href').split('/').pop() let imgAddr = $(this).find('img').attr('src') imgAddrArray.push([imgAddr, movieName]) }) return imgAddrArray } // 下载图片 async function download(imgAndName){ // 拼接出, 当前资源的文件名 let filename = imgAndName[1] + '.jpg' console.log("爬取海报:", filename); // 获取图片二进制数据 const req = request.get(imgAndName[0]); // 保存图片 await req.pipe(fs.createWriteStream(path.join(__dirname, 'images', filename))); } // 创建文件夹, 控制整体流程 async function init(){ let imgAddrArray = await getUrlAndName() // 创建文件夹 try{ await fs.mkdir(path.join(__dirname, 'images')); } catch(err){ console.log("==>", err); } // 获取资源 for (let imgAddr of imgAddrArray){ await download(imgAddr); } } init()
运行结果
小结:
直观感受, node爬虫并没有python好用, 而且由于浏览器的同源限制, 在浏览器端跑node爬虫也会有些麻烦;node爬虫的优势:理论上讲,node默认的异步玩法, 能达到python的多线程爬虫的效果.
写爬虫, 还是老老实实用python吧!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Java中的接口和抽象类。
接上篇。 Java中的继承和多态 Animals(动物)类在现实生活中找不出这样的一个实例,没有一个叫动物的动物。他的子类,譬如像狗,鸟,是具体的一个实例,但是动物类只是一个抽象的概念。一个认知上的抽象。那这样的类就为抽象类。 那将Animals类 设置为抽象类,规定动物的基本属性,基本方法,抽象方法,那继承他的子类就必须实现父类的抽象方法,若不实现,那继承的这个类也必须设置为抽象类。 抽象类中可以有构造函数,属性的权限可以为private,public, protected.,含有抽象方法的类必须声明为抽象类。 抽象函数在抽象类中只是声明,具体实现交给子类。 eg 在上面的例子上继续改造,将Animals中的eat()方法设置为抽象函数。在子类中去实现它。 子类 接口 接口是一组规范,是一个标准。它不表示事务,接口是给类用的。 接口作用。 1:一种规范。 2:解耦合,降低耦合度。 接口的现实举例,比如 人要遵守法律。。人就是一个类,法律就是一个接口。 类可以实现多个接口,这就相当于人要遵守多个规章制度。 接口之间可以多继承,这就相当于所有的法律都是宪法之下的。 ...
- 下一篇
Java集合详解5:深入理解LinkedHashMap和LRU缓存
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a724888/article/details/80290276 微信公众号【Java技术江湖】一位阿里 Java 工程师的技术小站。(关注公众号后回复”Java“即可领取 Java基础、进阶、项目和架构师等免费学习资料,更有数据库、分布式、微服务等热门技术学习视频,内容丰富,兼顾原理和实践,另外也将赠送作者原创的Java学习指南、Java程序员面试指南等干货资源) 今天我们来深入探索一下LinkedHashMap的底层原理,并且使用linkedhashmap来实现LRU缓存。 具体代码在我的GitHub中可以找到 https://github.co...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7设置SWAP分区,小内存服务器的救世主