XXL-CRAWLER v1.3.0,分布式爬虫框架
Release Notes
- 1、开源协议:由 GPLv3 调整为 Apache2.0 开源协议;
- 2、版本升级:依赖版本升级,如jsoup、htmlunit、selenium等;
- 3、代码重构:优化代码结构,提升系统可维护性;
简介
XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性;
特性
- 1、简洁:API直观简洁,可快速上手;
- 2、轻量级:底层实现仅强依赖jsoup,简洁高效;
- 3、模块化:模块化的结构设计,可轻松扩展
- 4、面向对象:支持通过注解,方便的映射页面数据到PageVO对象,底层自动完成PageVO对象的数据抽取和封装返回;单个页面支持抽取一个或多个PageVO
- 5、多线程:线程池方式运行,提高采集效率;
- 6、分布式支持:通过扩展 "RunData" 模块,并结合Redis或DB共享运行数据可实现分布式。默认提供LocalRunData单机版爬虫。
- 7、JS渲染:通过扩展 "PageLoader" 模块,支持采集JS动态渲染数据。原生提供 Jsoup(非JS渲染,速度更快)、HtmlUnit(JS渲染)、Selenium+Phantomjs(JS渲染,兼容性高) 等多种实现,支持自由扩展其他实现。
- 8、失败重试:请求失败后重试,并支持设置重试次数;
- 9、代理IP:对抗反采集策略规则WAF;
- 10、动态代理:支持运行时动态调整代理池,以及自定义代理池路由策略;
- 11、异步:支持同步、异步两种方式运行;
- 12、扩散全站:支持以现有URL为起点扩散爬取整站;
- 13、去重:防止重复爬取;
- 14、URL白名单:支持设置页面白名单正则,过滤URL;
- 15、自定义请求信息,如:请求参数、Cookie、Header、UserAgent轮询、Referrer等;
- 16、动态参数:支持运行时动态调整请求参数;
- 17、超时控制:支持设置爬虫请求的超时时间;
- 18、主动停顿:爬虫线程处理完页面之后进行主动停顿,避免过于频繁被拦截;
文档地址
技术交流

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
凹语言支持 JetBrains Fleet 语法高亮
凹语言第一时间支持JetBrains Fleet 语法高亮! JetBrains宣布首次公共预览Fleet,所有人都可以使用。Fleet 是由 JetBrains 打造的下一代 IDE,于 2021 年首次正式推出。它是一个新的分布式多语言编辑器和 IDE,基于 JetBrains 在后端的 IntelliJ 平台,采用了全新的用户界面和分布式架构从头开始构建。具体可以参考https://www.oschina.net/news/213442/jetbrains-fleet-public-preview 凹语言™(凹读音 “Wa”)是 针对 WASM 平台设计的的通用编程语言,支持 Linux、macOS 和 Windows 等主流操作系统和 Chrome 等浏览器环境,同时也支持作为独立 Shell 脚本和被嵌入脚本模式执行。主页 :https://wa-lang.org 先克隆 fleet-wa 本仓库到本地,然后将 Wa.tmbundle 子目录复制到 $HOME/.fleet/textmate 目录下(具体细节可以参考 TextMate bundles 文档)。然后重启 Fle...
- 下一篇
Linux 发布 6.0.2、5.19.16 等版本,修复 WiFi 堆栈漏洞
本周发布了 5 个围绕 Linux WiFi 堆栈的安全漏洞的 CVE,这些漏洞可以利用无线网络通过恶意数据包来作恶。 Linux 内核已发布针对 WiFi 堆栈漏洞的最新修复版本,分别是 Linux 6.0.2 , Linux 5.19.16 , Linux 5.15.74 , Linux 5.10.148,和 Linux 5.4.218,这些版本带有最新的 WiFi 安全修复程序。 5 个围绕 Linux WiFi 堆栈的安全漏洞分别是: CVE-2022-41674:修复 cfg80211_update_notlisted_nontrans 中的 u8 溢出 CVE-2022-42719:wifi:mac80211:修复 MBSSID 解析 use-after-free CVE-2022-42720:wifi:cfg80211:修复 BSS 引用计数错误 CVE-2022-42721:wifi:cfg80211:避免未传输的 BSS 列表损坏,列表损坏只会使其无限循环(DOS) CVE-2022-42722:wifi:mac80211:修复 P2P 设备信标保护中的崩溃,NULL...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启