XXL-CRAWLER v1.3.0，分布式爬虫框架-低调大师

XXL-CRAWLER v1.3.0，分布式爬虫框架

2022-10-15 464

Release Notes

1、开源协议：由 GPLv3 调整为 Apache2.0 开源协议；
2、版本升级：依赖版本升级，如jsoup、htmlunit、selenium等;
3、代码重构：优化代码结构，提升系统可维护性；

简介

XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫，拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性；

特性

1、简洁：API直观简洁，可快速上手；
2、轻量级：底层实现仅强依赖jsoup，简洁高效；
3、模块化：模块化的结构设计，可轻松扩展
4、面向对象：支持通过注解，方便的映射页面数据到PageVO对象，底层自动完成PageVO对象的数据抽取和封装返回；单个页面支持抽取一个或多个PageVO
5、多线程：线程池方式运行，提高采集效率；
6、分布式支持：通过扩展 "RunData" 模块，并结合Redis或DB共享运行数据可实现分布式。默认提供LocalRunData单机版爬虫。
7、JS渲染：通过扩展 "PageLoader" 模块，支持采集JS动态渲染数据。原生提供 Jsoup(非JS渲染，速度更快)、HtmlUnit(JS渲染)、Selenium+Phantomjs(JS渲染，兼容性高) 等多种实现，支持自由扩展其他实现。
8、失败重试：请求失败后重试，并支持设置重试次数；
9、代理IP：对抗反采集策略规则WAF；
10、动态代理：支持运行时动态调整代理池，以及自定义代理池路由策略；
11、异步：支持同步、异步两种方式运行；
12、扩散全站：支持以现有URL为起点扩散爬取整站；
13、去重：防止重复爬取；
14、URL白名单：支持设置页面白名单正则，过滤URL；
15、自定义请求信息，如：请求参数、Cookie、Header、UserAgent轮询、Referrer等；
16、动态参数：支持运行时动态调整请求参数；
17、超时控制：支持设置爬虫请求的超时时间；
18、主动停顿：爬虫线程处理完页面之后进行主动停顿，避免过于频繁被拦截；

文档地址

中文文档

技术交流

社区交流

微信关注我们

原文链接：https://www.oschina.net/news/213783/xxl-crawler-1-3-0-released

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

凹语言支持 JetBrains Fleet 语法高亮

凹语言第一时间支持JetBrains Fleet 语法高亮！ JetBrains宣布首次公共预览Fleet，所有人都可以使用。Fleet 是由 JetBrains 打造的下一代 IDE，于 2021 年首次正式推出。它是一个新的分布式多语言编辑器和 IDE，基于 JetBrains 在后端的 IntelliJ 平台，采用了全新的用户界面和分布式架构从头开始构建。具体可以参考https://www.oschina.net/news/213442/jetbrains-fleet-public-preview 凹语言™（凹读音 “Wa”）是针对 WASM 平台设计的的通用编程语言，支持 Linux、macOS 和 Windows 等主流操作系统和 Chrome 等浏览器环境，同时也支持作为独立 Shell 脚本和被嵌入脚本模式执行。主页 :https://wa-lang.org 先克隆 fleet-wa 本仓库到本地，然后将 Wa.tmbundle 子目录复制到 $HOME/.fleet/textmate 目录下（具体细节可以参考 TextMate bundles 文档）。然后重启 Fle...

2022-10-15

507

本周发布了 5 个围绕 Linux WiFi 堆栈的安全漏洞的 CVE，这些漏洞可以利用无线网络通过恶意数据包来作恶。 Linux 内核已发布针对 WiFi 堆栈漏洞的最新修复版本，分别是 Linux 6.0.2 , Linux 5.19.16 , Linux 5.15.74 , Linux 5.10.148，和 Linux 5.4.218，这些版本带有最新的 WiFi 安全修复程序。 5 个围绕 Linux WiFi 堆栈的安全漏洞分别是： CVE-2022-41674：修复 cfg80211_update_notlisted_nontrans 中的 u8 溢出 CVE-2022-42719：wifi：mac80211：修复 MBSSID 解析 use-after-free CVE-2022-42720：wifi：cfg80211：修复 BSS 引用计数错误 CVE-2022-42721：wifi：cfg80211：避免未传输的 BSS 列表损坏，列表损坏只会使其无限循环（DOS） CVE-2022-42722：wifi：mac80211：修复 P2P 设备信标保护中的崩溃，NULL...

2022-10-15

461

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。