风铃虫 1.1.0 发布,可以抓取 js 渲染网页的数据了
wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。
本次更新内容如下:
- 移除Httpclient网页下载器及其依赖
- 新增selenium相关组件,允许用户自定义实现selenium下载器
- 新增SeleniumDownloader下载器,可以下载前端渲染网页
- 新增资源回收功能,在风铃虫实例停止时自动回收下载器资源
- 修复网页SEO信息中keywords提取异常的问题
- 增加内置编码提取器,自动提取网页编码信息
- 修改请求的间隔时间和超时等待时间 规则属性的单位,使控制能力更精确
- 新增关闭请求间隔时间功能,控制能更灵活
- 新增非法链接过滤功能,自动过滤非法链接,提升抓取效率
- 优化连接过滤规则,提升抓取效率
- 优化自定义线程使用数,默认为运行宿主机的核心数
源码地址: https://gitee.com/zhiyubujian/wind-bell
API文档: https://apidoc.gitee.com/zhiyubujian/wind-bell/
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Elastic-Bg 发布,Java 前后端分离权限基础框架
Elastic-Bg SpringCloud版 Java前后端分离权限基础框架 GitHub地址 Gitee地址 演示地址 账户名:super_admin 密码:bg2019 PS:演示系统为1.0.0版(2.0.0无演示系统,服务器支撑不起),且为只读模式,同一账号最多允许20人同时访问(按照FIFO策略剔除) 相关文章 IDEA本地运行Elastic-Bg框架Grpc版 IDEA本地运行Elastic-Bg框架SpringCloud版 通用前后端分离权限管理系统,快速部署,应用于OA系统,客户关系管理系统,销售系统,公司内部系统等开发 V 2.0.0(Master) 相关主要依赖版本 JDK1.8 Spring Boot 2.2 spring-cloud Hoxton.RELEASE shiro 1.4 Extjs 4.2 Mysql 5.7 V 1.0.0 相关主要依赖版本 JDK1.8 Spring Boot 2.1 shiro 1.4 Grpc Extjs 4.2 Mysql 5.7
- 下一篇
JEPaaS 低代码开发平台:新功能上线,超级实用!
近日,JEPaaS低代码开发平台又上线了新功能——网盘功能,即用户可以自由在网盘上上传并存储个人或公司文件,其中公司文件支持管理员角色授权等,非常实用。 具体功能包括: 个人文件存储 公司文件存储 我发出的分享 我收到的分享 上传 传输记录 标签 回收站 1、个人文件网盘存储 用户可以存储个人文件,并对个人文件进行命名、下载、分享、微邮、删除以及标记标签等管理。 可将选中的文件以微邮的形式发送。 2、公司文件网盘存储 用户管理员可以在网盘中存储公司文件,管理员可以对公司文件进行授权,并且可以看到授权记录。 管理员可以对公司文件进行授权(分为可管理编辑、可编辑、仅可查看下载和仅可查看4级权限),并可自由设定授权对象(按公司、按部门、按角色、按人员等)。 授权后,并有相应的授权操作记录,方便查看。 3、我发出的分享和我收到的分享 仅针对个人文件而言,记录发出与收到的文件分享历史。 4、文件上传 支持点选式上传,也支持拖拽式上传,十分方便。 5、标签管理 用户可对个人文件和公司文件进行标签管理,用不同颜色标记文件;同时,通过左侧菜单的标签筛选功能可以对标记过的文件进行快速筛选,应用十分便...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker安装Oracle12C,快速搭建Oracle学习环境