风铃虫 2.0.0 发布,新增抓取深度限制
风铃虫是一款轻量级的高效爬虫工具,配置简单,方便二次开发,能抓取js渲染的网页,可以抓取任何数据,支持保存网页快照,智能防封杀,天然适合分布式。
本次更新是一个重大的版本更新,在本次更新过程中,对大量代码进行重构,提升了代码质量,并新增了许多新功能。在保证稳定性的同时,将默认使用正则表达式匹配改为使用关键词匹配,使用门槛进一步降低。另外还新增了去重接口,使用户能够根据需要实现自定义去重逻辑。与此同时,本次更新还增加了深度限制功能,可以根据用户的设置来限制抓取深度。
本次更新点如下
- 重新定义任务调度器,优化调度相关算法
- 剥离请求去重模块,能自定义去重逻辑
- 优化实例别名设置,实现全局别名依赖
- 修复基于内存实现的请求记录器中的严重漏洞
- 增加请求深度限制机制,允许设置抓取深度
- 优化规则构造器,增加构造规则
- 优化同步启动接口
- 增加无查询参数去重器
- 修改XPATH提取内核
- 优化构造规则,规则组织更合理和人性化
- 优化定义内容解析器
- 优化定义链接解析器
- 优化测试系列接口
- 优化内容匹配默认设置
- 增加链接过滤规则,支持多种方式过滤链接
- 修复处理相对路径时的逻辑错误
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
mysql-innodb-事务
写在最前 这是读书笔记,Mysql,innodb系列一共3篇。 Mysql-innodb-B+索引 Mysql-innodb-锁 Mysql-innodb-事务 ACID A:原子性,要么成功,要么失败 C:一致性,事务将数据库从一种状态转换为另一种稳定状态,不违反约束条件 I:隔离性,多个事务互不影响 D:持久性 事务的隔离级别 隔离级别 说明 READ UNCOMMITTED 未提交读,会造成脏读,违反持久性D READ COMMITTED 读已提交数据, 会造成幻读 违反一致性C REPEATABLE READ 可重复读,默认隔离级别 SERIALIZABLE 不会使用mysql的mvcc机制,而是在每一个select请求下获得读锁,在每一个update操作下尝试获得写锁 SELECT@@global.tx_isolation查看全局事务隔离级别 事务的实现 Force Log at Commit机制 当事务提交时,必须先将该事务的所有日志写入到日志文件进行持久化,之后进行COMMIT操作完成。 日志写入日志文件时,日志缓冲先写入文件系统缓存,为了确保写入磁盘,需要调用一...
- 下一篇
云办公系统 skyeye v3.1.8 发布,生产模块更新
云办公系统skyeye v3.1.8发布,本次更新主要以生产模块为主。 开源版地址:https://gitee.com/doc_wei01/skyeye 项目开发计划:https://docs.qq.com/doc/DQlRxcVRMWWVjbU1i?_from=1&disableReturnList=1,有问题可以联系作者 更新内容: 销售订单整改完成,新增税率,优惠率等内容 安装冗余代码检测、Bug检测,系统漏洞检测等功能的工具 效果截图: 效果图 效果图
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路