spider-flow 0.1.0 发布,Java 开源爬虫平台
历时三个多月,第一个正式版发布
spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫
现已有特性如下:
- 支持css选择器、正则提取
- 支持JSON/XML格式
- 支持Xpath/JsonPath提取
- 支持多数据源、SQL select/insert/update/delete/批量插入
- 支持爬取JS动态渲染的页面
- 支持代理
- 支持二进制格式、二进制流格式
- 支持保存/读取文件(csv、xls、jpg等)
- 常用字符串、日期、文件、加解密等函数
- 支持流程嵌套
- 支持插件扩展(自定义执行器,自定义函数)
- 支持HTTP接口
已有插件如下:
- selenium 插件
- redis 插件
- mongodb 插件
- IP代理池 插件
- OCR 识别插件
- OSS 插件
- 电子邮箱 插件
部分截图:
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Apache Doris(incubating)0.11.0 版本正式发布
经历了三个多月的研发,Apache Doris(incubating) 0.11.0版本今天正式发布了。这是Doris进入Apache社区孵化以来第三个正式版本。 Doris功能、性能在0.11.0版本都有极大的提升,总计有29名社区同学贡献了382个commit。Doris的contributor数目也增长到了57名。 在过去的一个月,外部同学的代码提交量已经达到了主创团队代码提交量的一半。同时也迎来了Doris第一个海外用户Shopee。 引擎重构 本次版本最大的改进就是重构了存储引擎。通过重构存储引擎工作,引擎的代码框架变得更加清晰,之前版本很多的Corner Case也在本版本修复。除此外,通过本次的引擎重构,代码的可读性、扩展性都得到了极大的提升。也正是基于此次工作,正在优化存储结构,预计在0.12版本中,能够支持字符串字典压缩,压缩比比现在提升1倍左右。以及在未来的版本中增加倒排索引等工作。 Bitmap类型支持 在这个版本中,Doris支持了Bitmap类型,用户如果有精确去重的需求可以通过使用这种类型来实现。用户可以在聚合模型下创建Bitmap类型的value列,然后向...
- 下一篇
Jboot 2.2.5 发布,升级 JFinal 到最新版本
Jboot 是一个基于 JFinal、JFinal-Undertow、Dubbo 等开发的微服务框架,帮助开发者降低微服务开发门槛。同时完美支持在 idea、eclipse 下多 maven 模块,对java代码、html、css、js 等资源文件进行热加载,爽爽地开发。 Jboot v2.2.5 更新内容如下: 新增:JbootConfigManager 新增 refreshAndGet 方法,用于读取配置文件发生变化时的新内容 优化:指令 JbootPaginateDirective 可以传入 pageAttr 来指定 page 设置的属性 优化:优化 RequestUtil 的判断浏览器的代码逻辑 优化:升级 JFinal 、 Metrics 等到最新版本 文档:给出 seata 分布式事务的相关文档及测试demo 文档:新增 JFinalConfig 配置的相关文档 maven 依赖: <dependency> <groupId>io.jboot</groupId> <artifactId>jboot</arti...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题