spider-flow 0.1.0 发布,Java 开源爬虫平台
历时三个多月,第一个正式版发布 spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 现已有特性如下: 支持css选择器、正则提取 支持JSON/XML格式 支持Xpath/JsonPath提取 支持多数据源、SQL select/insert/update/delete/批量插入 支持爬取JS动态渲染的页面 支持代理 支持二进制格式、二进制流格式 支持保存/读取文件(csv、xls、jpg等) 常用字符串、日期、文件、加解密等函数 支持流程嵌套 支持插件扩展(自定义执行器,自定义函数) 支持HTTP接口 已有插件如下: selenium 插件 redis 插件 mongodb 插件 IP代理池 插件 OCR 识别插件 OSS 插件 电子邮箱 插件 部分截图: