DIYPA(自爬) - 产品级别的智能云爬取系统简介
问题
互联网发展到现在,信息不是缺乏,而是信息泛滥。互联网用户如今经常碰到的问题是:
面对海量数据,不知道于何时,到何处取得自己想要的信息
× 数据的多样性。比如音频,视频。
× 数据的量太大了
× 数据时效性。比如折扣,金融信息
× 数据太分散, 碎片化。 原始数据需要后续处理
不知道如何如何将网页数据结构化,以利于后续分析和处理。
网页HTML数据不是结构化数据!!!
痛点
为了有效率的收集网页数据,爬虫技术应运而生。但是当前爬虫技术也是有弱点的
爬虫技术看起来高大上,不是普通人能掌握的
爬虫工程师的工资不错, 反过来,请一个爬虫工程师是 比较贵的哟
下面的信息来自于51job,2015年11月
爬虫后续维护工作量巨大: 众所周知,网页是经常变化的
产品介绍
DIYPA是一款小而美的工具,大大降低爬虫工作的难度和强度,减轻维护工作量。实现人人可做爬虫工程师的理想
方案图
DIYPA创造性的将爬虫工作分为两阶段:标记和爬取。
标记阶段/工具
标记工具用Javascript开发而成。以浏览器插件和bookmarklet形式部署到用户的浏览器
采用内嵌式,几乎可以嵌入任何网页
以所见即所得的方式,让用户定义需要爬取网页信息的位置(PlaceHolder)
点击热点(Hotspot),智能猜测用户的意图
允许用户定义爬虫属性:比如爬取时间,频率,通知方式等等
爬取阶段/云爬虫阵列
使用Django+ python + AngularJS + Scrapy+ Selenim + DRF开发而成。用户可以
创建,编辑,删除爬虫定义
查看/处理爬取到的数据
数据可视化
查看/管理爬取精度
产品家族
标准版
适用于普通用户。可以应用于
商品比价
网上求租/出租房子
网上上招工
专业版
适用于有相应能力的用户。比如分析师,工程师,数据科学家等。可用来做
收集金融数据
商业行业分析
Vale at Risk (VaR) 计算
各种各样的桌面和移动App的二次开发
企业版
面向企业。主要处理AJAX。可应用于
互联网征信
舆情分析
网上追逃
特点场景
下图中黑色的圆圈 - 热点(Hotspot) 点击可动态切换标记元素
下图中黄色 - 点亮(Highlight) 表示用户当前标记的元素集
标记Redflagdeal (加拿大最大的折扣网站)
标记大众点评
管理定时任务
应用案例
北京一家众筹公司已经用DIYPA开发了一款热门投资指数的产品。
特点
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
虚拟环境的安装包如何导出,如何安装到新的虚拟环境中,virtualenv
在我们使用Python开发中,一般会使用到virtualenv来做环境的隔离,防止污染本地的Python环境在我们有多个虚拟环境时候,如何复制一个虚拟环境的包到另一个环境中去呢? 1.到原始的virtualenv变量的scripts目录下,导出此环境下安装的包的版本信息 pip freeze > requirements.txt 2.来到新的虚拟环境下,复制上不导出的requirements.txt文件到scripts目录下,执行安装命令 pip install -r requirements.txt 以上就是如何复制一个虚拟环境的包到另一个环境中去?
- 下一篇
修正 Chrome 50 中关于 Date.parse 的问题
关键词 ISO-8601 日期时间字符串 Date.parse // 用于打印 Unix 时间戳和其结构化的 Date 对象 function logDate (dateString) { const time = Date.parse(dateString) console.log(time, new Date(time)) } 问题 最近在项目开发中遇到一个问题,在 Chrome 63 中Date.parse和 Chrome 50 中Date.parse在解析形如 "2018-01-20T00:29:18" 格式(参考ISO-8601)的字符串时,行为不一致。 相关规范 MDN: Date.parse中的关于 es5 对 ISO-8601 格式的字符串的支持的描述如下: The date time string may be in a
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果