大数据开发过程中的5个学习通用步骤
大数据的开发过程,如图1-1所示。
图 1-1大数据开发通用步骤图
上图只是一个简化后的步骤和流程,实际开发中,有的步骤可能不需要,有的还需要增加步骤,有的流程可能更复杂,因具体情况而定。
下面以Google搜索引擎为例,来说明以上步骤。
- 大数据采集
Google的数据来源于互联网上的网页,它们由Google Spider(蜘蛛、爬虫、机器人)来抓取,抓取的原理也很简单,就是模拟我们人的行为,来访问各个网页,然后保存网页内容。
Google Spider是一个程序,运行在全球各地的Google服务器之中,Spider们非常勤奋,日夜不停地工作。点击领取免费资料及课
2008年Google数据表明,它们每天都会访问大约200亿个网页,而在总量上,它们追踪着300亿个左右的独立URL链接。
可以说,只要是互联网上的网站,只要没有在robots.txt
