一文看完网络爬虫发展史
著名调查机构Aberdeen Group曾经做过一次调查,结果令人乍舌。 整个互联网,网络爬虫产生的流量占比高达37.2%! 换句话说,每100个互联网用户中,只有63个是实实在在的人类,剩下的流量都是机器人刷出来的。 有一种说法更可怕,未来互联网50%以上的流量将是机器人制造出来的。 在现实世界,人类还在为人工智能威胁而烦恼,但在虚拟世界,机器人所制造的流量,已经可以和人类平分秋色,甚至超过人类。 每时每刻,爬虫们都在模仿人类的上网行为,去各种网站上溜达,点点按钮,查查数据,或者把看到的信息背回来,他们永远不知道疲倦,循环往复。 你一定见过验证码吗,它可能长这样: 也可能这样: 或者是这样子: 无论它长什么样子,验证码只有一个目的,识别真实的人类用户。 打开百度搜索,搜点什么资料,解决点什么问题。无意中,你也成为众多爬虫使用者中的一员。 爬虫,已经遍布在互联网的每一个角落,影响着每一个人。 但是,你了解爬虫的前世今生吗? 善良的一面 1994年,在卡内基梅隆大学参加“信息媒体数字图书馆”项目研究的小马,为了解决这一项目的一些困难,用3页的代码量,开发了一个名为Lycos的搜索引擎。 ...
