网站限制爬取薪资信息,代理IP来助阵
换工作需要知道该岗位目前市场薪资信息,企业招聘也需要知道各岗位当前薪资福利情况,这些情况是怎么分析出来的呢?这就要用到大数据了。但是,网站限制爬取薪资信息,面对这种情况可以使用代理IP来助阵的,就像芝麻代理的使用,方便快捷。 实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。1.分析网页我们在查看拉勾网上的招聘信息的时候,搜索Python,或者是PHP等等的岗位信息,其实是向服务器发出相应请求,由服务器动态的响应请求,将我们所需要的内容通过浏览器解析,呈现在我们的面前。可以看到我们发出的请求当中,FormData中的kd参数,就代表着向服务器请求关键词为Python的招聘信息。分析比较复杂的页面请求与响应信息,推荐使用Fiddler,对于分析网站来说绝对是一大杀器。不过比较简单的响应请求用浏览器自带的开发者工具就可以,比如像火狐的FireBug等等,只要轻轻一按F12,所有的请求的信息都会事无巨细的展现在你面前。经由分析网站的请求与响应过程可知,拉勾网的招聘信息都是由XHR动态传递的。我们发现,以POST方式发出的请求有两个,分别是companyAjax.json和posit...