爬虫问题总结
本文档对日常学习中用 python 做数据爬取时所遇到的一些问题做简要记录,以便日后查阅,部分问题可能因为认识不到位会存在一些误解,敬请告知,万分感谢,共同进步。 估算网站规模 该小节主要针对于整站爬取的情况。 爬取整站之前,肯定是要先对一个网站的规模进行估计。这是可以使用google搜索查看大概有多少个网址,这里使用到google搜索的一个小技巧。 site:url地址 有的时候可查看网站的sitemap.xml,但它有时候会过期或者滞后,不是很准确。 识别网站所用技术 要爬的网站使用的技术会影响到我们所写的代码中的处理手段。 推荐使用builtwith这个第三方包,可以使用pip来安装。 简单使用如下: In [1]: import builtwith In [2]: builtwith.parse('http://example.webscraping.com/') Out[2]: {u'javascript-frameworks': [u'jQuery', u'Modernizr', u'jQuery UI'], u'programming-languages': [u'Pyt...