python爬取电影和美食数据实战
本文使用的是requests+正则来匹配网页内容,对于数据量较多的采用了多线程抓取的方法,共3个案例,分别是抓取猫眼电影TOP100榜单和淘票票正在热映的电影信息、以及美团的美食数据。这几个案例采用的方法大同小异。 1、首先选择想要爬取的网站 2、确定要用的模块,requests,json,re三个模块,如果想加快爬取速度可以加一个Pool 3、 网页请求,先得到整个页面,需要加一个headers来进行请求,否则会被网站拦截 4、格式化整个页面,通过patter的正则来匹配,找出我们需要的内容, 5、 获取数据,findall,然后通过yield将数据返回,yield 是一个类似 return 的关键字,迭代一次遇到yield时就返回yield后面(右边)的值 6、遍历获取到的数据 7、保存到相应的文档中 8、关闭文档, 9、提示数据保存成功。 一、爬取猫眼电影Top100榜单的数据 importrequests frommultiprocessing importPool fromrequests.exceptions importRequestException...