python爬取电影和美食数据实战-低调大师

python爬取电影和美食数据实战

2018-09-05 569

本文使用的是requests+正则来匹配网页内容，对于数据量较多的采用了多线程抓取的方法，共3个案例，分别是抓取猫眼电影TOP100榜单和淘票票正在热映的电影信息、以及美团的美食数据。这几个案例采用的方法大同小异。

1、首先选择想要爬取的网站

2、确定要用的模块，requests,json,re三个模块，如果想加快爬取速度可以加一个Pool

3、网页请求，先得到整个页面，需要加一个headers来进行请求，否则会被网站拦截

4、格式化整个页面，通过patter的正则来匹配，找出我们需要的内容，

5、获取数据，findall，然后通过yield将数据返回，yield 是一个类似 return 的关键字，迭代一次遇到yield时就返回yield后面(右边)的值

6、遍历获取到的数据

7、保存到相应的文档中

8、关闭文档，

9、提示数据保存成功。

一、爬取猫眼电影Top100榜单的数据

4b481a8b06d0cb199a85ff95b6b340cce5e1c2eb

import requests
from multiprocessing import Pool
from requests.exceptions import RequestException
import re
import json

def get_one_page(url):
try:
headers = {
"user-agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
11
response = requests.get(url , headers=headers)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None

def parse_one_page(html):
pattern = re.compile( '<dd>.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name"><a'
+ '.*?>(.*?)</a>.*?star">(.*?).*?releasetime">(.*?)'
+ '.*?integer">(.*?).*?fraction">(.*?).*?</dd>' , re.S)

items =re.findall(pattern ,html)
for item in items:
yield {
'index':item[ 0] ,
'image':item[ 1] ,
'title':item[ 2] ,
'actor':item[ 3].strip()[ 3:] ,
'time': item[ 4].strip()[ 5:] ,
'score': item[ 5] + item[ 6]
}

def write_to_file(content):
with open( 'result.txt' , 'a' , encoding= 'utf-8') as f:
f.write(json.dumps(content , ensure_ascii= False) + ' \n ')
f.close()

def main(offset):
url = 'http://maoyan.com/board/4?offset='+ str(offset)
html = get_one_page(url)
for item in parse_one_page(html):
#print(item)
write_to_file(item)

if __name__ == '__main__':
#for i in range(10):
# main(i*10)
pool = Pool()
pool.map(main ,[i* 10 for i in range( 10)])

结果：将爬取的数据存放到文本文件中，

因为我这边采用的是线程池爬取的，所以有时候是不按顺序进行存储的，如果采用非多线程方式，就会按照顺序进行存储。

2f93b76a44a7a37d8643afa3308dd20b8e60e957

二、爬取淘票票正在热映的电影

09312c3acc4fd4721f2ecc9d0f823f8cab28a11a

可以看到网页结构如下，我这边使用了正则匹配的方法进行查找：

54a5bc36a9ccfe0eab00f53fefa0cd3211663879

代码如下：

import requests
from requests.exceptions import RequestException
import re
import json

def get_one_page(url):
 try:
headers = {
 "user-agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
 11
 response = requests.get(url , headers=headers)
 if response.status_code == 200:
 return response.text
 return None
except RequestException:
 return None

def parse_one_page(html):

pattern = re.compile( '<div class="movie-card-poster">.*?data-src="(.*?)".*?(.*?).*?(.*?).*?<div class="movie-card-list">.*?(.*?)'
 + '.*?(.*?).*?(.*?).*?(.*?).*?(.*?).*?(.*?)' ,re.S)

items = re.findall(pattern , html)
 for item in items:
 yield {
 'image': item[ 0] ,
 'title': item[ 1] ,
 'score': item[ 2] ,
 'director': item[ 3].strip()[ 3:] ,
 'actor': item[ 4].strip()[ 3:] ,
 'type': item[ 5].strip()[ 3:] ,
 'area': item[ 6].strip()[ 3:] ,
 'language': item[ 7].strip()[ 3:] ,
 'time': item[ 8].strip()[ 3:]
}

def write_to_file(content):
 with open( 'movie-hot.txt' , 'a' , encoding= 'utf-8') as f:
f.write(json.dumps(content , ensure_ascii= False) + ' \n ')
f.close()

def main():
url = 'https://www.taopiaopiao.com/showList.htm'
 html = get_one_page(url)
 for item in parse_one_page(html):
 print(item)
write_to_file(item)

if __name__ == '__main__':
main()

结果：

f09314f5878a685c3256130bc49a0674502b6f53

三、爬取美团（深圳）美食店铺信息，评分大于4.0分的店铺

做为一名吃货，想知道我所在是城市的美食店，所以爬取评分较高的店铺信息：

eff3fd8f412f77c7ec54dd9d957e4ad206728d09

美团的这个网页的不同之处在于，全部是通过js渲染生成的，所以我这边是拿到页面后，在js里面查找到的数据，然后用正则来匹配。

import requests
from multiprocessing import Pool
from requests.exceptions import RequestException
import re
import json
"""
author 朱培
title 爬取美团(深圳)美食店铺信息,评分大于4.0分的店铺

"""
def get_one_page(url):
   try:
headers = {
   "user-agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}

response = requests.get(url , headers=headers)
   if response.status_code == 200:
   return response.text
   return None
except RequestException:
   return None

def parse_one_page(html):

pattern = re.compile( '"poiId":(.*?),"frontImg":"(.*?)","title":"(.*?)","avgScore":(.*?),"allCommentNum":(.*?)'
  + ',"address":"(.*?)","avgPrice":(.*?),' , re.S)

items = re.findall(pattern , html)
   for item in items:
   if float(item[ 3]) >= 4.0:
   yield {
   'poiId': item[ 0] ,
   'frontImg': item[ 1] ,
   'title': item[ 2] ,
   'avgScore': item[ 3] ,
   'allCommentNum':item[ 4] ,
   'address': item[ 5] ,
   'avgPrice': item[ 6]
}

def write_to_file(content):
   with open( 'food-meituan.txt' , 'a' , encoding= 'utf-8') as f:
f.write(json.dumps(content , ensure_ascii= False) + ' \n ')
f.close()

def main(n):
url = 'http://sz.meituan.com/meishi/pn'+ str(n)+ '/'
  html = get_one_page(url)

   for item in parse_one_page(html):
   print(item)
write_to_file(item)

if __name__ == '__main__':
   #for i in range(32):
# main(i)
  pool = Pool()
pool.map(main , [ 1 for i in range( 32)])

结果如下：

391899ec09b2dd677c0a9e8d3c7f13fa0ddd3d97

对于后期，可以选择把这个数据落库，常用的可以放在mongodb或者mysql数据库中进行存储。

微信关注我们

原文链接：https://yq.aliyun.com/articles/636414

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

python-进程之间通信、多线程介绍

一、进程之间通信进程的任务有三种状态：运行，就绪，阻塞。加锁可以让多个进程修改同一块数据时，同一时间只能由一个任务可以进行修改，即串行的修改。牺牲了速度，保证了数据安全。虽然可以使用文件共享数据实现进程间的通信，但是效率太低，还需要自己加锁处理。为了解决这些问题，便使用到了multiprocessing模块为我们提供的基于消息的IPC通信机制：队列和管道 1.队列和管道都是将数据存放于内存中 2.队列是基于管道+锁的机制实现的。我们应该尽量避免使用共享数据，多使用队列。队列：创建队列的类： Queue([maxsize]):创建共享的进程队列，Queue是多进程安全的队列，可以使用Queue实现多进程之间的数据传递。 maxsize是队列中允许的最大项数，省略则无大小限制 q = Queue() q.put（）括号里可以是任意类型，不能是大数据主要方法： 1 q.put方法用以插入数据到队列中，put方法还有两个可选参数：blocked和timeout。如果blocked为True（默认值），并且timeout为正值，该方法会阻塞timeout指定的时间，直到该队列有剩...

2018-09-05

605

https://github.com/barryvdh/laravel-ide-helper 安装 composer require --dev barryvdh/laravel-ide-helper 设置服务提供者 config/app.php: Barryvdh\LaravelIdeHelper\IdeHelperServiceProvider::class, 5.5及以上版本不需要设置设置只在开发环境中加载 app/Providers/AppServiceProvider.php: public function register() { if ($this->app->environment() !== 'production') { $this->app->register(\Barryvdh\LaravelIdeHelper\IdeHelperServiceProvider::class); } // ... } 设置自动更新 conposer.json: "scripts":{ "post-update-cmd": [ "Illuminate\\...

2018-09-05

695

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。