python爬取电影和美食数据实战
from multiprocessing import Pool
from requests.exceptions import RequestException
import re
import json
def get_one_page(url):
try:
headers = {
"user-agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
11
response = requests.get(url , headers=headers)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None
def parse_one_page(html):
pattern = re.compile( '<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>' , re.S)
items =re.findall(pattern ,html)
for item in items:
yield {
'index':item[ 0] ,
'image':item[ 1] ,
'title':item[ 2] ,
'actor':item[ 3].strip()[ 3:] ,
'time': item[ 4].strip()[ 5:] ,
'score': item[ 5] + item[ 6]
}
def write_to_file(content):
with open( 'result.txt' , 'a' , encoding= 'utf-8') as f:
f.write(json.dumps(content , ensure_ascii= False) + ' \n ')
f.close()
def main(offset):
url = 'http://maoyan.com/board/4?offset='+ str(offset)
html = get_one_page(url)
for item in parse_one_page(html):
#print(item)
write_to_file(item)
if __name__ == '__main__':
#for i in range(10):
# main(i*10)
pool = Pool()
pool.map(main ,[i* 10 for i in range( 10)])
from requests.exceptions import RequestException
import re
import json
def get_one_page(url):
try:
headers = {
"user-agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
11
response = requests.get(url , headers=headers)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None
def parse_one_page(html):
pattern = re.compile( '<div class="movie-card-poster">.*?data-src="(.*?)".*?<span class="bt-l">(.*?)</span>.*?<span class="bt-r">(.*?)</span>.*?<div class="movie-card-list">.*?<span>(.*?)</span>'
+ '.*?<span>(.*?)</span>.*?<span>(.*?)</span>.*?<span>(.*?)</span>.*?<span>(.*?)</span>.*?<span>(.*?)</span>' ,re.S)
items = re.findall(pattern , html)
for item in items:
yield {
'image': item[ 0] ,
'title': item[ 1] ,
'score': item[ 2] ,
'director': item[ 3].strip()[ 3:] ,
'actor': item[ 4].strip()[ 3:] ,
'type': item[ 5].strip()[ 3:] ,
'area': item[ 6].strip()[ 3:] ,
'language': item[ 7].strip()[ 3:] ,
'time': item[ 8].strip()[ 3:]
}
def write_to_file(content):
with open( 'movie-hot.txt' , 'a' , encoding= 'utf-8') as f:
f.write(json.dumps(content , ensure_ascii= False) + ' \n ')
f.close()
def main():
url = 'https://www.taopiaopiao.com/showList.htm'
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
write_to_file(item)
if __name__ == '__main__':
main()
from multiprocessing import Pool
from requests.exceptions import RequestException
import re
import json
"""
author 朱培
title 爬取美团(深圳)美食店铺信息,评分大于4.0分的店铺
"""
def get_one_page(url):
try:
headers = {
"user-agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
response = requests.get(url , headers=headers)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None
def parse_one_page(html):
pattern = re.compile( '"poiId":(.*?),"frontImg":"(.*?)","title":"(.*?)","avgScore":(.*?),"allCommentNum":(.*?)'
+ ',"address":"(.*?)","avgPrice":(.*?),' , re.S)
items = re.findall(pattern , html)
for item in items:
if float(item[ 3]) >= 4.0:
yield {
'poiId': item[ 0] ,
'frontImg': item[ 1] ,
'title': item[ 2] ,
'avgScore': item[ 3] ,
'allCommentNum':item[ 4] ,
'address': item[ 5] ,
'avgPrice': item[ 6]
}
def write_to_file(content):
with open( 'food-meituan.txt' , 'a' , encoding= 'utf-8') as f:
f.write(json.dumps(content , ensure_ascii= False) + ' \n ')
f.close()
def main(n):
url = 'http://sz.meituan.com/meishi/pn'+ str(n)+ '/'
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
write_to_file(item)
if __name__ == '__main__':
#for i in range(32):
# main(i)
pool = Pool()
pool.map(main , [ 1 for i in range( 32)])
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
python-进程之间通信、多线程介绍
一、进程之间通信 进程的任务有三种状态:运行,就绪,阻塞。 加锁可以让多个进程修改同一块数据时,同一时间只能由一个任务可以进行修改,即串行的修改。牺牲了速度,保证了数据安全。 虽然可以使用文件共享数据实现进程间的通信,但是效率太低,还需要自己加锁处理。为了解决这些问题,便使用到了multiprocessing模块为我们提供的基于消息的IPC通信机制:队列和管道 1.队列和管道都是将数据存放于内存中 2.队列是基于管道+锁的机制实现的。 我们应该尽量避免使用共享数据,多使用队列。 队列: 创建队列的类: Queue([maxsize]):创建共享的进程队列,Queue是多进程安全的队列,可以使用Queue实现多进程之间的数据传递。 maxsize是队列中允许的最大项数,省略则无大小限制 q = Queue() q.put() 括号里可以是任意类型,不能是大数据 主要方法: 1 q.put方法用以插入数据到队列中,put方法还有两个可选参数:blocked和timeout。如果blocked为True(默认值),并且timeout为正值,该方法会阻塞timeout指定的时间,直到该队列有剩...
- 下一篇
更好的IDE代码提示:laravel-ide-helper
https://github.com/barryvdh/laravel-ide-helper 安装 composer require --dev barryvdh/laravel-ide-helper 设置服务提供者 config/app.php: Barryvdh\LaravelIdeHelper\IdeHelperServiceProvider::class, 5.5及以上版本不需要设置 设置只在开发环境中加载 app/Providers/AppServiceProvider.php: public function register() { if ($this->app->environment() !== 'production') { $this->app->register(\Barryvdh\LaravelIdeHelper\IdeHelperServiceProvider::class); } // ... } 设置自动更新 conposer.json: "scripts":{ "post-update-cmd": [ "Illuminate\\...
相关文章
文章评论
共有0条评论来说两句吧...