Python爬取猫眼「碟中谍」全部评论-低调大师

Python爬取猫眼「碟中谍」全部评论

2018-09-01 560

实现目标

昨天晚上看完碟中谍后，有点小激动，然后就有了这片文章。
我们将猫眼上碟中谍的全部评论保存下来，用于后期分析～
总共评论3W条左右。

逻辑梳理

猫眼PC网页只能查看热门评论，只有在手机端页面才能查看全部评论。我们用chrome手机模式打开碟中谍6的页面，然后找到了全部评论入口：
当我们将评论页面向上拖，后台请求中变看到了我们想要的接口地址：http://m.maoyan.com/mmdb/comments/movie/341737.json?_v_=yes&offset=15&startTime=2018-09-02%2013%3A33%3A14
请求地址中的参数：
- offset：偏移量
- startTime：查询起始时间
- 341737：电影ID
- 还有一个V不知道啥意思，不过没啥影响
其实正常来说到这儿就差不多了，按照以往的套路循环传入offset参数就好了，不过当我爬到第67页的时候，就已经不返回值了，为啥是67，67 $\times$ 15=1005，猫眼应该是控制了每个startTime只能往前取1000条评论，所以只能换个思路，将每页最早一条评论的时间作为startTime传入，offset固定15就好了。
最后效果

代码部分

Talk is cheap. Show me the code.

# -*- coding:utf-8 -*-
import requests
from datetime import datetime
import time
from tqdm import tqdm
from random import random

class MaoYan():
    """docstring for ClassName"""
    def __init__(self, movie_id):
        print '*******MaoYan_spider******'
        print 'Author :     Awesome_Tang'
        print 'Date   :       2018-09-01'
        print 'Version:        Python2.7'
        print '**************************\n'
        self.movie_id = movie_id
        self.starttime = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        self.starturl = 'http://m.maoyan.com/mmdb/comments/movie/%s.json?_v_=yes&offset=0&startTime=%s'%(movie_id,self.starttime)
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'}
        
    def GetCommentNum(self):
        '''
        查询总评论数
        用于建立循环
        '''
        response = requests.get(self.starturl,headers = self.headers)
        text = response.json()
        num = text['total']
        print '>>>>查询时间：%s\n>>>>评论数量：%s'%(self.starttime,num)
        return num

    def FormatUrl(self,starttime):
        url = 'http://m.maoyan.com/mmdb/comments/movie/%s.json?_v_=yes&offset=15&startTime=%s'%(self.movie_id,starttime)
        return url

    def QueryComent(self,url):
        '''
        评论请求部分
        nickName:用户昵称
        cityName:城市
        content:评论内容
        score:用户评分
        startTime:评论时间，每次取最早的时间传入下次请求
        '''
        time.sleep(random())
        try:    
            response = requests.get(url, headers = self.headers, timeout = 5)
            if response.status_code == 200:
                attrs = ''
                comments = response.json()['cmts']
                for index in range(15):
                    try:
                        nickName = comments[index]['nickName']
                        cityName = comments[index]['cityName']
                        content = comments[index]['content']
                        score = comments[index]['score']
                        startTime = comments[index]['startTime']
                        param = '%s|%s|%s|%s|%s\n'%(startTime,nickName,cityName,score,content)
                        attrs = attrs+param
                    except KeyError as e:
                        attrs = ''      
                return attrs ,startTime, True
            else:
                print '>>>>查询过于频繁，请休息几分钟️️'
                return response.content.encode('utf-8'),'',False
        except BaseException as e:
            print '>>>>请检查网络...'
            print response.content.decode('utf-8')
            return e.message,'',False

    def SaveComent(self):
        '''
        保存评论到txt文件
        如果请求成功保存，失败sleep100秒
        tqdm用于实现进度条
        '''
        num = self.GetCommentNum()
        pages = num/15
        with open('comment.txt','a+') as f:
            for i in tqdm(range(pages)):
                if i == 0:
                    starttime = self.starttime
                    url = self.FormatUrl(starttime)
                    attrs,starttime,IsOk = self.QueryComent(url)
                else:
                    url = self.FormatUrl(starttime)
                    attrs,starttime,IsOk = self.QueryComent(url)
                if IsOk:
                    f.write(attrs.encode('utf-8'))
                else:
                    while True:
                        time.sleep(100)
                        attrs,starttime,IsOk = self.QueryComent(url)
                        if IsOk:
                            f.write(attrs.encode('utf-8'))
                            break
                        else:
                            continue
            print '>>>>评论保存完毕...'



if __name__ == '__main__':
    p = MaoYan('341737')
    p.SaveComent()

最后

评论算保存完了，近期会再做一个关于此次数据的可视化分析。另外阿汤哥真心太帅了，全程打肾上腺素，各位还没去看的赶紧～

skr～skr～～

微信关注我们

原文链接：https://yq.aliyun.com/articles/637181

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

java源码 - CyclicBarrier

开篇 CyclicBarrier是一个同步工具类，它允许一组线程互相等待，直到到达某个公共屏障点。与CountDownLatch不同的是该barrier在释放等待线程后可以重用，所以称它为循环（Cyclic）的屏障（Barrier）。 CyclicBarrier支持一个可选的Runnable命令，在一组线程中的最后一个线程到达之后（但在释放所有线程之前），该命令只在每个屏障点运行一次。若在继续所有参与线程之前更新共享状态，此屏障操作很有用。 CyclicBarrier的内部实现逻辑基于ReentrantLock实现，可以理解为ReentrantLock的上层应用者，通过ReentrantLock的Condtion实现线程的休眠和唤醒。 CyclicBarrier用法demo public class Test { public static void main(String[] args) { int N = 4; CyclicBarrier barrier = new CyclicBarrier(N); for(int i=0;i<N;i++) new Writer(barri...

2018-09-02

573

在了解Java内存模型之前，先来看一下多核硬件架构。我们应该都知道，计算机在执行程序的时候，每条指令都是在CPU中执行的，而执行的时候，又免不了要和数据打交道。而计算机上面的数据，是存放在主存当中的，也就是计算机的物理内存啦。刚开始，还相安无事的，但是随着CPU技术的发展，CPU的执行速度越来越快。而由于内存的技术并没有太大的变化，所以从内存中读取和写入数据的过程和CPU的执行速度比起来差距就会越来越大,这就导致CPU每次操作内存都要耗费很多等待时间。所以，人们想出来了一个好的办法，就是在CPU和内存之间增加高速缓存。缓存的概念大家都知道，就是保存一份数据拷贝。他的特点是速度快，内存小，并且昂贵。再随着市场对CPU计算能力的需要，于是出现了多核CPU，每个核都有各自的缓存。下图简单描述了多核硬件架构的实现。现代计算机硬件，几乎都是多核处理器实现。打开Windows的任务管理器，可以核心数，还可以看到处理器的缓存。如下图红框：可以清晰的看到L1、L2、L3三级缓存。计算机内部的缓存架构(CPU三级缓存) 缓存大大缩小了高速CPU与低速内存之间的差距。以三层缓存架构为例： L...

2018-09-02

609

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。