JS动态加载以及JavaScript void(0)的爬虫解决方案-低调大师

JS动态加载以及JavaScript void(0)的爬虫解决方案

2019-03-27 509

Intro

对于使用JS动态加载, 或者将下一页地址隐藏为JavaScript void(0)的网站, 如何爬取我们要的信息呢?

本文以Chrome浏览器为工具, 36Kr为示例网站, 使用 Json Handle 作为辅助信息解析工具, 演示如何抓取此类网站.

Detail

Step 1. 按下 F12 或右键`检查`进入开发者工具

Step 2. 选中Network一栏, 筛选`XHR`请求

XHR 即 XMLHttpRequest , 可以异步或同步返回服务器响应的请求, 并且能够以文本或者一个 DOM 文档的形式返回内容.

JSON是一种与XML在格式上很像, 但是占用空间更小的数据交换格式, 全程是 JavaScript Object Notation, 本文中的36Kr动态加载时获取到的信息就是JSON类型的数据.

网站为了节省空间, 加快响应, 常常没有对 JSON 进行格式化, 导致 JSON 的可读性差, 难以寻找我们要的信息.

我们通过右键打开获取到的 XHR 请求, 然后看看数据是怎样的

使用 Json Handle 后的数据可读性就很高了

Step 3. 分析 URL

结合上面的截图, 分析这条 URL
https://36kr.com/api/newsflash?column_ids=69&no_bid=false&b_id=126035&per_page=20&_=1530699384159

这中间有两个参数很容易可以知道它的用途, 第一个是per_page=20, 第二个是_=1530699384159
第一个参数是我们每次滚动后可以获取到的信息条数, 第二个是时间戳

试着改第一个参数改为10, 可以看到条数就变为10了.

改为1000呢? 很遗憾, 最大值只有300. 换算下来, 就是最多允许爬 15 页

滑动了超过15页发现仍然有信息显示, 经过转换, 发现它的时间戳只是浏览网页生成的时间戳, 与内容无关
按了几个数字, 修改了b_id的值, 发现内容确实发生了改变, 但b_id又是网站设定的规则, 无从入手

改了no_bid为true似乎没有变化, 接着修改了column_id为70, 发现新闻的内容发生改变, 合理猜测这个应该是新闻标签的id.

至此, 我们已大致了解整个 URL 的含义

per_page 每次滑动可以获得的数据条目, 最大值为300
column_ids 新闻内容标签, 69为资本, 68为B轮后等

b_id 新闻集合的某种id
时间戳 记录当前的浏览时间

最后把原本的 URL 缩减为
https://36kr.com/api/newsflash?column_ids=69&no_bid=true&b_id=&per_page=300

舍弃了b_id, 同时删去时间戳, 防止服务器发现每次接收到的请求时间都是一样的

经过测试, 上述的 URL 是可以获取信息的

Step 4. 开始爬虫

接下来的步骤与平时爬虫类似.
不同的是获取信息不再通过Xpath这些工具, 而是直接通过 JSON 取值

取值方式简单粗暴, 点击对应的内容就可以看路径了

接着用scrapy shell工具测试下正确性, 然后就可以写代码了.

由于新闻来源隐藏在description, 经过观察, 不难发现它的规律, 写一条正则获取即可, 如果结果为空, 则说明来源是36Kr
src_pattern = re.compile('。（(.*)）')

Source Code

Spider

# -*- coding: utf-8 -*-
import scrapy
import json
import re
from scrapy import Request
from ..items import FinvestItem


class A36krSpider(scrapy.Spider):
    name = '36kr'
    allowed_domains = ['36kr.com']
    start_urls = ['https://36kr.com/api/newsflash?column_ids=69&no_bid=true&b_id=&per_page=300']

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',
    }

    def start_request(self):
        yield Request(self.start_urls, headers=self.headers)

    def parse(self, response):
        item = FinvestItem()
        # 转化为 unicode 编码的数据
        sites = json.loads(response.body_as_unicode())

        src_pattern = re.compile('。（(.*)）')

        for i in sites['data']['items']:
            item['link'] = i['news_url']
            item['title'] = i['title']
            if src_pattern.search(i['description']) == None:
                item['source'] = "36Kr"
            else:
                item['source'] = src_pattern.search(i['description']).group(1)
            item['create_time'] = i['published_at']
            item['content'] = i['description']
            
            yield item

Pipeline

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymongo
import re
from scrapy.conf import settings


class FinvestPipeline(object):

    def __init__(self):
        """
        use for connecting to mongodb
        """
        # connect to db
        self.client = pymongo.MongoClient(host=settings['MONGO_HOST'], port=settings['MONGO_PORT'])
        # ADD if NEED account and password
        # self.client.admin.authenticate(host=settings['MONGO_USER'], settings['MONGO_PSW'])
        self.db = self.client[settings['MONGO_DB']]
        self.coll = self.db[settings['MONGO_COLL']]

    def process_item(self, item, spider):
        content = item['content']
        title = item['title']

        fin = re.compile(r'(?:p|P)re-?(?:A|B)轮|(?:A|B|C|D|E)+?1?2?3?轮|(?:天使轮|种子|首)轮|IPO|轮|(?:p|Pre)IPO')
        
        result = fin.findall(title)
        if(len(result) == 0):
            result = "未透露"
        else:
            result = ''.join(result)

        content = content.replace(u'<p>', u' ').replace(u'</p>', u' ').replace(u'\n\t', ' ').strip()
        # delete html label in content
        rule = re.compile(r'<[^>]+>', re.S)
        content = rule.sub('', content)


        item['content'] = content
        item['funding_round'] = result
        self.coll.insert(dict(item))
        return item

GitHub项目地址 finvest-spider

正在建设和维护中, 欢迎 star 和 issue.

欢迎关注公众号: 程序员的碎碎念

微信关注我们

原文链接：https://yq.aliyun.com/articles/695557

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

爬虫的另一种思路 -- 从 robots.txt 中找到抓取入口

近两年出现曾报道一些关于非法抓取数据的程序员被告上法庭的事例, 而非法抓取的一个典型做法就是不遵守网站的 robots.txt 规则进行爬取. 早年就曾有搜索引擎不遵守淘宝的 robots.txt 还去收录网站的信息被告的案例. 在 Scrapy 中的 settings.py 中默认是遵守 robots.txt 的, 一般我们也不会去关闭. 禁止示例今天在做收集新闻数据爬虫的时候便碰到被 robots.txt 禁止的情况. 笔者在拿到网站 json 数据接口准备测试的时候, 发现网站的响应内容为空, 而浏览器仍可正常访问. 再看回终端的输出, 才发现被禁止访问了, 正是由 robots.txt 禁止的那么, robots.txt 里面说了什么?打开浏览器访问会看到下面的内容. 第一行 User-Agent 用户代理是说明访问人身份的, 如果用户代理的名称为 MJ12bot 的会直接禁止访问全站内容. 不信? 将settings.py 中的用户代理设置为下面的 USER_AGENT = 'MJ12bot', 然后scrapy shell 访问 https://www.jiemod...

2019-03-28

523

HttpClient在多线程环境下踩坑总结问题现场在多线程环境下使用HttpClient组件对某个HTTP服务发起请求，运行一段时间之后发现客户端主机CPU利用率呈现出下降趋势，而不是一个稳定的状态。而且，从程序日志中判断有线程处于夯住的状态，应该是被阻塞了。CPU使用率逐步下降问题排查一开始找不到原因，怀疑是多线程并发导致的死锁问题，但是通过代码审查并未定位到任何可能的多线程并发问题。甚至开始怀疑是否是因为内存资源不够引起JVM频繁GC到导致业务线程被暂停，但是从GC的日志输出结果看，GC是正常的。于是，进入一种丈二和尚摸不着头脑头脑的状态，再次Review代码，发现并未设置请求超时时间，于是设置超时控制，发现问题依然存在，彻底懵逼了。最后，dump线程堆栈和内存堆栈，再对堆栈数据进行分析。从分析结果看，确认是因为Socket连接在读取数据时被阻塞引起线程夯住。搜索“httpclient 超时”关键字，找到各式各样设置HttpClient超时控制的方式，均尝试过但是并未生效。实际上到后来才知道，HttpCient的超时控制在不同的版本中设置请求超时参数的方式均各不相同，这才导致了我...

2019-03-28

632

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。