Selenium自动登录淘宝，我无意间发现了登录漏洞！-低调大师

Selenium自动登录淘宝，我无意间发现了登录漏洞！

2020-08-04 717

作者：Pineapple_C
原文链接：http://suo.im/6toKOR
注意：本文经过原文作者授权发布，大家可以关注他的博客，和作者一起学习。

这篇文章是一个很好的学习例子，作者能够在学习过程中，不断发现、不断总结，并且能够坚持不懈。

希望大家读完了作者的这篇文章，能够在学习道路上，更有冲劲儿，更有动力。

一、前言

之前写过一篇爬取淘宝商品信息的博客(原来文章的链接如下)，当时还是新手，急于完成爬取目标，干脆手动登录淘宝使浏览器保存我的信息，然后使用本地用户配置控制浏览器，投机取巧地解决了登录问题。

原来文章链接：http://suo.im/67AJKM

虽然这不失为一种方法，但这却让selenium的全自动变成了半自动，不配Python之美。

那么如何全自动登录淘宝呢？起初我是在互联网上找一些资源项目，直接拿来分析，但随着淘宝的反爬机制的增强，他们的这些方法都行不通了。于是我决定，自己动手！

二、分析

为了方便使用，我将整个代码进行了封装，文件名为login，类名为Login，请大家接着往下看。

1）相关依赖

from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.keys import Keys
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium import webdriver
import time

2）构造函数

def __init__(self, username, password):
     """
     初始化浏览器配置和登录信息
     """
     self.url = 'https://login.taobao.com/member/login.jhtml'
     # 初始化浏览器选项
     options = webdriver.ChromeOptions()
     # 禁止加载图片
     options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})
     # 设置为开发者模式
     options.add_experimental_option('excludeSwitches', ['enable-automation'])
     # 加载浏览器选项
     self.browser = webdriver.Chrome(options=options)
     # 设置显式等待时间40s
     self.wait = WebDriverWait(self.browser, 40)
     self.username = username  # 用户名
     self.password = password  # 密码

3）原始登录，使用淘宝账号或手机号登录

def original(self):
    """
    直接使用淘宝账号登录

    :return: None
    """
    self.browser.get(url=self.url)
    try:
        input_username = self.wait.until(EC.presence_of_element_located((
            By.CSS_SELECTOR, 'div.fm-field > div.input-plain-wrap.input-wrap-loginid > input'
        )))
        input_password = self.wait.until(EC.presence_of_element_located((
            By.CSS_SELECTOR, 'div.fm-field > div.input-plain-wrap.input-wrap-password > input'
        )))
        # 等待滑块按钮加载
        div = self.wait.until(EC.presence_of_element_located((
            By.ID, 'nc_1__bg'
        )))
        input_username.send_keys(self.username)
        input_password.send_keys(self.password)
        # 休眠2s，等待滑块按钮加载
        time.sleep(2)
        # 点击并按住滑块
        ActionChains(self.browser).click_and_hold(div).perform()
        # 移动滑块
        ActionChains(self.browser).move_by_offset(xoffset=300, yoffset=0).perform()
        # 等待验证通过
        self.wait.until(EC.text_to_be_present_in_element((
            By.CSS_SELECTOR, 'div#nc_1__scale_text > span.nc-lang-cnt > b'), '验证通过'
        ))
        # 登录
        input_password.send_keys(Keys.ENTER)
        print('Successful !')
    except TimeoutException as e:
        print('Error:', e.args)
        self.original()

其它的结点元素的定位我就不多说了，主要说一下滑块的定位。

利用浏览器定位的话，会定位到 span这个结点，但经过我模仿单击按住，拖拽后滑块一动不动，参数也没有任何改变。于是我尝试了一下它的父节点div还是按住后拖拽，这次成功了。所以有时候不要怀疑自己的代码，有可能是其它方面的问题。

还有关于拖拽还要说明一下，淘宝的登录验证不是极验验证码，不是拖动滑块拼图的操作，而是将滑块拖到最右端。所以，至于这个最右端，只要距离够长，且不超出界面范围，长度随便定！

最后补充一下，偶尔会出现这种情况。

得到这张图也是很不容易啊，因为这种情况真的是太少了。经过反复实验，大概是因为滑动的轨迹不是基本水平导致的，就是说朝着斜下方滑动，虽然也能到达最右端，但会给出这个错误。我的程序是让它水平方向滑动300，竖直方向坐标为0。虽然是水平滑动，但是为了提高程序的容错率，还是加上了一个验证通过的等待。

4）使用新浪微博账号登录，巧妙利用漏洞

提示：在用新浪微博登录之前，请在淘宝上绑定你的新浪账号。

def sina(self):
    """
    使用新浪微博账号登录（提前绑定新浪账号）

    :return: None
    """
    self.browser.get(url=self.url)
    try:
        # 等待新浪登录链接加载
        weibo_login = self.wait.until(EC.element_to_be_clickable((
            By.CSS_SELECTOR, '#login-form a.weibo-login'
        )))
        weibo_login.click()
        input_username = self.wait.until(EC.presence_of_element_located((
            By.CSS_SELECTOR, 'div.info_list > div.inp.username > input.W_input'
        )))
        input_password = self.wait.until(EC.presence_of_element_located((
            By.CSS_SELECTOR, 'div.info_list > div.inp.password > input.W_input'
        )))
        input_username.send_keys(self.username)
        input_password.send_keys(self.password)
        input_password.send_keys(Keys.ENTER)
        # 等待浏览器保存我方信息，网速不好可以设置长一点
        time.sleep(5)
        # 刷新页面
        self.browser.refresh()
        # 等待快速登录按钮加载
        quick_login = self.wait.until(EC.element_to_be_clickable((
            By.CSS_SELECTOR, 'div.info_list > div.btn_tip > a.W_btn_g'
        )))
        quick_login.click()
        print('login successful !')
    except TimeoutException as e:
        print('Error:', e.args)
        self.sina()

关于结点元素的定位我就不多说了，主要说一下这个漏洞。

正常情况下，输入完信息后点击登录，就该进入淘宝页面了，但是这个登录按钮不管怎么点，页面都是无动于衷。

定位一下，可以发现：

这个按钮的链接是javascript:void(0)，假链接！！！

由于我的前端基础不好，不知道这啥意思。我疯狂的在互联网上查找如何使用selenium点击这种链接，可依旧没找到解决的办法。有没有人知道如何处理这种，请给原文作者留言！

然而就在我快放弃的时候，按了下F5刷新，奇迹出现了！

检测到已登录的微博账号，快速登录？？？原来虽然我没有进入淘宝，但是浏览器左下角一直在显示如：等待**相应，正在解析主机等信息。所以淘宝还是保存了我的账号信息，只要下次自动登录的勾打上（默认打勾），它就会保存账号信息。

这就是为什么上面的代码，在输入好信息并回车登录后，要等待5秒，就是让它保存我的账号信息。

最后刷新页面，点击快速登录，大功告成！

三、完整代码及使用方法

1）完整代码

# -*- coding: utf-8 -*-
"""
@author:Pineapple

@contact:cppjavapython@foxmail.com

@time:2020/7/28 9:09

@file:login.py

@desc: login taobao .
"""

from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.keys import Keys
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium import webdriver
import time


class Login:
    def __init__(self, username, password):
        """
        初始化浏览器配置和登录信息
        """
        self.url = 'https://login.taobao.com/member/login.jhtml'
        # 初始化浏览器选项
        options = webdriver.ChromeOptions()
        # 禁止加载图片
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})
        # 设置为开发者模式
        options.add_experimental_option('excludeSwitches', ['enable-automation'])
        # 加载浏览器选项
        self.browser = webdriver.Chrome(options=options)
        # 设置显式等待时间40s
        self.wait = WebDriverWait(self.browser, 40)
        self.username = username  # 用户名
        self.password = password  # 密码

    def original(self):
        """
        直接使用淘宝账号登录

        :return: None
        """
        self.browser.get(url=self.url)
        try:
            input_username = self.wait.until(EC.presence_of_element_located((
                By.CSS_SELECTOR, 'div.fm-field > div.input-plain-wrap.input-wrap-loginid > input'
            )))
            input_password = self.wait.until(EC.presence_of_element_located((
                By.CSS_SELECTOR, 'div.fm-field > div.input-plain-wrap.input-wrap-password > input'
            )))
            # 等待滑块按钮加载
            div = self.wait.until(EC.presence_of_element_located((
                By.ID, 'nc_1__bg'
            )))
            input_username.send_keys(self.username)
            input_password.send_keys(self.password)
            # 休眠2s，等待滑块按钮加载
            time.sleep(2)
            # 点击并按住滑块
            ActionChains(self.browser).click_and_hold(div).perform()
            # 移动滑块
            ActionChains(self.browser).move_by_offset(xoffset=300, yoffset=0).perform()
            # 等待验证通过
            self.wait.until(EC.text_to_be_present_in_element((
                By.CSS_SELECTOR, 'div#nc_1__scale_text > span.nc-lang-cnt > b'), '验证通过'
            ))
            # 登录
            input_password.send_keys(Keys.ENTER)
            print('Successful !')
        except TimeoutException as e:
            print('Error:', e.args)
            self.original()

    def sina(self):
        """
        使用新浪微博账号登录（提前绑定新浪账号）

        :return: None
        """
        self.browser.get(url=self.url)
        try:
            # 等待新浪登录链接加载
            weibo_login = self.wait.until(EC.element_to_be_clickable((
                By.CSS_SELECTOR, '#login-form a.weibo-login'
            )))
            weibo_login.click()
            input_username = self.wait.until(EC.presence_of_element_located((
                By.CSS_SELECTOR, 'div.info_list > div.inp.username > input.W_input'
            )))
            input_password = self.wait.until(EC.presence_of_element_located((
                By.CSS_SELECTOR, 'div.info_list > div.inp.password > input.W_input'
            )))
            input_username.send_keys(self.username)
            input_password.send_keys(self.password)
            input_password.send_keys(Keys.ENTER)
            # 等待浏览器保存我方信息，网速不好可以设置长一点
            time.sleep(5)
            # 刷新页面
            self.browser.refresh()
            # 等待快速登录按钮加载
            quick_login = self.wait.until(EC.element_to_be_clickable((
                By.CSS_SELECTOR, 'div.info_list > div.btn_tip > a.W_btn_g'
            )))
            quick_login.click()
            print('login successful !')
        except TimeoutException as e:
            print('Error:', e.args)
            self.sina()

2）使用

在使用的时候要导入这个Login类，然后初始化这个类，最后登录方法使用相应的函数，文件名为login，类名为Login。

from login import Login

username = '******'  # 账号
password = '******.'  # 密码
# 初始化Login类
login = Login(username, password)
# 使用淘宝账号或手机号登录
login.original()
# 使用新浪微博账号登录
# login.sina()

四、结语

本篇说的是淘宝自动登录，其实还是用了很多投机取巧的方法，比如：拖动滑块的位置没有确定，没有解决javascript:void(0)假链接的问题。

若是淘宝加强了反爬机制，使用极验验证码等，这里的最新版，可能也要被淘汰了，所以还是要接着解决极验验证码啊，以备后续更新！

如有错误，欢迎私信纠正！
技术永无止境，谢谢支持！

关注微信公众号『数据分析与统计学之美』，后台回复"入群" 拉你进群哦，气氛很好滴呀！

喜欢本文点个在看

本文分享自微信公众号 - 数据分析与统计学之美（gh_21c25c7e71d0）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/4579597/blog/4471059

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Java线程生命周期与状态切换

前提最近有点懒散，没什么比较有深度的产出。刚好想重新研读一下JUC线程池的源码实现，在此之前先深入了解一下Java中的线程实现，包括线程的生命周期、状态切换以及线程的上下文切换等等。编写本文的时候，使用的JDK版本是11。 Java线程的实现在「JDK1.2之后」，Java线程模型已经确定了基于操作系统原生线程模型实现。因此，目前或者今后的JDK版本中，操作系统支持怎么样的线程模型，在很大程度上决定了Java虚拟机的线程如何映射，这一点在不同的平台上没有办法达成一致，虚拟机规范中也未限定Java线程需要使用哪种线程模型来实现。线程模型只对线程的并发规模和操作成本产生影响，对于Java程序来说，这些差异是透明的。对应Oracle Sun JDK或者说Oracle Sun JVM而言，它的Windows版本和Linux版本都是使用「一对一的线程模型」实现的（如下图所示）。 j-t-l-s-1.png 也就是一条Java线程就映射到一条轻量级进程（「Light Weight Process」）中，而一条轻量级线程又映射到一条内核线程（「Kernel-Level Thread」）。我们平...

2020-08-05

715

上一次，跟大家科普了小程序的自定义路由routes，开启了路由之旅；今天，顺势就单页面应用路由，跟大家唠个五毛钱，如果唠得不好……退…一块钱？单页面应用特征假设：在一个 web 页面中，有1个按钮，点击可跳转到站内其他页面。多页面应用：点击按钮，会从新加载一个html资源，刷新整个页面；单页面应用：点击按钮，没有新的html请求，只发生局部刷新，能营造出一种接近原生的体验，如丝般顺滑。 SPA 单页面应用为什么可以几乎无刷新呢？因为它的SP——single-page。在第一次进入应用时，即返回了唯一的html页面和它的公共静态资源，后续的所谓“跳转”，都不再从服务端拿html文件，只是DOM的替换操作，是模（jia）拟（zhuang）的。那么js又是怎么捕捉到组件切换的时机，并且无刷新变更浏览器url呢？靠hash和HTML5History。 hash 路由特征类似www.xiaoming.html#bar 就是哈希路由，当 # 后面的哈希值发生变化时，不会向服务器请求数据，可以通过 hashchange 事件来监听到 URL 的变化，从而进行DOM操作来模拟页面跳...

2020-08-05

697

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。