一篇文章搞懂Python多线程简单实现和GIL-低调大师

一篇文章搞懂Python多线程简单实现和GIL

2019-04-29 731

公众号：pythonislover

今天开始打算开一个新系列，就是python的多线程和多进程实现，这部分可能有些新手还是比较模糊的，都知道python中的多线程是假的，但是又不知道怎么回事，首先我们看一个例子来看看python多线程的实现。

import threading
import time

def say(name):
        print('你好%s at %s' %(name,time.ctime()))
        time.sleep(2)
        print("结束%s at %s" %(name,time.ctime()))

def listen(name):
    print('你好%s at %s' % (name,time.ctime()))
    time.sleep(4)
    print("结束%s at %s" % (name,time.ctime()))

if __name__ == '__main__':
    t1 = threading.Thread(target=say,args=('tony',))  #Thread是一个类，实例化产生t1对象，这里就是创建了一个线程对象t1
    t1.start() #线程执行
    t2 = threading.Thread(target=listen, args=('simon',)) #这里就是创建了一个线程对象t2
    t2.start()

    print("程序结束=====================")

结果：
你好tony at Thu Apr 25 16:46:22 2019
你好simon at Thu Apr 25 16:46:22 2019
程序结束=====================
结束tony at Thu Apr 25 16:46:24 2019
结束simon at Thu Apr 25 16:46:26 2019
Process finished with exit code 0

python的多线程是通过threading模块的Thread类来实现的。
创建线程对象
t1 = threading.Thread(target=say,args=('tony',)) #Thread是一个类，实例化产生t1对象，这里就是创建了一个线程对象t1
启动线程
t1.start() #线程执行

下面我们分析下上面代码的结果：
你好tony at Thu Apr 25 16:46:22 2019  --t1线程执行
你好simon at Thu Apr 25 16:46:22 2019 --t2线程执行
程序结束===================== --主线程执行
结束tony at Thu Apr 25 16:46:24 2019 --sleep之后，t1线程执行
结束simon at Thu Apr 25 16:46:26 2019 --sleep之后，t2线程执行
Process finished with exit code 0 --主线程结束

我们可以看到主线程的print并不是等t1,t2线程都执行完毕之后才打印的，这是因为主线程和t1,t2 线程是同时跑的。但是主进程要等非守护子线程结束之后，主线程才会退出。

上面其实就是python多线程的最简单用法，但是可能有人会和我有一样的需求，一般开发中，我们需要主线程的print打印是在最后面的，表明所有流程都结束了，也就是主线程结束了。这里就引入了一个join的概念。

import threading
import time

def say(name):
        print('你好%s at %s' %(name,time.ctime()))
        time.sleep(2)
        print("结束%s at %s" %(name,time.ctime()))

def listen(name):
    print('你好%s at %s' % (name,time.ctime()))
    time.sleep(4)
    print("结束%s at %s" % (name,time.ctime()))

if __name__ == '__main__':
    t1 = threading.Thread(target=say,args=('tony',))  #Thread是一个类，实例化产生t1对象，这里就是创建了一个线程对象t1
    t1.start() #线程执行
    t2 = threading.Thread(target=listen, args=('simon',)) #这里就是创建了一个线程对象t2
    t2.start()

    t1.join() #join等t1子线程结束，主线程打印并且结束
    t2.join() #join等t2子线程结束，主线程打印并且结束
    print("程序结束=====================")

结果：
你好tony at Thu Apr 25 16:57:32 2019
你好simon at Thu Apr 25 16:57:32 2019
结束tony at Thu Apr 25 16:57:34 2019
结束simon at Thu Apr 25 16:57:36 2019
程序结束=====================

上面代码中加入join方法后实现了，我们上面所想要的结果，主线程print最后执行，并且主线程退出，注意主线程执行了打印操作和主线程结束不是一个概念，如果子线程不加join，则主线程也会执行打印，但是主线程不会结束，还是需要待非守护子线程结束之后，主线程才结束。

上面的情况，主进程都需要等待非守护子线程结束之后，主线程才结束。那我们是不是注意到一点，我说的是“非守护子线程”，那什么是非守护子线程？默认的子线程都是主线程的非守护子线程，但是有时候我们有需求，当主进程结束，不管子线程有没有结束，子线程都要跟随主线程一起退出，这时候我们引入一个“守护线程”的概念。

如果某个子线程设置为守护线程，主线程其实就不用管这个子线程了，当所有其他非守护线程结束，主线程就会退出，而守护线程将和主线程一起退出，守护主线程，这就是守护线程的意思

看看具体代码，我们这里分2种情况来讨论守护线程，加深大家的理解，
还有一点，这个方法一定要设置在start方法前面

1.设置t1线程为守护线程，看看执行结果

import threading
import time

def say(name):
        print('你好%s at %s' %(name,time.ctime()))
        time.sleep(2)
        print("结束%s at %s" %(name,time.ctime()))

def listen(name):
    print('你好%s at %s' % (name,time.ctime()))
    time.sleep(4)
    print("结束%s at %s" % (name,time.ctime()))

if __name__ == '__main__':
    t1 = threading.Thread(target=say,args=('tony',))  #Thread是一个类，实例化产生t1对象，这里就是创建了一个线程对象t1
    t1.setDaemon(True)
    t1.start() #线程执行
    t2 = threading.Thread(target=listen, args=('simon',)) #这里就是创建了一个线程对象t2
    t2.start()

    print("程序结束=====================")

结果：
你好tony at Thu Apr 25 17:11:41 2019
你好simon at Thu Apr 25 17:11:41 2019
程序结束=====================
结束tony at Thu Apr 25 17:11:43 2019
结束simon at Thu Apr 25 17:11:45 2019

注意执行顺序，
这里如果设置t1为Daemon，那么主线程就不管t1的运行状态，只管等待t2结束， t2结束主线程就结束了
因为t2的时间4秒，t1的时间2秒，主线程在等待t2线程结束的过程中，t1线程自己结束了，所以结果是：
你好tony at Thu Apr 25 14:11:54 2019
你好simon at Thu Apr 25 14:11:54 2019程序结束===============
结束tony at Thu Apr 25 14:11:56 2019  （也会打印，因为主线程在等待t2线程结束的过程中， t1线程自己结束了）
结束simon at Thu Apr 25 14:11:58 2019

2.设置t2为守护线程

import threading
import time

def say(name):
        print('你好%s at %s' %(name,time.ctime()))
        time.sleep(2)
        print("结束%s at %s" %(name,time.ctime()))

def listen(name):
    print('你好%s at %s' % (name,time.ctime()))
    time.sleep(4)
    print("结束%s at %s" % (name,time.ctime()))

if __name__ == '__main__':
    t1 = threading.Thread(target=say,args=('tony',))  #Thread是一个类，实例化产生t1对象，这里就是创建了一个线程对象t1
    t1.start() #线程执行
    t2 = threading.Thread(target=listen, args=('simon',)) #这里就是创建了一个线程对象t2
    t2.setDaemon(True)
    t2.start()

    print("程序结束=====================")


结果：
你好tony at Thu Apr 25 17:15:36 2019
你好simon at Thu Apr 25 17:15:36 2019
程序结束=====================
结束tony at Thu Apr 25 17:15:38 2019

注意执行顺序：
这里如果设置t2为Daemon，那么主线程就不管t2的运行状态，只管等待t1结束， t1结束主线程就结束了
因为t2的时间4秒，t1的时间2秒， 主线程在等待t1线程结束的过程中， t2线程自己结束不了，所以结果是：
你好tony at Thu Apr 25 14:14:23 2019
你好simon at Thu Apr 25 14:14:23 2019
程序结束 == == == == == == == == == == =
结束tony at Thu Apr 25 14:14:25 2019
结束simon at Thu Apr 25 14:11:58 2019 不会打印，因为主线程在等待t1线程结束的过程中， t2线程自己结束不了，t2的时间4秒，t1的时间2秒

不知道大家有没有弄清楚上面python多线程的实现方式以及join,守护线程的用法。

主要方法：

join()：在子线程完成运行之前，这个子线程的父线程将一直被阻塞。
setDaemon(True)：
将线程声明为守护线程，必须在start() 方法调用之前设置， 如果不设置为守护线程程序会被无限挂起。这个方法基本和join是相反的。
当我们在程序运行中，执行一个主线程，如果主线程又创建一个子线程，主线程和子线程 就分兵两路，分别运行，那么当主线程完成
想退出时，会检验子线程是否完成。如 果子线程未完成，则主线程会等待子线程完成后再退出。但是有时候我们需要的是 只要主线程
     完成了，不管子线程是否完成，都要和主线程一起退出，这时就可以 用setDaemon方法啦

其他方法：

run():  线程被cpu调度后自动执行线程对象的run方法
start():启动线程活动。
isAlive(): 返回线程是否活动的。
getName(): 返回线程名。
setName(): 设置线程名。

threading模块提供的一些方法：
threading.currentThread(): 返回当前的线程变量。
threading.enumerate(): 返回一个包含正在运行的线程的list。正在运行指线程启动后、结束前，不包括启动前和终止后的线程。
threading.activeCount():返回正在运行的线程数量，与len(threading.enumerate())有相同的结果。

上面的例子中我们注意到两如果个任务如果顺序执行要6s结束，如果是多线程执行4S结束，性能是有所提升的，但是我们要知道这里的性能提升实际上是由于cpu并发实现性能提升，也就是cpu线程切换（多道技术）带来的，而并不是真正的多cpu并行执行。

上面提到了并行和并发，那这两者有什么区别呢？
并发：是指一个系统具有处理多个任务的能力（cpu切换，多道技术）
并行：是指一个系统具有同时处理多个任务的能力（cpu同时处理多个任务）
并行是并发的一种情况，子集

那为什么python在多线程中为什么不能实现真正的并行操作呢？就是在多cpu中执行不同的线程（我们知道JAVA中多个线程可以在不同的cpu中，实现并行运行）这就要提到python中大名鼎鼎GIL，那什么是GIL?

GIL:全局解释器锁无论你启多少个线程，你有多少个cpu, Python在执行的时候只会的在同一时刻只允许一个线程（线程之间有竞争）拿到GIL在一个cpu上运行，当线程遇到IO等待或到达者轮询时间的时候，cpu会做切换，把cpu的时间片让给其他线程执行，cpu切换需要消耗时间和资源，所以计算密集型的功能（比如加减乘除）不适合多线程，因为cpu线程切换太多，IO密集型比较适合多线程。

任务：
IO密集型（各个线程都会都各种的等待，如果有等待，线程切换是比较适合的），也可以采用可以用多进程+协程
计算密集型（线程在计算时没有等待，这时候去切换，就是无用的切换），python不太适合开发这类功能

我们前面举得例子里面模拟了sleep操作，其实就是相当于遇到IO，这种场景用多线程是可以增加性能的，但是如果我们用多线程来计算数据的计算，性能反而会降低。

下面是GIL的一段原生解释：

In CPython, the global interpreter lock, or GIL, is a mutex that prevents multiple native threads from executing Python bytecodes at once.
This lock is necessary mainly because CPython’s memory management is not thread-safe.
(However, since the GIL exists, other features have grown to depend on the guarantees that it enforces.)

个人见解，望指教

微信关注我们

原文链接：https://yq.aliyun.com/articles/700852

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取

1.煎蛋网XXOO-写在前面很高兴我这系列的文章写道第18篇了，今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx，这个网站其实还是有点意思的，网站很多人写了N多的教程了，各种方式的都有，当然网站本身在爬虫爱好者的不断进攻下，也在不断的完善，反爬措施也很多，今天我用selenium在揍他一波。整体看上去，煎蛋网的妹子图质量还是可以的，不是很多，但是还蛮有味道的，这可能也是爬虫er，一批一批的奔赴上去的原因。 2. 煎蛋网XXOO-网站分析这个网站如果用 selenium 爬取，其实也没什么要分析的,模拟访问就行，导入必备的模块。 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from lxml import...

2019-04-29

647

公众号：pythonislover 前面说到过python多线程的基本使用，大概的内容有几点 1.创建线程对象 t1 = threading.Thread(target=say,args=('tony',)) 2.启动线程 t1.start() 后面又说了两个点就是join和守护线程的概念但是不知道大家有没有注意到一点就是前面说的两个功能是相互独立的，相互不干涉的，不会用到同享的资源或者数据，如果我们多个线程要用到相同的数据，那么就会存在资源争用和锁的问题，不管在什么语言中，这个都是不能避免的。对数据库属性的同学应该也了解，数据库中也存在锁的概念。今天这篇文章我们说说python多线程中的同步锁，死锁和递归锁的使用。 Python同步锁锁通常被用来实现对共享资源的同步访问。为每一个共享资源创建一个Lock对象，当你需要访问该资源时，调用acquire方法来获取锁对象（如果其它线程已经获得了该锁，则当前线程需等待其被释放），待资源访问完后，再调用release方法释放锁。下面我们来举个例子说明如果多线程在没有同步锁的情况下访问公共资源会导致什么情况 import threadin...

2019-04-29

536

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。