图解Go里面的WaitGroup了解编程语言核心实现源码

2019-12-25 737

1. 基础筑基

sync.WaitGroup里面的实现逻辑其实蛮简单的，在看过之前的sync.Mutex和synx.RWMutex之后，阅读起来应该非常简单，而唯一有差异的其实就是sync.WaitGroup里面的state1

1.1 等待机制

sync.WaitGroup主要用于等待一组goroutine退出，本质上其实就是一个计数器，我们可以通过Add指定我们需要等待退出的goroutine的数量，然后通过Done来递减，如果为0,则可以退出

1.2 内存对齐

内存对齐是一个比较大的话题，其核心机制是编译器根据结构体内部元素的size结合平台和编译器自身的规则来进行补位，而在sync.WaitGroup里面就有用到，也是我感觉可能在WaitGroup所有实现的核心特性里面最重要的一条了

在WaitGroup里面只有state1 [3]uint32这一个元素，通过类型我们可以计算uint32是4个字节，长度3的数组总长度12，其实之前这个地方是[12]byte, 切换uint32是go语言里面为了让底层的编译器保证按照4个字节对齐而做的切换

1.3 8字节

8字节即两个4字节，也就是两个uint32的长度，实际上也是一个uint64的长度，在sync.WaitGroup里面通过uint64来进行等待数量的计数

这里有一个相对比较hack的问题，我翻阅过很多文章，都没有找到能让我完全信服的答案，接下来就是我自己的臆测了

1.4 8字节的臆测

首先go语言需要兼容32位和64位平台，但是在32位平台上对64字节的uint操作可能不是原子的，比如在读取一个字长度的时候，另外一个字的数据很有可能已经发生改变了(在32位操作系统上,字长是4，而uint64长度为8)，所以在实际计数的时候，其实sync.WaitGroup也就使用了4个字节来进行

在cpu内有一个cache line的缓存，这个缓存通常是8个字节的长度，在intel的cpu中，会保证针对一个cache line的操作是原子，如果只有8个字节很有可能会出现上面的这种情况，即垮了两个cache line, 这样不论是在原子操作还是性能上可能都会有问题

1.5 测试8字节指针

我这里简单构造了一个8字节的长度指针，来做演示，通过读取底层数组的指针和偏移指针(state1数组的第2个元素即index=1)的地址，可以验证猜想即在经过编译器进行内存分配对齐之后，如果当前元素的指针的地址不能为8整除，则其第地址+4的地址，可以被8整除(这里感觉更多的是在编译器层才能看到真正的东西，而我对编译器本身并不感兴趣，所以我只需要一个证明，可以验证结果即可)

import (
	"unsafe"
)

type a struct {
	b byte
}

type w struct {
	state1 [3]uint32
}

func main() {
	b := a{}
	println(unsafe.Sizeof(b), uintptr(unsafe.Pointer(&b)), uintptr(unsafe.Pointer(&b))%8 == 0)
	wg := w{}
	println(unsafe.Sizeof(wg), uintptr(unsafe.Pointer(&wg.state1)), uintptr(unsafe.Pointer(&wg.state1))%8 == 0)
	println(unsafe.Sizeof(wg), uintptr(unsafe.Pointer(&wg.state1[1])), uintptr(unsafe.Pointer(&wg.state1[1]))%8 == 0)
}

输出结果

1 824633919343 false
12 824633919356 false
12 824633919360 true

1.6 分段计数

在sync.WaitGroup中对上面的提到的8字节的uint64也是分段计数，即高位记录需要等待 Done的数量，而低位记录当前正在Wait等待结束的计数

2. 源码速读

1.核心原理就是通过之前说的64位的uint64来进行计数，采用高位记录需要Done的数量，低位记录Wait的数量 2.如果发现当前count>0则Wait的goroutine会进行排队 3.任务完成后的goroutine则进行Done操作，直到count==0,则完成，就唤醒所有因为wait操作睡眠的goroutine

2.1 计数与信号量

就像基础部分说的那样，针对12字节的[3]uint32会根据当前指针的地址来进行计算，确定采用哪个分段进行计数和做为信号量等待，详细的说明上面已经提过，这里只是根据采取的分段，然后将对应的分段转换为*uint64的指针和一个uint32的指针就可以了

func (wg *WaitGroup) state() (statep *uint64, semap *uint32) {
    if uintptr(unsafe.Pointer(&wg.state1))%8 == 0 {
        return (*uint64)(unsafe.Pointer(&wg.state1)), &wg.state1[2]
    } else {
        return (*uint64)(unsafe.Pointer(&wg.state1[1])), &wg.state1[0]
    }
}

2.2 添加等待计数

func (wg *WaitGroup) Add(delta int) {
    // 获取当前计数
    statep, semap := wg.state()
    if race.Enabled {
        _ = *statep // trigger nil deref early
        if delta < 0 {
            // Synchronize decrements with Wait.
            race.ReleaseMerge(unsafe.Pointer(wg))
        }
        race.Disable()
        defer race.Enable()
    }
    // 使用高32位进行counter计数
    state := atomic.AddUint64(statep, uint64(delta)<<32)
    v := int32(state >> 32) // 获取当前需要等待done的数量
    w := uint32(state) // 获取低32位即waiter等待计数
    if race.Enabled && delta > 0 && v == int32(delta) {
        // The first increment must be synchronized with Wait.
        // Need to model this as a read, because there can be
        // several concurrent wg.counter transitions from 0.
        race.Read(unsafe.Pointer(semap))
    }
    if v < 0 {
        panic("sync: negative WaitGroup counter")
    }
    if w != 0 && delta > 0 && v == int32(delta) {
        panic("sync: WaitGroup misuse: Add called concurrently with Wait")
    }
    // 如果当前v>0,则表示还需要继续未完成的goroutine进行Done操作
    // 如果w ==0,则表示当前并没有goroutine在wait等待结束
    // 以上两种情况直接返回即可
    if v > 0 || w == 0 {
        return
    }
    // 当waiters > 0 的时候，并且当前v==0，这个时候如果检查发现state状态前后发生改变，则
    // 证明当前有人修改过，则删除
    // 如果走到这个地方则证明经过之前的操作后，当前的v==0,w!=0,就证明之前一轮的Done已经全部完成，现在需要唤醒所有在wait的goroutine
    // 此时如果发现当前的*statep值又发生了改变，则证明有有人进行了Add操作
    // 也就是这里的WaitGroup滥用
    if *statep != state {
        panic("sync: WaitGroup misuse: Add called concurrently with Wait")
    }
    // 将当前state的状态设置为0，就可以进行下次的重用了
    *statep = 0
    for ; w != 0; w-- {
        // 释放所有排队的waiter
        runtime_Semrelease(semap, false)
    }
}

2.2 Done完成一个等待事件

func (wg *WaitGroup) Done() {
    // 减去一个-1
    wg.Add(-1)
}

2.3 等待所有操作完成

func (wg *WaitGroup) Wait() {
    statep, semap := wg.state()
    if race.Enabled {
        _ = *statep // trigger nil deref early
        race.Disable()
    }
    for {
        // 获取state的状态
        state := atomic.LoadUint64(statep)
        v := int32(state >> 32) // 获取高32位的count
        w := uint32(state) // 获取当前正在Wait的数量
        if v == 0 { // 如果当前v ==0就直接return， 表示当前不需要等待
            // Counter is 0, no need to wait.
            if race.Enabled {
                race.Enable()
                race.Acquire(unsafe.Pointer(wg))
            }
            return
        }
        // 进行低位的waiter计数统计
        if atomic.CompareAndSwapUint64(statep, state, state+1) {
            if race.Enabled && w == 0 {
                // Wait must be synchronized with the first Add.
                // Need to model this is as a write to race with the read in Add.
                // As a consequence, can do the write only for the first waiter,
                // otherwise concurrent Waits will race with each other.
                race.Write(unsafe.Pointer(semap))
            }
            // 如果成功则进行排队休眠等待唤醒
            runtime_Semacquire(semap)
            // 如果唤醒后发现state的状态不为0，则证明在唤醒的过程中WaitGroup又被重用，则panic
            if *statep != 0 {
                panic("sync: WaitGroup is reused before previous Wait has returned")
            }
            if race.Enabled {
                race.Enable()
                race.Acquire(unsafe.Pointer(wg))
            }
            return
        }
    }
}

参考文章

关于cpu cache line大小原子操作

关注公告号阅读更多源码分析文章

更多文章关注 www.sreguide.com

本篇文章由一文多发平台ArtiPub自动发布

微信关注我们

原文链接：https://my.oschina.net/u/4131034/blog/3147331

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

图解Go里面的互斥锁mutex了解编程语言核心实现源码

1. 锁的基础概念 1.1 CAS与轮询 1.1.1 cas实现锁在锁的实现中现在越来越多的采用CAS来进行，通过利用处理器的CAS指令来实现对给定变量的值交换来进行锁的获取 1.1.2 轮询锁在多线程并发的情况下很有可能会有线程CAS失败，通常就会配合for循环采用轮询的方式去尝试重新获取锁 1.2 锁的公平性锁从公平性上通常会分为公平锁和非公平锁，主要取决于在锁获取的过程中，先进行锁获取的线程是否比后续的线程更先获得锁，如果是则就是公平锁：多个线程按照获取锁的顺序依次获得锁，否则就是非公平性 1.3 饥饿与排队 1.3.1 锁饥饿锁饥饿是指因为大量线程都同时进行获取锁，某些线程可能在锁的CAS过程中一直失败，从而长时间获取不到锁 1.3.2 排队机制上面提到了CAS和轮询锁进行锁获取的方式，可以发现如果已经有线程获取了锁，但是在当前线程在多次轮询获取锁失败的时候，就没有必要再继续进行反复尝试浪费系统资源，通常就会采用一种排队机制，来进行排队等待 1.4 位计数在大多数编程语言中针对实现基于CAS的锁的时候，通常都会采用一个32位的整数来进行锁状态的存储 2. mutex...

2019-12-23

711

PEP原文： https://www.python.org/dev/peps/pep-0318 PEP标题： Decorators for Functions and Methods PEP作者： Kevin D. Smith, Jim J. Jewett, Skip Montanaro, Anthony Baxter 创建日期： 2003-06-05 合入版本： 2.4 译者：豌豆花下猫（Python猫公众号作者） PEP翻译计划：https://github.com/chinesehuazhou/peps-cn 内容警告警告警告摘要动机为什么这很难？背景关于“Decorator”名称设计目标当前语法语法的选择装饰器位置语法形式为什么是@？当前实现与历史社区共识例子（不再是）未决问题参考资料版权警告警告警告本文档旨在描述装饰器语法和做出决定的过程。它既不试图涵盖大量潜在的替代语法，也不试图详尽列出每种形式的所有优点和缺点。摘要当前用于转换函数和方法的方式（例如，将它们声明为类或静态方法）很笨拙，并且可能导致难以理解的代码。在理想的情...

2019-12-29

931

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。