如何一步步提升Go内存缓存性能-低调大师

如何一步步提升Go内存缓存性能

2022-02-10 586

本文记录了ecachev1.0.5到v1.1.0的性能优化过程

背景介绍

ecache是一款极简设计、高性能、并发安全、支持分布式一致性的轻量级内存缓存，支持LRU和LRU-2两种模式
项目地址：https://github.com/orca-zhang/ecache

准备工作

原则

基于真实的度量。——《重构——改善现有代码的设计》P69 哪怕你完全了解系统，也请实际度量它的性能，不要臆测。臆测会让你学到一些东西，但十有八九你是错的。

思路

我期望能够有一个仓库，每次优化以后，都能横向比较同类库之间的性能，并且通过直观的柱状图之类的图表展示出来，于是有了benchplus/gocache项目，它是一个持续基准测试的项目。
第一版我设计了写入和读取整型、写入1K/1M数据、写入小对象（bigcache和freecache需要序列化）、写满以后继续写入整型等用例。第二版又增加了并发读写、GC耗时、命中率、内存占用等用例。

工具

golang pprof
graphivs（用来生成剖析结果图片）
- mac下安装命令：brew install graphviz

步骤

运行一次ecache的测试用例

sh>GO111MOUDLE=off go test -bench=BenchmarkGetInt_ecache ecache_test.go -cpuprofile=cpu.prof

剖析结果文件

sh>go tool pprof benchplus.test cpu.prof
交互模式下：(pprof) svg

分析生成的svg图

优化一：读取性能（从100ns/op到40ns/op）

总体还是比较符合预期的，毕竟在性能方面已经有所考量和侧重，但是在最初的测试中，优势依然不是特别明显，比如读取性能，最快的bigcache读取整型值的性能在 80ns/op 左右，但是ecache在第一版只能跑出 100ns/op 左右的性能。

`hashCode`占了总耗时的50%

分析剖析结果，发现大部分时间花在了string转[]byte产生临时对象的产生和销毁上
优化思路：换一种hash方法，按照以前的经验，BKRD和AP的分布性比较好，BKRD实现更简单，性能也不错，所以选择BKRD替代CRC32【commit-0e7aaaae】

    func hashBKRD(s string) (hash int32) {
        for i := 0; i < len(s); i++ {
            hash = hash*131 + int32(s[i])
        }
        return hash
    }

继续剖析——`time.Now()`占了总耗时的33%

优化思路：由于内部只需要时间戳，并且缓存系统要求的时间戳并不一定那么精准，所以考虑用维护一个全局时间戳的方式来优化———短期自增（每100ms）、定期校准（约1s）
time.Now()【代码版本快照】改为内部计时器【commit-8dc1fa7d】，获取当前时间使用内部的now()方法可直接获得时间戳，而不再需要使用会产生临时对象的time.Now().UnixNano()
内部计时器最初采用time.Timer实现，实际测试发现定时器会受系统压力影响，精度无法保证，后改为time.Sleep【commit-92245e4b】

var clock = time.Now().UnixNano()

func now() int64 { return atomic.LoadInt64(&clock) }

func init() {
    go func() {
        for {
            atomic.StoreInt64(&clock, time.Now().UnixNano()) // 每秒校准
            for i := 0; i < 9; i++ {
                time.Sleep(100 * time.Millisecond)
                atomic.AddInt64(&clock, int64(100*time.Millisecond))
            }
            time.Sleep(100 * time.Millisecond)
        }
    }()
}

本次优化完成以后，读取整型性能提升至40ns/op，从设计的指标来看，ecache的数据都已名列前茅

优化二：GC耗时（从3倍耗时到超越）

虽然通过bigcache提供的bench，得到的数据比bigcache本身要好（后分析可能是因为在平时写入时把GC耗时分担到了总耗时，而bench里没有总耗时统计），但是随后又添加的并发读写测试和GC测试中发现ecache优势不明显，比如写整型值的GC耗时是当时最快的bigcache（80ms左右）的2倍多（200ms左右），写1K数据的GC耗时是当时最快的freecache的3倍多。
从剖析结果来看，重点方向在三个方面
- 减少临时对象产生
- 减少栈对象逃逸到堆（避免返回指针）
- interface性能较差（存储小对象时，相比拷贝没有优势）

针对双链表的改进思路

双链表节点实现成不需要产生临时节点指针的形式

用一次性预分配的连续区域存储节点
用索引列表来表达双链表

type node struct {
    k        string
    v        value
    expireAt int64 // 纳秒时间戳，为0说明被标记删除
}

type cache struct {
    dlnk [][2]uint16       // 双链表索引列表，第0个元素存储{尾节点索引，头节点索引}，其他元素存{前序节点索引，后继节点索引}
    m    []node            // 预分配连续空间内存
    hmap map[string]uint16 // <key，dlnk中的位置>
    last uint16            // 没有满时，分配到的位置
}

一些取巧的设计
- 只用一个last字段和连续节点空间的容量比较来判断是否分配满if c.last == uint16(cap(c.m)) // 分配满了
- 用uint16类型存储索引，节省空间的同时，配合桶的数量，足够大
- dlnk用n+1个元素来存储索引，每个元素都是{前序节点索引, 后继节点索引}
- 索引为0代表空，刚好dlnk[0]存储的是{尾节点索引，头节点索引}
- 因为头尾节点和其他节点存储在一起，复用adjust方法，通过参数就能实现将元素移动到头部还是尾部的功能
  - ajust(x, p, n)移动到头部
  - ajust(x, n, p)移动到尾部
- 删除元素时复用时间戳，设置为0代表删除，并且移动到链表尾部
调整完效果还不错，mallogc缩短了、_refresh时候的gcWriteBarrier也不见了

进一步优化

interface的问题还没有解决，尝试直接用int64存储value，性能好很多，比bigcache要快，但是这并不是ecache设计的初衷，我们期望能够适应不同场景，并且能存储不同类型的对象
先尝试用一个包装器把interface类型和int64类型分开放置

    type value struct {
        v *interface{} // 存放任意类型
        i int64        // 存放整型
    }

但是性能差很多，剖析发现是包装以后的临时对象太多，于是尝试用1000大小的ringbuffer实现了一个对象池，优化了分配性能，结果能和bigcache相同了，感兴趣的可以了解一下源码
不过最终没有使用，因为灵机一动，发现node的value字段，不用对象指针（单纯栈对象拷贝赋值）和用指针加ringbuffer性能是一样的（好险！差点就变复杂了😅）

还差最后一步

整型的耗时问题优化完了，还有freecache写入1K的问题不是吗，我一直在想，他为什么能这么快，甚至还看了他的源码，不过偷师没成
经历了将近一整天的各种优化（尝试使用reflect2判断类型；cacheline优化）都没效果，差点就放弃了，终于找到了解决方案————用[]byte类型直接接收！（PS：似曾相识的套路）

    type value struct {
        i *interface{} // 存放任意类型
        b []byte       // 存放字节数组
    }

测试结果很理想，总耗时和GC耗时都超越了最快的freecache，PS：不过也是trade-off，只是较大的对象在ecacheGC上消耗的时间没有freecache拷贝消耗的时间多而已
最后把整型也用encoding/binary.LittleEndian.PutUint64合并进了[]byte，内存占用一样，性能稍慢一点点

其他改进

时间戳原来记录的是写入时间，群友review提出了时间回跳可能会有问题，改为expireAt过期的时间点，保证一定会在设置的过期时间内过期
仔细检查并发场景下node复用可能导致取到错误值的情况

优化结果

🐌 代表很慢，✈️ 代表快，🚀 代表非常快，可以看到优化以后的ecache，各项测试表现都不错（除大量并发写入整型的GC耗时无法超过bigcache外）。

	bigcache	cachego	ecache	freecache	gcache	gocache
PutInt	✈️		🚀	🚀	✈️	✈️
GetInt	✈️	✈️	🚀		✈️	✈️
Put1K	✈️	✈️	🚀	🚀	🚀	✈️
Put1M	🐌		🚀	🐌	✈️	✈️
PutTinyObject	✈️		🚀	🚀	✈️
ChangeOutAllInt	✈️		🚀	🚀	✈️	✈️
HeavyReadInt	🚀	🚀	🚀		🚀
HeavyReadIntGC	✈️	🚀	🚀		✈️	✈️
HeavyWriteInt	🚀	✈️	🚀	🚀		✈️
HeavyWriteIntGC	🚀		✈️	✈️
HeavyWrite1K	🐌	✈️	🚀	🚀		✈️
HeavyWrite1KGC	🐌	✈️	🚀	🚀		✈️
HeavyMixedInt	🚀	✈️	🚀		✈️	🚀

版本对比

基线版本v1.0.5vs优化版本v1.1.0

参考资料

微信关注我们

原文链接：https://my.oschina.net/u/5577511/blog/5438484

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Milvus 2.0 GA ：专为 AI 打造的云原生向量数据库

近日，获得AI 开发者广泛关注（Github star 数9000+）的“AI 神鸟项目” Milvus 向量数据库（Milvus 在英文中指鸢），正式宣布2.0 版本的GA。全新的Milvus 向量数据库具备支持大规模生产环境的能力，帮助开发者在构建深度学习、机器视觉、语义学习等大规模系统时，能够快速构建起高可靠、高性能、高检索效率、运维管理友好的向量数据（embedding vector）处理平台。 “这不是一次简单的版本升级，而是一次全面重构，也是我们过去三年在向量数据库领域探索之后的集大成之作。在经过对架构进行全面重新设计，及9 个RC 版本的迭代后，我们正式宣布Milvus 2.0 的GA。 Milvus 的用户将由此能够获得生产级可用的开源向量数据库系统，它可以部署在任意云基础设施上，使用更加便利，性能更加强大，整体成本也更为优化。”Milvus 工程总监栾小凡如此描述此次GA 对Milvus 项目的意义。 “我们在迭代了19 个版本后发布了Milvus 的1.0 版本，并获得了全球近1000 家用户的实践验证。但我们依然看到了它的很多局限性，比如实时性与效率的冲突，成本的...

2022-02-10

713

摘要：如何通过springboot来集成操作Redis。本文分享自华为云社区《SpringBoot连接Redis操作教程》，作者：灰小猿。今天来和大家分享一个如何通过springboot来集成操作Redis。一、SpringBoot连接Redis springboot连接Redis时需要在pom文件中导入所需的jar包依赖，依赖如下：  <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</version> </dependency> （1）使用Jedis类直接连接Redis服务器在springboot环境下连接redis的方法有很多，首先最简单的就是直接通过jedis类来连接， jedis类就相当于是redis的客户端表示。连接方法如下： /** * redis连接测试01 */ @T...

2022-02-10

482

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。