缓存空间优化实践

2023-04-17 890

作者：京东科技董健

导读

缓存Redis，是我们最常用的服务，其适用场景广泛，被大量应用到各业务场景中。也正因如此，缓存成为了重要的硬件成本来源，我们有必要从空间上做一些优化，降低成本的同时也会提高性能。

下面以我们的案例说明，将缓存空间减少70%的做法。

场景设定

1、我们需要将POJO存储到缓存中，该类定义如下

public class TestPOJO implements Serializable {
    private String testStatus;
    private String userPin;
    private String investor;
    private Date testQueryTime;
    private Date createTime;
    private String bizInfo;
    private Date otherTime;
    private BigDecimal userAmount;
    private BigDecimal userRate;
    private BigDecimal applyAmount;
    private String type;
    private String checkTime;
    private String preTestStatus;
    
    public Object[] toValueArray(){
        Object[] array = {testStatus, userPin, investor, testQueryTime,
                createTime, bizInfo, otherTime, userAmount,
                userRate, applyAmount, type, checkTime, preTestStatus};
        return array;
    }
    
    public CreditRecord fromValueArray(Object[] valueArray){         
        //具体的数据类型会丢失，需要做处理
    }
}

2、用下面的实例作为测试数据

TestPOJO pojo = new TestPOJO();
pojo.setApplyAmount(new BigDecimal("200.11"));
pojo.setBizInfo("XX");
pojo.setUserAmount(new BigDecimal("1000.00"));
pojo.setTestStatus("SUCCESS");
pojo.setCheckTime("2023-02-02");
pojo.setInvestor("ABCD");
pojo.setUserRate(new BigDecimal("0.002"));
pojo.setTestQueryTime(new Date());
pojo.setOtherTime(new Date());
pojo.setPreTestStatus("PROCESSING");
pojo.setUserPin("ABCDEFGHIJ");
pojo.setType("Y");

常规做法

System.out.println(JSON.toJSONString(pojo).length());

使用JSON直接序列化、打印 length=284，这种方式是最简单的方式，也是最常用的方式，具体数据如下：

{"applyAmount":200.11,"bizInfo":"XX","checkTime":"2023-02-02","investor":"ABCD","otherTime":"2023-04-10 17:45:17.717","preCheckStatus":"PROCESSING","testQueryTime":"2023-04-10 17:45:17.717","testStatus":"SUCCESS","type":"Y","userAmount":1000.00,"userPin":"ABCDEFGHIJ","userRate":0.002}

我们发现，以上包含了大量无用的数据，其中属性名是没有必要存储的。

改进1-去掉属性名

System.out.println(JSON.toJSONString(pojo.toValueArray()).length());

通过选择数组结构代替对象结构，去掉了属性名，打印 length=144，将数据大小降低了50%，具体数据如下：

["SUCCESS","ABCDEFGHIJ","ABCD","2023-04-10 17:45:17.717",null,"XX","2023-04-10 17:45:17.717",1000.00,0.002,200.11,"Y","2023-02-02","PROCESSING"]

我们发现，null是没有必要存储的，时间的格式被序列化为字符串，不合理的序列化结果，导致了数据的膨胀，所以我们应该选用更好的序列化工具。

改进2-使用更好的序列化工具

//我们仍然选取JSON格式，但使用了第三方序列化工具
System.out.println(new ObjectMapper(new MessagePackFactory()).writeValueAsBytes(pojo.toValueArray()).length);

选取更好的序列化工具，实现字段的压缩和合理的数据格式，打印 length=92，空间比上一步又降低了40%。

这是一份二进制数据，需要以二进制操作Redis，将二进制转为字符串后，打印如下：

��SUCCESS�ABCDEFGHIJ�ABCD��j�6��XX��j�6��?`bM��@i��Q�Y�2023-02-02�PROCESSING

顺着这个思路再深挖，我们发现，可以通过手动选择数据类型，实现更极致的优化效果，选择使用更小的数据类型，会获得进一步的提升。

改进3-优化数据类型

在以上用例中，testStatus、preCheckStatus、investor这3个字段，实际上是枚举字符串类型，如果能够使用更简单数据类型（比如byte或者int等）替代string，还可以进一步节省空间。其中checkTime可以用Long类型替代字符串，会被序列化工具输出更少的字节。

public Object[] toValueArray(){
    Object[] array = {toInt(testStatus), userPin, toInt(investor), testQueryTime,
    createTime, bizInfo, otherTime, userAmount,
    userRate, applyAmount, type, toLong(checkTime), toInt(preTestStatus)};
    return array;
}

在手动调整后，使用了更小的数据类型替代了String类型，打印 length=69

改进4-考虑ZIP压缩

除了以上的几点之外，还可以考虑使用ZIP压缩方式获取更小的体积，在内容较大或重复性较多的情况下，ZIP压缩的效果明显，如果存储的内容是TestPOJO的数组，可能适合使用ZIP压缩。

但ZIP压缩并不一定会减少体积，在小于30个字节的情况下，也许还会增加体积。在重复性内容较少的情况下，无法获得明显提升。并且存在CPU开销。

在经过以上优化之后，ZIP压缩不再是必选项，需要根据实际数据做测试才能分辨到ZIP的压缩效果。

最终落地

上面的几个改进步骤体现了优化的思路，但是反序列化的过程会导致类型的丢失，处理起来比较繁琐，所以我们还需要考虑反序列化的问题。

在缓存对象被预定义的情况下，我们完全可以手动处理每个字段，所以在实战中，推荐使用手动序列化达到上述目的，实现精细化的控制，达到最好的压缩效果和最小的性能开销。

可以参考以下msgpack的实现代码，以下为测试代码，请自行封装更好的Packer和UnPacker等工具：

<dependency>    
    <groupId>org.msgpack</groupId>    
    <artifactId>msgpack-core</artifactId>    
    <version>0.9.3</version>
</dependency>

    public byte[] toByteArray() throws Exception {
        MessageBufferPacker packer = MessagePack.newDefaultBufferPacker();
        toByteArray(packer);
        packer.close();
        return packer.toByteArray();
    }

    public void toByteArray(MessageBufferPacker packer) throws Exception {
        if (testStatus == null) {
            packer.packNil();
        }else{
            packer.packString(testStatus);
        }

        if (userPin == null) {
            packer.packNil();
        }else{
            packer.packString(userPin);
        }

        if (investor == null) {
            packer.packNil();
        }else{
            packer.packString(investor);
        }

        if (testQueryTime == null) {
            packer.packNil();
        }else{
            packer.packLong(testQueryTime.getTime());
        }

        if (createTime == null) {
            packer.packNil();
        }else{
            packer.packLong(createTime.getTime());
        }

        if (bizInfo == null) {
            packer.packNil();
        }else{
            packer.packString(bizInfo);
        }

        if (otherTime == null) {
            packer.packNil();
        }else{
            packer.packLong(otherTime.getTime());
        }

        if (userAmount == null) {
            packer.packNil();
        }else{
            packer.packString(userAmount.toString());
        }

        if (userRate == null) {
            packer.packNil();
        }else{
            packer.packString(userRate.toString());
        }

        if (applyAmount == null) {
            packer.packNil();
        }else{
            packer.packString(applyAmount.toString());
        }

        if (type == null) {
            packer.packNil();
        }else{
            packer.packString(type);
        }

        if (checkTime == null) {
            packer.packNil();
        }else{
            packer.packString(checkTime);
        }

        if (preTestStatus == null) {
            packer.packNil();
        }else{
            packer.packString(preTestStatus);
        }
    }


    public void fromByteArray(byte[] byteArray) throws Exception {
        MessageUnpacker unpacker = MessagePack.newDefaultUnpacker(byteArray);
        fromByteArray(unpacker);
        unpacker.close();
    }

    public void fromByteArray(MessageUnpacker unpacker) throws Exception {
        if (!unpacker.tryUnpackNil()){
            this.setTestStatus(unpacker.unpackString());
        }
        if (!unpacker.tryUnpackNil()){
            this.setUserPin(unpacker.unpackString());
        }
        if (!unpacker.tryUnpackNil()){
            this.setInvestor(unpacker.unpackString());
        }
        if (!unpacker.tryUnpackNil()){
            this.setTestQueryTime(new Date(unpacker.unpackLong()));
        }
        if (!unpacker.tryUnpackNil()){
            this.setCreateTime(new Date(unpacker.unpackLong()));
        }
        if (!unpacker.tryUnpackNil()){
            this.setBizInfo(unpacker.unpackString());
        }
        if (!unpacker.tryUnpackNil()){
            this.setOtherTime(new Date(unpacker.unpackLong()));
        }
        if (!unpacker.tryUnpackNil()){
            this.setUserAmount(new BigDecimal(unpacker.unpackString()));
        }
        if (!unpacker.tryUnpackNil()){
            this.setUserRate(new BigDecimal(unpacker.unpackString()));
        }
        if (!unpacker.tryUnpackNil()){
            this.setApplyAmount(new BigDecimal(unpacker.unpackString()));
        }
        if (!unpacker.tryUnpackNil()){
            this.setType(unpacker.unpackString());
        }
        if (!unpacker.tryUnpackNil()){
            this.setCheckTime(unpacker.unpackString());
        }
        if (!unpacker.tryUnpackNil()){
            this.setPreTestStatus(unpacker.unpackString());
        }
    }

场景延伸

假设，我们为2亿用户存储数据，每个用户包含40个字段，字段key的长度是6个字节，字段是分别管理的。

正常情况下，我们会想到hash结构，而hash结构存储了key的信息，会占用额外资源，字段key属于不必要数据，按照上述思路，可以使用list替代hash结构。

通过Redis官方工具测试，使用list结构需要144G的空间，而使用hash结构需要245G的空间（当50%以上的属性为空时，需要进行测试，是否仍然适用）

在以上案例中，我们采取了几个非常简单的措施，仅仅有几行简单的代码，可降低空间70%以上，在数据量较大以及性能要求较高的场景中，是非常值得推荐的。：

• 使用数组替代对象（如果大量字段为空，需配合序列化工具对null进行压缩）

• 使用更好的序列化工具

• 使用更小的数据类型

• 考虑使用ZIP压缩

• 使用list替代hash结构（如果大量字段为空，需要进行测试对比）

微信关注我们

原文链接：https://my.oschina.net/u/4090830/blog/8670426

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

从ChatGPT看爆火技术概念及医疗领域科技与应用场景

作者：京东健康陈刚一、前言最近OpenAI在官网上宣告了多模态大模型 GPT-4 的诞生，它可能是迄今为止最好的多模态模型。主要更新内容如下： 1. 逻辑分析能力更加全面、「考试」能力大幅提升 2. 拥有了识图能力，可以进行更多元的交流 3. 回答更有条理，理解更加准确 4. 创作力大幅提升，可以进行更全面的创作双击编辑块引用内容近日、风靡全球的ChatGPT刷新了很多人对人机交互的认知，具有极高的灵活性和适应性，可以很容易的应用到各种不同的产业，引起了行业的诸多变革。Chat GPT的出现正在迅速改变如今的互联网局势，“AIGC”“人工智能”“搜索引擎”等话题迅速成为当下热点。众多互联网企业加速布局AI产业，可以预见下一场技术爆炸即将到来。本文大致分为两方面内容，第一部分是热门前沿科技概述，主要描述有什么与应用场景。第二部分是医疗领域科技前沿，已发生的和可探索的医疗行业的应用场景。随着技术不断迭代和发展，了解科技前沿和最新技术，可以提升自我，抓住机遇，抢跑未来，哈哈哈，让我们开始吧，向上的技术人！！！文末有彩蛋😏 本人来自互联网医疗服务团队，我们团队一直致力...

2023-04-17

970

作者：京东零售肖勇一、前言导读 TiDB作为NewSQL，其在对MySQL（SQL92协议）的兼容上做了很多，MySQL作为当下使用较广的事务型数据库，在IT界尤其是互联网间使用广泛，那么对于开发人员来说，1）两个数据库产品在SQL开发及调优的过程中，都有哪些差异？在系统迁移前需要提前做哪些准备？ 2）TiDB的执行计划如何查看，如何SQL调优？本文做了一个简要归纳，欢迎查阅交流。二、建表SQL语法差异&优化建议三、查询SQL语法差异&优化建议四、 SQL执行计划差异&优化建议五、 TiDB执行计划分析简介 1. 在开始实际案例分析前，我们先看下执行计划中每列的含义：引自：https://docs.pingcap.com/zh/tidb/stable/sql-statement-explain和https://docs.pingcap.com/zh/tidb/stable/sql-statement-explain-analyze 2. 执行计划优化的几个关键点： 1) 重点观察算子类型，尽量控制优化器选择性能较优的算子，读取磁盘记录的几个...

2023-04-17

401

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。