聚焦重要数据价值丨DolphinDB 降采样算法介绍-低调大师

聚焦重要数据价值丨DolphinDB 降采样算法介绍

2023-08-23 1001

1. 绪论

在真实的业务场景中，时间序列数据具有以下特点：

采集频率（秒级甚至毫秒级）高，导致数据量非常庞大。
数据价值密度低。

对数据进行合理的降采样不仅极大地可以降低系统压力、节约存储成本，同时也可以帮助用户聚焦重要信息，提升数据价值。本教程将以要点感知算法为例介绍如何在 DolphinDB 自定义并应用算法降采样数据。

1.1 行业背景

在物联网用户场景中，有一个普遍的需求是需要查询某个采集点的全年（一季度、一个月）的数据并做展示分析。在展示时，如果显示所有数据，会有性能问题，特别是实时展示。同时，这个也不是必须的，因为只需要展示大概的趋势就足以达到决策要求，太多数据点反而可能模糊决策。以折线图为例，可视化场景中，当 x 轴的数据不断增多，对应 y 轴的数据量增多，体现在图上的折线就会变得越来越复杂，当数量达到一定程度，很难再通过图找到具体的某一个点所表述的真实值是什么，数据变得很拥挤。下图展示了 1 个包含 1 万个数据点的折线图：

为了能够看到图形的整体，我们就要隐藏一些点，仅展示那些能够代表其他的点，或者是创建能够代表这些点的新数据点，这就是降采样算法解决的问题。

1.2 业务挑战

总体而言，在上述物联网时序数据应用场景中，首先需要将数据存下来，再将一定时间跨度的数据进行可视化展示，或者是流计算实时推送数据进行展示，而不对数据进行降采样，会存在以下几个问题：

存储成本：高采集频率、多采集点数据的存储成本极高
数据展示：展示原始数据遭遇性能瓶颈，且大量噪声数据影响局部趋势
数据价值：数据价值不与存储、展示成本成正比

2. 降采样算法概述

DolphinDB 已经内置实现了简单的降采样算法如最大值、最小值、平均值等，用户可以直接调用相应函数进行计算。上述降采样算法都是将多条数据用一个值进行表示，这种表示方法的优点是计算简单、快速，缺点是信息损失较大。除此之外，许多学者还提出了大量更为复杂、高级的降采样算法，适用于不同的场景。DolphinDB 的语言具有强大的编程能力，支持用户自定义实现复杂的降采样算法，本文接下来将以 PIP 算法为例，介绍其算法原理、DolphinDB 脚本实现，并且给出了案例脚本，用户可以在自己的 DolphinDB server 上直接运行该脚本。

3. PIP 算法

3.1 PIP 介绍

PIP（Perceptually Important Points）算法又叫要点感知算法，是一种时间序列聚合算法，其思路是：对于一个长度为 n 的时间序列数据，迭代地依据最大距离原则采样出 k 个数据点， k 是人为设置的降采样数据点数（k <= n）。PIP 算法的具体步骤如下（论文参考：https://sci-hub.se/10.1109/iscmi.2017.8279589 ）

第一步：采样出时间序列的第 1 个和最后 1 个样本放入降采样数据点集
第二步：计算剩余未采样样本点到其邻接的 2 个要点构成的直线的距离
第三步：采样出距离最大的样本点放入降采样数据点集
第四步：重复第二步和第三步直到采样要点数达到 k 个

可以通过下面的演示图片，更直观的感受 PIP 算法的计算过程：

其中，上述点到直线的距离计算常用的是垂直距离（Vertical Distance），本文中的脚本实现也将采用该距离计算公式。对于点（x3，y3）到另外两点（x1，y1）、（x2，y2）所构成直线的距离的计算公式为

即为下图中蓝色虚线所示的距离：

3.2 脚本实现

DolphinDB 支持用户通过 defg 声明编写脚本实现自定义聚合函数，并且 rolling 等滑动窗口函数支持调用用户自定义的聚合函数进行滑动计算，因此 DolphinDB 天然支持用户自定义降采样算法进行滑动计算，以下代码为 PIP 算法的脚本实现：

defg PIP(X, Y){
    data = table(X as x, Y as y)
    rowTab = select x, y, rowNo(x) as rowNo from data
    n = size(X)
// k为每次滑动降采样的数据量，取值范围为 3~n（n 为滑动窗口大小） 
    k = 5  
    samples = 2
    result = string(X[0])+"_"+string(Y[0])
    indexList = [0,n-1]
    do{
        distanceVec = [0.0]
        for (i in 0..(size(indexList)-2)){
            start, end = indexList[i], indexList[i+1]
            x1, y1 = X[start], Y[start]
            x2, y2 = X[end], Y[end]
            a = (y1-y2)/(x1-x2)
            b = y1-a*x1
            distanceVec=join(distanceVec, abs(Y[(start+1): end] - (X[(start+1): end]*a + b)))
            distanceVec.append!(0)
        }
        distanceMax = distanceVec.max()
        tmp = table(rowTab, distanceVec as distance)
        nextPoint = select x, y, rowNo from tmp where distance = distanceMax
        result += ","+string(nextPoint.x[0])+"_"+string(nextPoint.y[0])
        indexList = indexList.append!(nextPoint.rowNo[0]).sort()
        samples = samples+1
    }while(samples < k)
    result += ","+string(X.last())+"_"+string(Y.last())
    return result
}

3.3 算法性能

PIP 算法的时间复杂度是 O(n2)，得益于 DolphinDB 内置的向量化编程，我们可以将算法的时间复杂度降低为 O(n) ，极大地提升了算法的计算性能，在单机社区版的 DolphinDB 上将 1 千万条的时间序列数据降采样至 4 万条数据只需 1.4s，并且还可以通过多线程的方式进一步提升性能。

4. 案例演示

4.1 案例脚本

本案例将以 1000 万条的正弦波动数据为例，使用 PIP 算法进行降维并展示降维前后的可视化对比，用户可以在自己的 DolphinDB 环境上运行该案例的完整代码。

清理环境

login('admin', '123456')
undef(all)
clearAllCache()

自定义 PIP 算法函数及解析函数

// PIP 算法聚合函数
defg PIP(X, Y){
    data = table(X as x, Y as y)
    rowTab = select x, y, rowNo(x) as rowNo from data
    n = size(X)
// k 为每次滑动降采样的数据量，取值范围为 3~n（n 为滑动窗口大小） 
    k = 5  
    samples = 2
    result = string(X[0])+"_"+string(Y[0])
    indexList = [0,n-1]
    do{
        distanceVec = [0.0]
        for (i in 0..(size(indexList)-2)){
            start, end = indexList[i], indexList[i+1]
            x1, y1 = X[start], Y[start]
            x2, y2 = X[end], Y[end]
            a = (y1-y2)/(x1-x2)
            b = y1-a*x1
            distanceVec=join(distanceVec, abs(Y[(start+1): end] - (X[(start+1): end]*a + b)))
            distanceVec.append!(0)
        }
        distanceMax = distanceVec.max()
        tmp = table(rowTab, distanceVec as distance)
        nextPoint = select x, y, rowNo from tmp where distance = distanceMax
        result += ","+string(nextPoint.x[0])+"_"+string(nextPoint.y[0])
        indexList = indexList.append!(nextPoint.rowNo[0]).sort()
        samples = samples+1
    }while(samples < k)
    result += ","+string(X.last())+"_"+string(Y.last())
    return result
}

// 降采样结果解析函数
def strToTable(result){
    samplesPIP = keyedTable(`x`y, 1:0, `x`y, `DOUBLE`DOUBLE)
    for (res in result){
        windows = res.split(',')
        for (window in windows){
            row = window.split('_')
            samplesPIP.append!(table([double(row[0])] as x, [double(row[1])] as y))
        }
    }
    return samplesPIP.sortBy!(`x, 1)  
}

模拟数据

// 模拟 1 千万条正弦数据，大小为 153 MB
X = (double(0..9999999)*pi/1000)
Y = sin(X)

结合 rolling 函数进行滑动计算

// 调用 rolling 函数进行滑动窗口计算，每 1000 个点滑动 1 次，降采样到 10 个点
timer{pipResult = rolling(PIP, [X, Y], 1000, 999)}

// 解析降采样结果输出一张表
samplesPIP = strToTable(pipResult)

4.2 结果展示

DolphinDB 内置了画图函数 plot，用户可以在库内直接调用对数据进行可视化展示，接下来将调用 plot 函数可视化对比降采样前后数据。

原始数据折线图：

plot(Y[0:10000], X[0:10000])

降采样数据折线图：

plot(samplesPIP.y[0:100], samplesPIP.x[0:100])

可见，PIP 降采样算法可以完全保留数据的趋势信息。但在实际业务场景中，需结合实际业务场景合理设置滑动窗口大小及降采样点数。

微信关注我们

原文链接：https://my.oschina.net/u/4865736/blog/10101335

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

17.8k Star!开源且支持私有化部署的碎片化知识卡片管理工具-Memos

应用简览 Memos 是一个开源的轻量级笔记服务应用，它为用户提供了一个随时记录思绪和想法的私密空间，同时它支持私有化部署，这意味你可以完全掌控你的数据和隐私，同时它还提供了直观的分享功能，让你可以轻松地与他人协作和分享笔记。主要特性开源且永久免费：Memos 是一款开源的应用，永久免费使用。它鼓励创造力，让您的想法得以充分发挥，不受任何限制。自托管部署：使用 Docker，可以在几秒钟内设置好 Memos，获得数据和隐私的完全控制权，提供了极大的灵活性和可扩展性。纯文本与 Markdown 支持：Memos 坚持采用纯文本格式，摒弃了繁琐的富文本编辑，同时支持 Markdown，让您以极简主义的方式记录和分享笔记。自定义与轻松分享：Memos 提供直观的自定义和分享功能，使你能够轻松地与他人合作和分享笔记，促进信息交流。 RESTful API支持：Memos 还提供了强大的 RESTful API，让您能够与第三方服务进行集成，开启全新的应用可能性。应用特色一、支持多用户，且允许设置可见范围 Memos 提供了多用户支持，这意味着可以与团队成员或朋友共享笔记，并轻松地...

2023-08-23

945

一、前言 1.1 什么是全栈全栈开发是指开发人员掌握了前端、后端以及数据库等多个领域的知识和技能，能够独立完成整个项目的开发工作。在需求交付过程中，可以负责从项目的前期分析、设计到后期开发、测试、发布等整个过程，能够快速定位和解决问题，提高开发效率和产品质量。 1.2 为什么做全栈我认为全栈的推进是环境变化、技术发展导致的必然结果，全栈带来的好处主要有两方面：降低沟通成本，提升交付效率：精细化分工导致的结果是协同成本大大增加，尤其是对于跨多个团队的项目，每个开发可能找对接的同学都得找好几个人才能找到，影响整体的需求交付效率。当下，由单人或单团队完成需求的闭环开发，降低协同或许是提升产品交付效率的最快方式。从全局视角加深领域专业度、增强个人竞争力：首先，无论是前端技术、客户端技术还是服务端技术，研发平台、框架、规范都基本定型，学习成本降低；其次，通过学习全栈技术，可以增加技术视角的广度，未来进行开发工作时，不再偏居一隅，可以从整个项目的角度出发，设计更合理的架构；最后，未来市场需要的也是全栈型开发同学，在《Stack Overflow 2021 全球8W名开发者调查报告》显示排名...

2023-08-23

896

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。