聚焦重要数据价值丨DolphinDB 降采样算法介绍
1. 绪论
在真实的业务场景中,时间序列数据具有以下特点:
- 采集频率(秒级甚至毫秒级)高,导致数据量非常庞大。
- 数据价值密度低。
对数据进行合理的降采样不仅极大地可以降低系统压力、节约存储成本,同时也可以帮助用户聚焦重要信息,提升数据价值。本教程将以要点感知算法为例介绍如何在 DolphinDB 自定义并应用算法降采样数据。
1.1 行业背景
在物联网用户场景中,有一个普遍的需求是需要查询某个采集点的全年(一季度、一个月)的数据并做展示分析。在展示时,如果显示所有数据,会有性能问题,特别是实时展示。同时,这个也不是必须的,因为只需要展示大概的趋势就足以达到决策要求,太多数据点反而可能模糊决策。以折线图为例,可视化场景中,当 x 轴的数据不断增多,对应 y 轴的数据量增多,体现在图上的折线就会变得越来越复杂,当数量达到一定程度,很难再通过图找到具体的某一个点所表述的真实值是什么,数据变得很拥挤。下图展示了 1 个包含 1 万个数据点的折线图:
为了能够看到图形的整体,我们就要隐藏一些点,仅展示那些能够代表其他的点,或者是创建能够代表这些点的新数据点,这就是降采样算法解决的问题。
1.2 业务挑战
总体而言,在上述物联网时序数据应用场景中,首先需要将数据存下来,再将一定时间跨度的数据进行可视化展示,或者是流计算实时推送数据进行展示,而不对数据进行降采样,会存在以下几个问题:
- 存储成本:高采集频率、多采集点数据的存储成本极高
- 数据展示:展示原始数据遭遇性能瓶颈,且大量噪声数据影响局部趋势
- 数据价值:数据价值不与存储、展示成本成正比
2. 降采样算法概述
DolphinDB 已经内置实现了简单的降采样算法如最大值、最小值、平均值等,用户可以直接调用相应函数进行计算。上述降采样算法都是将多条数据用一个值进行表示,这种表示方法的优点是计算简单、快速,缺点是信息损失较大。除此之外,许多学者还提出了大量更为复杂、高级的降采样算法,适用于不同的场景。DolphinDB 的语言具有强大的编程能力,支持用户自定义实现复杂的降采样算法,本文接下来将以 PIP 算法为例,介绍其算法原理、DolphinDB 脚本实现,并且给出了案例脚本,用户可以在自己的 DolphinDB server 上直接运行该脚本。
3. PIP 算法
3.1 PIP 介绍
PIP(Perceptually Important Points)算法又叫要点感知算法,是一种时间序列聚合算法,其思路是:对于一个长度为 n 的时间序列数据,迭代地依据最大距离原则采样出 k 个数据点, k 是人为设置的降采样数据点数(k <= n)。PIP 算法的具体步骤如下(论文参考:https://sci-hub.se/10.1109/iscmi.2017.8279589 )
- 第一步:采样出时间序列的第 1 个和最后 1 个样本放入降采样数据点集
- 第二步:计算剩余未采样样本点到其邻接的 2 个要点构成的直线的距离
- 第三步:采样出距离最大的样本点放入降采样数据点集
- 第四步:重复第二步和第三步直到采样要点数达到 k 个
可以通过下面的演示图片,更直观的感受 PIP 算法的计算过程:
其中,上述点到直线的距离计算常用的是垂直距离(Vertical Distance),本文中的脚本实现也将采用该距离计算公式。对于点(x3,y3)到另外两点(x1,y1)、(x2,y2)所构成直线的距离的计算公式为
即为下图中蓝色虚线所示的距离:
3.2 脚本实现
DolphinDB 支持用户通过 defg 声明编写脚本实现自定义聚合函数,并且 rolling
等滑动窗口函数支持调用用户自定义的聚合函数进行滑动计算,因此 DolphinDB 天然支持用户自定义降采样算法进行滑动计算,以下代码为 PIP 算法的脚本实现:
defg PIP(X, Y){ data = table(X as x, Y as y) rowTab = select x, y, rowNo(x) as rowNo from data n = size(X) // k为每次滑动降采样的数据量,取值范围为 3~n(n 为滑动窗口大小) k = 5 samples = 2 result = string(X[0])+"_"+string(Y[0]) indexList = [0,n-1] do{ distanceVec = [0.0] for (i in 0..(size(indexList)-2)){ start, end = indexList[i], indexList[i+1] x1, y1 = X[start], Y[start] x2, y2 = X[end], Y[end] a = (y1-y2)/(x1-x2) b = y1-a*x1 distanceVec=join(distanceVec, abs(Y[(start+1): end] - (X[(start+1): end]*a + b))) distanceVec.append!(0) } distanceMax = distanceVec.max() tmp = table(rowTab, distanceVec as distance) nextPoint = select x, y, rowNo from tmp where distance = distanceMax result += ","+string(nextPoint.x[0])+"_"+string(nextPoint.y[0]) indexList = indexList.append!(nextPoint.rowNo[0]).sort() samples = samples+1 }while(samples < k) result += ","+string(X.last())+"_"+string(Y.last()) return result }
3.3 算法性能
PIP 算法的时间复杂度是 O(n2),得益于 DolphinDB 内置的向量化编程,我们可以将算法的时间复杂度降低为 O(n) ,极大地提升了算法的计算性能,在单机社区版的 DolphinDB 上将 1 千万条的时间序列数据降采样至 4 万条数据只需 1.4s,并且还可以通过多线程的方式进一步提升性能。
4. 案例演示
4.1 案例脚本
本案例将以 1000 万条的正弦波动数据为例,使用 PIP 算法进行降维并展示降维前后的可视化对比,用户可以在自己的 DolphinDB 环境上运行该案例的完整代码。
- 清理环境
login('admin', '123456') undef(all) clearAllCache()
- 自定义 PIP 算法函数及解析函数
// PIP 算法聚合函数 defg PIP(X, Y){ data = table(X as x, Y as y) rowTab = select x, y, rowNo(x) as rowNo from data n = size(X) // k 为每次滑动降采样的数据量,取值范围为 3~n(n 为滑动窗口大小) k = 5 samples = 2 result = string(X[0])+"_"+string(Y[0]) indexList = [0,n-1] do{ distanceVec = [0.0] for (i in 0..(size(indexList)-2)){ start, end = indexList[i], indexList[i+1] x1, y1 = X[start], Y[start] x2, y2 = X[end], Y[end] a = (y1-y2)/(x1-x2) b = y1-a*x1 distanceVec=join(distanceVec, abs(Y[(start+1): end] - (X[(start+1): end]*a + b))) distanceVec.append!(0) } distanceMax = distanceVec.max() tmp = table(rowTab, distanceVec as distance) nextPoint = select x, y, rowNo from tmp where distance = distanceMax result += ","+string(nextPoint.x[0])+"_"+string(nextPoint.y[0]) indexList = indexList.append!(nextPoint.rowNo[0]).sort() samples = samples+1 }while(samples < k) result += ","+string(X.last())+"_"+string(Y.last()) return result } // 降采样结果解析函数 def strToTable(result){ samplesPIP = keyedTable(`x`y, 1:0, `x`y, `DOUBLE`DOUBLE) for (res in result){ windows = res.split(',') for (window in windows){ row = window.split('_') samplesPIP.append!(table([double(row[0])] as x, [double(row[1])] as y)) } } return samplesPIP.sortBy!(`x, 1) }
- 模拟数据
// 模拟 1 千万条正弦数据,大小为 153 MB X = (double(0..9999999)*pi/1000) Y = sin(X)
- 结合
rolling
函数进行滑动计算
// 调用 rolling 函数进行滑动窗口计算,每 1000 个点滑动 1 次,降采样到 10 个点 timer{pipResult = rolling(PIP, [X, Y], 1000, 999)} // 解析降采样结果输出一张表 samplesPIP = strToTable(pipResult)
4.2 结果展示
DolphinDB 内置了画图函数 plot,用户可以在库内直接调用对数据进行可视化展示,接下来将调用 plot 函数可视化对比降采样前后数据。
- 原始数据折线图:
plot(Y[0:10000], X[0:10000])
- 降采样数据折线图:
plot(samplesPIP.y[0:100], samplesPIP.x[0:100])
可见,PIP 降采样算法可以完全保留数据的趋势信息。但在实际业务场景中,需结合实际业务场景合理设置滑动窗口大小及降采样点数。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
17.8k Star!开源且支持私有化部署的碎片化知识卡片管理工具-Memos
应用简览 Memos 是一个开源的轻量级笔记服务应用,它为用户提供了一个随时记录思绪和想法的私密空间,同时它支持私有化部署,这意味你可以完全掌控你的数据和隐私,同时它还提供了直观的分享功能,让你可以轻松地与他人协作和分享笔记。 主要特性 开源且永久免费:Memos 是一款开源的应用,永久免费使用。它鼓励创造力,让您的想法得以充分发挥,不受任何限制。 自托管部署:使用 Docker,可以在几秒钟内设置好 Memos,获得数据和隐私的完全控制权,提供了极大的灵活性和可扩展性。 纯文本与 Markdown 支持:Memos 坚持采用纯文本格式,摒弃了繁琐的富文本编辑,同时支持 Markdown,让您以极简主义的方式记录和分享笔记。 自定义与轻松分享:Memos 提供直观的自定义和分享功能,使你能够轻松地与他人合作和分享笔记,促进信息交流。 RESTful API支持:Memos 还提供了强大的 RESTful API,让您能够与第三方服务进行集成,开启全新的应用可能性。 应用特色 一、支持多用户,且允许设置可见范围 Memos 提供了多用户支持,这意味着可以与团队成员或朋友共享笔记,并轻松地...
- 下一篇
一名全栈工程师的技术实践之路
一、前言 1.1 什么是全栈 全栈开发是指开发人员掌握了前端、后端以及数据库等多个领域的知识和技能,能够独立完成整个项目的开发工作。在需求交付过程中,可以负责从项目的前期分析、设计到后期开发、测试、发布等整个过程,能够快速定位和解决问题,提高开发效率和产品质量。 1.2 为什么做全栈 我认为全栈的推进是环境变化、技术发展导致的必然结果,全栈带来的好处主要有两方面: 降低沟通成本,提升交付效率:精细化分工导致的结果是协同成本大大增加,尤其是对于跨多个团队的项目,每个开发可能找对接的同学都得找好几个人才能找到,影响整体的需求交付效率。当下,由单人或单团队完成需求的闭环开发,降低协同或许是提升产品交付效率的最快方式。 从全局视角加深领域专业度、增强个人竞争力:首先,无论是前端技术、客户端技术还是服务端技术,研发平台、框架、规范都基本定型,学习成本降低;其次,通过学习全栈技术,可以增加技术视角的广度,未来进行开发工作时,不再偏居一隅,可以从整个项目的角度出发,设计更合理的架构;最后,未来市场需要的也是全栈型开发同学,在《Stack Overflow 2021 全球8W名开发者调查报告》显示排名...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS8安装Docker,最新的服务器搭配容器使用
- 设置Eclipse缩进为4个空格,增强代码规范
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2全家桶,快速入门学习开发网站教程
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8