从数据库设计到性能调优,全面掌握openGemini应用开发最佳实践
本文分享自华为云社区《DTSE Tech Talk × openGemini :从数据库设计到性能调优,全面掌握openGemini应用开发最佳实践》,作者:华为云开源。
在本期《从数据库设计到性能调优,全面掌握openGemini应用开发最佳实践》的主题直播中,华为云开源DTSE技术布道师&openGemini社区发起人Shawn,通过解析数据库应用开发的一般流程与开发者们分享了熟悉业务场景是做好数据库设计的关键这一重要观点,并分别向大家介绍了openGemini库和表设计、数据写入、数据查询的最佳实践,希望能让开发者们从优秀实践中获得新的启发和提升。
熟悉业务场景是做好数据库设计的关键
任何数据库都不是万能的,熟悉业务场景是做好数据库设计非常关键的一环,同时,当了解清楚业务场景再去做数据库选型时会给你带来很大的帮助。做数据库选型之前,大家可以按照以下8条去做细致的评估:
- 数据分类
- 应用分类
- 采集频率(s)
- 时间线评估
- 每分钟写入数据量
- 采集的指标
- 业务查询场景
- 数据保留周期
openGemini库和表设计最佳实践
当把业务场景都了解清楚过后,便可以做库和表的设计了。Shard是openGemini的数据分片概念,openGemini支持shard延时加载,也就有了有活动shard和历史shard的区别。每个shard有自己的索引和缓存,增加DB,或者增加RP,都会增加同等数量的shard,也就增大了数据处理的并发度。个人建议在使用openGemini时采用多个库,适度增加DB数量,有利于系统资源得到充分利用,并提升性能。
当机器规格一定时,支持的shard数量是有上限的
粗略的评估方法:shard数量 <= 总量内存 * 0.25 / 60M
Shard数量受本地磁盘性能限制,因为不同shard之间存在磁盘带宽和I/O的竞争。
shard或表过多,容易对系统性能造成影响:
- DB/RP越多,shard越多,占用内存资源会越大,磁盘I/O竞争越大
- 表越多,数据文件越多,占用操作系统句柄资源越多
- Shard和表越多,元数据越多,ts-sql和ts-store与ts-meta之间同步元数据时延大,会造成数据读写性能波动
表的设计原则:
- 建表要结合查询场景做综合考虑
- 建表要充分考虑指标列数量,大于1000列,建议开始分表
openGemini数据写入最佳实践
现在跟大家分享一下客户端写数据最佳实践的注意事项:
- 客户端批量写入,减少网络交互
- 客户端并发写入,确保多批次数据之间时间线不存在交叉,减少乱序数据的产生
- BatchSize指一次批量写入的数据大小,需多次实验,找到最为合适的值
- ts-sql并发分发数据能力是一定的,增加sql数量才能处理更多数据
- 写入并发比较大的情况下,可以适当减小BatchSize,否则ts-store容易造成数据堆积
写性能的内核参数调优:正常情况下,业务的写QPS是趋于稳定的,当出现比较大的波动时,引起原因可能是:数据量增大导致wal时延增加、磁盘IO瓶颈、数据缓存堆积、Compaction阻塞等。
openGemini数据查询最佳实践
时间线比较多时(百万以上),如下查询场景要慎用,可能引发进程OOM:
- 全量时间线扫描,无TAG过滤
- 海量分组:TAG+Time * 细粒度Time
- 海量数据在ts-sql聚合场景(除first/last/count/sum/mean/min/max外)
- 海量时间线查询, tag1=xxx 可能对应百万时间线
openGemini 查询语句使用Tips:
1、查询返回的数据量比较多时,推荐添加查询参数:chunked=true&chunk_size=1000 ,可分批流式返回
例如:
curl -XPOST 'http://localhost:8086/query?db=mydb& chunked=true & chunk_size=1000 ' --data-urlencode 'q=SELECT * FROM mst'
2、在openGemini集群中,一条时间线数据只属于一个数据节点,因此在做简单查询时,可以使用Hint查询,直接定位到具体数据节点查询数据。
语法: /*+ full_series */
约束:查询条件必须包含所有的TAG
例如:
SELECT /*+ full_series */ mean(C) FROM mst WHERE A=“a1” AND B=“b1” AND time > xxx AND time < xxx
3、嵌套查询要遵循的原则:处在最里层的子查询尽可能通过TAG或者时间过滤数据,减少结果数据总量
例如:
SELECT * FROM
(SELECT temperature FROM disk_temp_monitor WHERE time > xxx AND time < xxx AND nd=“xxx” AND disk_type = SATA_HDD )
WHERE disk_type = SATA_HDD GROUP BY * LIMIT 1000
本次分享到这里就结束了,openGemini社区旨在打造开放、合作、包容的全球性技术社区,欢迎大家试用openGemini时序数据库,加入开源社区。
openGemini开源地址:https://github.com/openGemini
openGemini官网地址:https://opengemini.org
openGemini是一款开源分布式时序数据库,主要聚焦于海量时序数据的存储和分析,通过技术创新,简化业务系统架构,降低存储成本,提升时序数据的存储和分析效率。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
20+公司AI应用产品分析;24名工程师的LLM使用痛点
1. 20多家顶尖科技公司的AI应用 AI产品功能对市场来说仍然是新事物。没有人完全弄清楚其中多少功能将得到广泛使用,以及用户在多大程度上真正想要这些新产品。 本系列文章分析了海外科技公司将AI集成到其产品中的新方法和功能,包括Chrome、Slack、Docusign、Yelp、Google地图、Pinterest、Airbnb、Replit、Airtable等,总体而言,这些产品团队目前正在构建的功能分为5种不同的类别: 嵌入式助手:嵌入在核心产品中的AI助手,旨在以某种方式放大其产品价值主张 新的独立产品:由AI驱动的独立产品,区分于核心产品 用户体验增强器:由AI驱动的功能,旨在让现有产品更容易使用或以某种方式改善整体用户体验 生产力助推器/节省时间:旨在提高用户生产力的AI功能 ML智能/数据分析:部署AI驱动的机器学习模型以增加价值或发现见解 本文从功能类别、工作原理等维度分析了上述公司发布的不同的新AI功能,有助于AI团队做产品时进行参考。 https://departmentofproduct.substack.com/p/dop-deep-what-ai-featur...
- 下一篇
什么是LLM大模型训练,详解Transformer结构模型
本文分享自华为云社区《LLM 大模型学习必知必会系列(四):LLM训练理论篇以及Transformer结构模型详解》,作者:汀丶。 1.模型/训练/推理知识介绍 深度学习领域所谓的“模型”,是一个复杂的数学公式构成的计算步骤。为了便于理解,我们以一元一次方程为例子解释: y = ax + b 该方程意味着给出常数a、b后,可以通过给出的x求出具体的y。比如: #a=1 b=1 x=1 y = 1 * 1 + 1 -> y=2 #a=1 b=1 x=2 y = 1 * 2 + 1 => y=3 这个根据x求出y的过程就是模型的推理过程。在LLM中,x一般是一个句子,如“帮我计算23+20的结果”,y一般是:“等于43”。 基于上面的方程,如果追加一个要求,希望a=1,b=1,x=3的时候y=10呢?这显然是不可能的,因为按照上面的式子,y应该是4。然而在LLM中,我们可能要求模型在各种各样的场景中回答出复杂的答案,那么这显然不是一个线性方程能解决的场景,于是我们可以在这个方程外面加上一个非线性的变换: y=σ(ax+b) 这个非线性变换可以理解为指数、对数、...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7