从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践

2024-06-04 367

本文分享自华为云社区《DTSE Tech Talk × openGemini ：从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践》，作者：华为云开源。

在本期《从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践》的主题直播中，华为云开源DTSE技术布道师&openGemini社区发起人Shawn，通过解析数据库应用开发的一般流程与开发者们分享了熟悉业务场景是做好数据库设计的关键这一重要观点，并分别向大家介绍了openGemini库和表设计、数据写入、数据查询的最佳实践，希望能让开发者们从优秀实践中获得新的启发和提升。

熟悉业务场景是做好数据库设计的关键

任何数据库都不是万能的，熟悉业务场景是做好数据库设计非常关键的一环，同时，当了解清楚业务场景再去做数据库选型时会给你带来很大的帮助。做数据库选型之前，大家可以按照以下8条去做细致的评估：

数据分类
应用分类
采集频率(s)
时间线评估
每分钟写入数据量
采集的指标
业务查询场景
数据保留周期

openGemini库和表设计最佳实践

当把业务场景都了解清楚过后，便可以做库和表的设计了。Shard是openGemini的数据分片概念，openGemini支持shard延时加载，也就有了有活动shard和历史shard的区别。每个shard有自己的索引和缓存，增加DB，或者增加RP，都会增加同等数量的shard，也就增大了数据处理的并发度。个人建议在使用openGemini时采用多个库，适度增加DB数量，有利于系统资源得到充分利用，并提升性能。

当机器规格一定时，支持的shard数量是有上限的
粗略的评估方法：shard数量 <= 总量内存 * 0.25 / 60M
Shard数量受本地磁盘性能限制，因为不同shard之间存在磁盘带宽和I/O的竞争。

shard或表过多，容易对系统性能造成影响：

DB/RP越多，shard越多，占用内存资源会越大，磁盘I/O竞争越大
表越多，数据文件越多，占用操作系统句柄资源越多
Shard和表越多，元数据越多，ts-sql和ts-store与ts-meta之间同步元数据时延大，会造成数据读写性能波动

表的设计原则：

建表要结合查询场景做综合考虑
建表要充分考虑指标列数量，大于1000列，建议开始分表

openGemini数据写入最佳实践

现在跟大家分享一下客户端写数据最佳实践的注意事项：

客户端批量写入，减少网络交互
客户端并发写入，确保多批次数据之间时间线不存在交叉，减少乱序数据的产生
BatchSize指一次批量写入的数据大小，需多次实验，找到最为合适的值
ts-sql并发分发数据能力是一定的，增加sql数量才能处理更多数据
写入并发比较大的情况下，可以适当减小BatchSize，否则ts-store容易造成数据堆积

写性能的内核参数调优：正常情况下，业务的写QPS是趋于稳定的，当出现比较大的波动时，引起原因可能是：数据量增大导致wal时延增加、磁盘IO瓶颈、数据缓存堆积、Compaction阻塞等。

openGemini数据查询最佳实践

时间线比较多时（百万以上），如下查询场景要慎用，可能引发进程OOM：

全量时间线扫描，无TAG过滤
海量分组：TAG+Time * 细粒度Time
海量数据在ts-sql聚合场景（除first/last/count/sum/mean/min/max外）
海量时间线查询, tag1=xxx 可能对应百万时间线

openGemini 查询语句使用Tips：

1、查询返回的数据量比较多时，推荐添加查询参数：chunked=true&chunk_size=1000 ，可分批流式返回

例如：

curl -XPOST 'http://localhost:8086/query?db=mydb& chunked=true & chunk_size=1000 ' --data-urlencode 'q=SELECT * FROM mst'

2、在openGemini集群中，一条时间线数据只属于一个数据节点，因此在做简单查询时，可以使用Hint查询，直接定位到具体数据节点查询数据。

语法： /*+ full_series */

约束：查询条件必须包含所有的TAG

例如:

SELECT /*+ full_series */ mean(C) FROM mst WHERE A=“a1” AND B=“b1” AND time > xxx AND time < xxx

3、嵌套查询要遵循的原则：处在最里层的子查询尽可能通过TAG或者时间过滤数据，减少结果数据总量

例如：

SELECT * FROM
(SELECT temperature FROM disk_temp_monitor WHERE time > xxx AND time < xxx AND nd=“xxx” AND disk_type = SATA_HDD )
WHERE disk_type = SATA_HDD GROUP BY * LIMIT 1000

本次分享到这里就结束了，openGemini社区旨在打造开放、合作、包容的全球性技术社区，欢迎大家试用openGemini时序数据库，加入开源社区。

openGemini开源地址：https://github.com/openGemini

openGemini官网地址：https://opengemini.org

openGemini是一款开源分布式时序数据库，主要聚焦于海量时序数据的存储和分析，通过技术创新，简化业务系统架构，降低存储成本，提升时序数据的存储和分析效率。

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/11205483

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

20+公司AI应用产品分析；24名工程师的LLM使用痛点

1. 20多家顶尖科技公司的AI应用 AI产品功能对市场来说仍然是新事物。没有人完全弄清楚其中多少功能将得到广泛使用，以及用户在多大程度上真正想要这些新产品。本系列文章分析了海外科技公司将AI集成到其产品中的新方法和功能，包括Chrome、Slack、Docusign、Yelp、Google地图、Pinterest、Airbnb、Replit、Airtable等，总体而言，这些产品团队目前正在构建的功能分为5种不同的类别：嵌入式助手：嵌入在核心产品中的AI助手，旨在以某种方式放大其产品价值主张新的独立产品：由AI驱动的独立产品，区分于核心产品用户体验增强器：由AI驱动的功能，旨在让现有产品更容易使用或以某种方式改善整体用户体验生产力助推器/节省时间：旨在提高用户生产力的AI功能 ML智能/数据分析：部署AI驱动的机器学习模型以增加价值或发现见解本文从功能类别、工作原理等维度分析了上述公司发布的不同的新AI功能，有助于AI团队做产品时进行参考。 https://departmentofproduct.substack.com/p/dop-deep-what-ai-featur...

2024-05-29

379

本文分享自华为云社区《LLM 大模型学习必知必会系列(四)：LLM训练理论篇以及Transformer结构模型详解》，作者：汀丶。 1.模型/训练/推理知识介绍深度学习领域所谓的“模型”，是一个复杂的数学公式构成的计算步骤。为了便于理解，我们以一元一次方程为例子解释： y = ax + b 该方程意味着给出常数a、b后，可以通过给出的x求出具体的y。比如： #a=1 b=1 x=1 y = 1 * 1 + 1 -> y=2 #a=1 b=1 x=2 y = 1 * 2 + 1 => y=3 这个根据x求出y的过程就是模型的推理过程。在LLM中，x一般是一个句子，如“帮我计算23+20的结果”，y一般是：“等于43”。基于上面的方程，如果追加一个要求，希望a=1,b=1,x=3的时候y=10呢？这显然是不可能的，因为按照上面的式子，y应该是4。然而在LLM中，我们可能要求模型在各种各样的场景中回答出复杂的答案，那么这显然不是一个线性方程能解决的场景，于是我们可以在这个方程外面加上一个非线性的变换： y=σ(ax+b) 这个非线性变换可以理解为指数、对数、...

2024-06-04

360

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。