Doris Manager 24.3 版本正式发布,增强集群巡检能力
作为 Apache Doris 的智能管理工具,Doris Manager 提供一键部署、实时监控、弹性扩缩容、升级重启等核心功能,并支持告警、日志、审计、巡检等高级运维能力。历经千家企业验证,24.3 版本更稳定高效,让集群管理更简单!在新的版本中,Doris Manager 丰富了集群巡检,监控等能力。
功能更新
在 Doris Manager 24.3 版本中,对以下内容进行了优化改进:
智能集群巡检:
- 全面健康评估:新增多维度巡检项,覆盖集群健康度,数据健康度,Top SQL 分析,自动生成优化建议;
- 主动风险发现:快速定位性能瓶颈,提供分片调整,参数优化等方案。
稳定部署保障:
- 智能预检机制:新增重启动置检查(JAVA_HOME、操作系统参数等),规避环境问题导致失败;
- 任务流程优化:重构部署升级任务,提升成功率,减少人工干预。
高效监控运维:
- 精细化磁盘监控:按磁盘维度展示 IO 使用效率及吞吐量,精准定位 IO 问题;
- 日志精简优化:移除冗余 manager.out 日志,提升日志检索效率。
流畅操作体验:
- 透明化操作提示:优化升级备份流程,明确展示进度与风险提示;
- 自动跳转优化:Studio 页面跳转自动携带上下文,减少登录操作。
详细优化与更新功能可以参考 Doris Manager 24.3.0 release notes。
集群巡检功能
在 Doris Manager 24.3 版本中,重构了集群巡检功能,为了直观的感受巡检功能的丰富,我们特此录制了巡检能力的 Demo,具体见下方视频:
本次版本更新一共新增了五类巡检项功能:
- 集群概览:展示集群拓扑与 SQL 延时监控,QPS 监控,导入速率等主要集群监控项;
- 数据概览:展示数据库数量、表数量、分片数量、总数据量及 Top10 数据量的表,对 Tablet 健康度进行检查,筛选出 tablet 过大或者过小的表并给出提示;
- 查询分析:按照查询耗时、CPU 消耗、内存消耗、扫描数据行、扫描数据量等不同维度展示 Top10 的 SQL;
- 参数规范:展示 FE 与 BE 配置文件中非默认的配置参数,对集群主要的参数进行检测并给出修改意见;
- 机器信息:展示操作系统、CPU、内存、磁盘、网络等机器信息。
启用定期巡检
在设置集群巡检时,可以开启定期巡检,在特定时间周期性的对集群进行检查,并保存巡检报告。如在本例中指定每天两点进行巡检,巡检后通过邮箱与企业微信进行巡检信息推送。巡检会对集群数据进行扫描,占用集群 IO 资源,建议避开集群资源高峰时进行巡检。
查看巡检建议
在巡检后,可以从巡检报告中查看巡检结果与建议。Doris Manager 针对以下内容给出巡检建议:
- 数据健康:针对 tablet 大小、副本数量、数据倾斜程度、tablet 数量等信息给出优化建议;
- 参数配置:针对 Doris 系统参数与变量进行检查并给出优化建议;
- 机器配置:针对 CPU、操作系统参数等进行检查并给出调整建议。
如下例中,对集群参数进行了检查,列出了非默认参数,并针对参数 enable_profile 给出了修改意见。
添加自定义巡检项
用户可以根据业务自定义巡检项,通过脚本添加巡检项。如在下例中,添加了 CheckBadTablet 与 CheckSwapOff 两个用户自定义巡检项,关闭 CheckBadTablet 巡检项,打开 CheckSwapOff 巡检项。
$ cat webserver/inspection/script/user-defined-tasks.json { "tasks": [ { "name": "CheckBadTablet", "source": "DORIS", "reason": "ensure tablets are all healthy.", "script": "check-bad-tablet.sh", "timeout": 600, "enabled": false }, { "name": "CheckSwapOff", "source": "AGENT", "reason": "doris be requires swap off.", "script": "check-swap-off.sh", "timeout": 600, "enabled": true } ] }
自定义巡检支持两种脚本定义类型:
- DORIS:在脚本中执行 SQL 逻辑,发送到 Doris 集群中,返回结果
- AGENT:在脚本中执行 Shell 命令,发送到每一个 Agent 的宿主机执行,并返回结果
通过 user-defined-tasks.json 可以关联用户自定义脚本,在巡检时会对自定义项进行巡检操作。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
操作系统运维难?上 LLM
操作系统开发正经历一场无声的运维困战,海量软件包版本冲突、硬件生态兼容性适配、自动化脚本的边界困局等等,都让传统运维模式已难以为继。 一场由大语言模型 LLM 驱动的技术变革正在 OpenCloudOS 社区悄然落地——让 LLM 与自动化运维工具的深度结合,使得操作系统学会“理解用户”和“理解自身”,打通操作系统与应用、云服务之间的壁垒…… 我们邀请到腾讯高级工程师、OpenCloudOS Stream SIG Maintainer 王烁,请他聊了聊如何通过 LLM 赋能操作系统智能运维。 本周六,王烁也将出席【LLM与操作系统:协同进化】上海站源创会活动,发表《LLM 赋能操作系统开发与智能运维创新实践》主题演讲,欢迎各位开发者朋友到现场交流互动。 ⏰ 时间:2025 年 5 月 24 日(周六)13:00-17:30 📍 地点:上海・华东师范大学逸夫楼报告厅(普陀区) 💰 费用:开发者专属免费席位 报名地址:https://www.oschina.net/event/8596433 问:当前操作系统开发面临海量软件包管理、兼容性适配等瓶颈,传统运维模式为何难以应对?LLM 技...
- 下一篇
模型蒸馏:“学神”老师教出“学霸”学生
编者按: 近日,Qwen 3 技术报告正式发布,该系列也采用了从大参数模型中蒸馏知识来训练小参数模型的技术路线。那么,模型蒸馏技术究竟是怎么一回事呢? 今天给大家分享的这篇文章深入浅出地介绍了模型蒸馏的核心原理,即通过让学生模型学习教师模型的软标签而非硬标签,从而传递更丰富的知识信息。作者还提供了一个基于 TensorFlow 和 MNIST 数据集的完整实践案例,展示了如何构建教师模型和学生模型,如何定义蒸馏损失函数,以及如何通过知识蒸馏方法训练学生模型。实验结果表明,参数量更少的学生模型能够达到与教师模型相媲美的准确率。 作者 | Wei-Meng Lee 编译 | 岳扬 Photo by 戸山 神奈 on Unsplash 如果你一直在关注 DeepSeek 的最新动态,可能听说过"模型蒸馏"这个概念。但究竟什么是模型蒸馏?它为何重要?本文将解析模型蒸馏原理,并通过一个 TensorFlow 示例进行演示。通过阅读这篇技术指南,我相信您将对模型蒸馏有更深刻的理解。 01 模型蒸馏技术原理 模型蒸馏通过让较小的、较简单的模型(学生模型)学习模仿较大的、较复杂的模型(教师模型)的软标...
相关文章
文章评论
共有0条评论来说两句吧...