如何监控Azure Databricks集群资源使用率-低调大师

如何监控Azure Databricks集群资源使用率

2021-05-21 685

©著作权归作者所有：来自51CTO博客作者臭臭粑粑的原创作品，如需转载，请注明出处，否则将追究法律责任

客户：Azure Databricks可以监控的吧？

我：可以的。

客户：那我想监控Databricks Cluster的资源使用率。

我（思考片刻）：好的。

为什么答应客户那么爽快，是因为以我对Azure的了解，只要是Azure上面的服务，基本上都有Monitor功能，而且还自带该服务的Mestrics数据，想要监控，直接到该服务下，找到Metrics，选择你感兴趣的metric，分分钟创建个折线图什么的。但当我去Azure Databricks Workspace服务下去找的时候，发现：

尼玛，没有Metrics，此刻，我才意识到，这次，

随后立马查官网确认，原来是真的：

Monitoring is a critical part of any production-level solution, and Azure Databricks offers robust functionality for monitoring custom application metrics, streaming query events, and application log messages. Azure Databricks can send this monitoring data to different logging services.

The following articles show how to send monitoring data from Azure Databricks to Azure Monitor, the monitoring data platform for Azure.

Send Azure Databricks application logs to Azure Monitor
Use dashboards to visualize Azure Databricks metrics
Troubleshoot performance bottlenecks

附上官网链接：

https://docs.microsoft.com/en-us/azure/architecture/databricks-monitoring/

这个是监控application级别的，而客户目前只是想要监控Cluster资源使用情况，以便在需要的时候调整worker节点的数量。

Azure Databricks Cluster到底如何监控呢？随后咨询了微软技术支持，给出的答案是目前他们没有提供现成的监控解决方案，想要监控cluster，需要自己根据自己的需求来做相应的配置：主要就是Azure Databricks的Diagnostic settings + Log Analytics服务。

下面我就详细介绍一下如何实现Azure Databricks Cluster资源使用率的监控。

第一步：创建 Log Analytics workspace

- 具体如何创建就不赘述了，没有什么特殊的，起了名字，选择一下Resource group和location（记得和Azure Databricks Workspace保持一致）

第二步：Log Analytics workspace Agents configuration配置

- Azure Databricks Cluster的master和worker节点都是Linux VM，所以我们这里选Linux performance counters这个tab

- 然后点击：+ Add performance counter，选择想要监控的counter即可。
这里我添加了下面三个counter

第三步：获取onboard agent for Linux信息

这里最重要的两个信息，下面的脚本里的参数

- Workspace ID: 就是下面脚本里的 -w 参数值

- Primary/Secondary key：就是下面脚本里的 -s 参数值

第四步：Azure Databricks Cluster Init scripts配置

- 创建一个Notebook，名字：monitor，语言选择：Python，Cluster选择你要监控的那个cluster

- 复制下面的脚本到新建的Notebook中，保存脚本到dbfs

script = """sed -i "s/^exit 101$/exit 0/" /usr/sbin/policy-rc.dwget https://raw.githubusercontent.com/Microsoft/OMS-Agent-for-Linux/master/installer/scripts/onboard_agent.sh && sh onboard_agent.sh -w YourLogAnalyticsWorkspaceID -s YourLogAnalyticsWorkspacePrimarykeysudo su omsagent -c 'python /opt/microsoft/omsconfig/Scripts/PerformRequiredConfigurationChecks.py'/opt/microsoft/omsagent/bin/service_control restart"""dbutils.fs.put("/databricks/my_init_scripts/configure-omsagent.sh", script, True)

- 按Shift + Enter运行脚本

注意：如果Cluster是shutdown状态，会跳出下面的对话框，点击Start and Run，稍等片刻。（其实你可以去倒杯咖啡，慢慢等，是需要个几分钟开cluster）

- 上面的命令执行完之后，我们可以检查一下脚本是否已经保存到指定位置，运行下面的脚本：

%fs ls /databricks/my_init_scripts/

- 编辑Cluster

- 找到Advanced Options，展开，然后切到Init Scripts这个tab，复制上面的脚本路径，点击Add，添加好之后，重启cluster。

第五步：等。等个20~30分钟吧！

第六步：Cluster资源使用率报表展示

- 找到Log Analytics workspace下的Logs

- 经过第五步的等待，在Tables下，应该有一个名叫Perf的table

- 双击Perf表名，然后再点击Run按钮，稍等片刻，查询结果就出来了。

恭喜你，到目前为止，你已经成功的获取Azure Databricks Cluster VM的performace counter数据，接下来就是如何更优雅的展现数据了。Log Analytics是使用的Kusto Query Language（KQL）来查询数据的，关于如何使用Kusto Query Language，又是另外一个话题，有时间再给大家详细介绍一下，这里就不再做详细介绍了。

下面是我做的一个CPU使用率的折线图，供大家参考：

KQL代码如下：

Perf| where CounterName == "% Processor Time"| where ObjectName == "Processor"| summarize Cluster_CPU_Usage = avg(CounterValue) by bin(TimeGenerated, 1min), Cluster_Name = Computer, _ResourceId // bin is used to set the time grain to 15 minutes| render timechart

至于其它performance counter的展示，只要熟悉KQL语法，也很容易创建出来，这里就不一一列举了。

关于如何监控Azure Databricks Cluster资源使用情况，你学会了么？有任何问题，请关注下面公众号并留言。

©著作权归作者所有：来自51CTO博客作者臭臭粑粑的原创作品，如需转载，请注明出处，否则将追究法律责任

微信关注我们

原文链接：https://blog.51cto.com/jiaszwx/2801067

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

如何配置可信任的Ips列表，无需接收MFA提示

51CTO 博客地址：https://blog.51cto.com/14669127 需求：作为IT Admin，为了加强用户的安全使用，你为所有公司员工启用了多重身份验证（MFA），但公司的Help Desk 反馈说，近期接到公司总部的员工对MFA问题的询问电话数量有所增加，报告显示：员工若在公司总部工作，他们会收到MFA请求，为解决该问题，你需要阻止用户从公司总部登录时收到MFA请求，该如何操作呢？解决方案分析：在为公司员工启用多重身份验证之前，应该考虑配置一些可用的设置，其中最重要的就是可信的IPs列表，这样你可以为网络设置一系列的IP白名单，这样，当用户在公司总部工作时，他们不会收到MFA的提示，而当他们把设备带到其他地方（非公司总部）时，他们就会收到MFA提示。如何做到这一点呢？ 1. 登录到Azure门户网站 2. Azure Active Directory->All Services->Conditional Access->Named Locations, 在顶部工具栏中选择“配置MFA信任的IPs” 3. 在配置MFA信任的IPs页面，有2个...

2021-05-21

802

在企业的系统平台上运行artifactory可能每天有上百万个制品在不断流转，随着研发团队不断扩大，用户慢慢增多，并发量也相应的逐渐增大，在保证高可用的同时，我们对artifactory所在系统及应用服务进行监控会显得尤其重要。那么如何实现系统及应用的监控呢？这篇文章描述如何通过prometheus、grafana实现对Artifactory的基础系统及应用JVM监控。一、PrometheusServer端部署 ·下载安装包并解压（以版本2.11.1为例）下载地址：https://prometheus.io/download/ mkdir /opt/monitor/prometheus;cd /opt/monitor/prometheusunzip prometheus.zip ./tar zxf prometheus-2.11.1.linux-amd64.tar.gzmv prometheus-2.11.1.linux-amd64 prometheus-2.11.1 ·添加为系统服务 vim /usr/lib/systemd/system/prometheus-server.s...

2021-05-21

656

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。