用备份玩死proxmox超融合私有云集群-低调大师

用备份玩死proxmox超融合私有云集群

2019-01-21 767

作者：田逸（sery@163.com）

刚躺下，就收到proxmox虚拟机集群报警的邮件，顺便瞧了一眼，发现问题。

磁盘空间满了，导致备份失败。仔细一看，备份目录为/var/lib/vz/dump，这个是本地文件系统的目录，但我以前设定的备份目录是外挂的nfs，空间大得很啊！

担心proxmox集群因系统根分区被塞满而影响整个集群的服务，毕竟所有的业务都从阿里云回迁到该超融合私有云集群上。赶紧爬起来，***拨号，登录到四个物理节点。执行指令：

root@pve10:~# ceph osd tree

半天没反应，其它几个机器皆然。大概等待了数分钟，输出提示连接超时。再从proxmox集群web管理界面查看，crush map 没有输出。

继续点菜单“监视器”，quorum列的值全部为否。

再点击管理界面下部任务日志信息，确实是备份错误所引起。

再双击错误信息，可看到更详细而有用的信息。

幸运的是，虽然ceph异常，但运行的其上的虚拟机及应用，居然还能正常访问，只是速度慢了很多。还好，凌晨没什么访问量了。先尝试删掉所有物理节点所有的备份,不管它们是不是被成功的备份。

root@pve10:/var/lib/vz/dump#rm -rf

root@pve10:/var/lib/vz/dump#rm -rf

释放空间，以便ceph相关的服务能向根分区写入日志。其中ceph日志的默认路径为/var/log/ceph ,如果资金预算许可，建议单独用一个物理磁盘来存放ceph日志。即创建一个分区，挂接到目录/var。

删除备份文件以后，磁盘空间得以释放，然后电话询问其它人，这几天有没有人到管理后台去操作，并强烈建议把集群的管理权限收回来（非系统管理的技术人员有所有权限）。

通知完以后，再切换到宿主机系统查看ceph日志，主要是ceph.log及ceph-osd.log，发现输出已经没有报错信息。由此判断，故障已经排除。Proxmox web管理界面，选中某个物理节点，强制启动监视器。

启动后，“quorum”列的值由“否“变成”是“。

再点左侧菜单OSD，磁盘都出来了！

切换到宿主机系统debian，查看osd，也能正常工作了。

root@pve10:/var/log/ceph# ceph osd tree
ID CLASS WEIGHT   TYPE NAME      STATUS REWEIGHT PRI-AFF
-1         34.92139 root default                          
-3        8.73035     host pve10                        
 0     hdd  2.18259         osd.0      up    1.00000 1.00000
 1     hdd  2.18259         osd.1      up    1.00000 1.00000
 2     hdd  2.18259         osd.2      up    1.00000 1.00000
 3     hdd  2.18259         osd.3      up    1.00000 1.00000
-5        8.73035     host pve20                        
 4     hdd  2.18259         osd.4      up    1.00000 1.00000
 5     hdd  2.18259         osd.5      up    1.00000 1.00000
 6     hdd  2.18259         osd.6      up    1.00000 1.00000
 7     hdd  2.18259         osd.7      up    1.00000 1.00000
-7        8.73035     host pve30                        
 8     hdd  2.18259         osd.8      up    1.00000 1.00000
 9     hdd  2.18259         osd.9      up    1.00000 1.00000
10     hdd  2.18259         osd.10     up    1.00000 1.00000
11     hdd  2.18259         osd.11     up    1.00000 1.00000
-9        8.73035     host pve40                        
12     hdd  2.18259         osd.12     up    1.00000 1.00000
13     hdd  2.18259         osd.13     up    1.00000 1.00000
14     hdd  2.18259         osd.14     up    1.00000 1.00000
15     hdd  2.18259         osd.15     up    1.00000 1.00000

root@pve10:/var/log/ceph# ceph osd tree

ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF

-1 34.92139 root default

-3 8.73035 host pve10

0 hdd 2.18259 osd.0 up 1.00000 1.00000

1 hdd 2.18259 osd.1 up 1.00000 1.00000

2 hdd 2.18259 osd.2 up 1.00000 1.00000

3 hdd 2.18259 osd.3 up 1.00000 1.00000

-5 8.73035 host pve20

4 hdd 2.18259 osd.4 up 1.00000 1.00000

5 hdd 2.18259 osd.5 up 1.00000 1.00000

6 hdd 2.18259 osd.6 up 1.00000 1.00000

7 hdd 2.18259 osd.7 up 1.00000 1.00000

-7 8.73035 host pve30

8 hdd 2.18259 osd.8 up 1.00000 1.00000

9 hdd 2.18259 osd.9 up 1.00000 1.00000

10 hdd 2.18259 osd.10 up 1.00000 1.00000

11 hdd 2.18259 osd.11 up 1.00000 1.00000

-9 8.73035 host pve40

12 hdd 2.18259 osd.12 up 1.00000 1.00000

13 hdd 2.18259 osd.13 up 1.00000 1.00000

14 hdd 2.18259 osd.14 up 1.00000 1.00000

15 hdd 2.18259 osd.15 up 1.00000 1.00000

假如通过删除备份释放空间不能恢复服务，最坏的打算，就是重建集群，从nfs备份中恢复了。这不会丢失数据，因为数据库不在此集群中。

最后，记得把备份目录改成nfs共享村存储，收回系统权限，以绝后患！

微信关注我们

原文链接：https://blog.51cto.com/sery/2345236

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

诡异的druid链接池链接断开故障经验总结

背景症状排查修复背景最近在陆续做机房升级相关工作，配合DBA对产线数据库链接方式做个调整，将原来直接链接读库的地址切换到统一的读负载均衡的代理 haproxy 上，方便机柜和服务器的搬迁。切换之后线上时不时的会发生 discard connection 错误，导致程序报 500 错误，但不是每次都必现的。开发框架: spring boot+mybatis+druid+shardingJDBC网络架构: appserver->mysql(master) 写appserver->haproxy->mysql(slave)/n 读第一反应肯定是因为这次的读库地址的变动引起的问题，觉得问题应该是 druid 链接池中的 connection 保活策略没起作用，只要做下配置修改应该就可以了。结果这个问题让我们排查了好几天，我们竟然踩到了千年难遇的深坑。这个问题排查的很坎坷，一次次的吐血，最终我们定位到问题并且优雅的修复了，我们一起来体验下这个一次一次让你绝望一次一次打脸的过程。症状先说故障症状，经常出现如下错误： discard connectioncom....

2019-01-19

629

Azure Event Grid是一个托管事件路由平台，使我们能够实时响应Azure中托管的应用程序或拥有的任何Azure资源中发生的更改。Event Grid处理来自Azure服务的内置Azure事件以及来自应用程序的自定义事件，并实时发布它们。它可以每秒动态扩展和处理数百万个事件，Azure为生产工作负载提供99.99 SLA Event Grid收到事件后，可通过事件处理程序（如Azure自动化，事件中心，Azure功能，Azure逻辑应用程序或自定义Web挂钩）促进程序操作的触发。准备Azure Runbook账户：点击“新建”—“管理工具”—“自动化”：输入“自动化账户名称”及”资源组名称”，如下图所示，点击创建：创建完成如下图所示：点击“模块”—“更新Azure模块”：点击“是”：点击“模块库”，搜索“AzureRM.Tags”,点击搜索结果：点击“导入”：导入成功，如下图所示：将Event Grid导入Runbook 选择我们刚刚创建自动化账户，点击”Runbook”—“浏览库”：搜索“Event grid”,然后点击“Integrating Azu...

2019-01-22

823

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。