一次核心线上磁盘差点爆满坑人事件...
每天忙的博客都没时间更新,(近期会更新rac,ods等方面)此刻的我可以下班了(夜班一周一两次吧),因为换了工作,对整体系统架构及业务都没特别熟悉。本想现在回家休息,可是心情不怎么美丽,刚刚经历了一场核心磁盘差点爆满事件,有点不痛快,吐槽一下,也算是分享一下自己的经验吧!
情况是这样的:
夜晚做一个核心跑批(涉及到几万用户的账户资金扣款,不容出错),在二次逻辑导库(Oracle)的时候,突然接到数据中心的电话,两台 主机1 主机2 应用服务器下的/fns目录96%了,说可不可以快点清理一下。(数据中心有集中式监控,但是操作大部分我们处理,何况是夜晚,技术支持不在)
于是尽快排查,因为应用服务不知道root,而且磁盘空间都很紧张,权限很严格。找到数据库备份目录后,判断了一下dmp文件大小,当前备份增长很快,一会儿%98了。还有8G空间,但是根据备份文件比较,还有20G才备份完。此刻和时间赛跑...
不爽1:
1)%96了才告警,这不是坑人么,阈值怎么设置的啊!
2)核心应用恰好在导库,删错东西,影响批扣,领导肯定不高兴,甚至追责任。
目前发现仅仅/tmp下有可怜的空间,和数据中心打电话问有没有之前备份,貌似不是和数据库相关的人值班,给不了我确切答案,想和领导打电话确认可不可以临时删除之前备份,电话不通。
不爽2:
1)为什么磁盘空间那么小,真的怀疑我在操作假的核心服务器,短时间还扩容不了。(机房异地)
2)直属领导联系不通,虽然知道有上个月的归档,但是没得到允许不敢删除啊。
于是告诉自己冷静,冷静。此刻只剩下4G空间,如果影响批量,就麻烦了。紧急在/tmp下创建临时目录,将一些dmp.gz mv过去,剩余空间在增长(gz文件 2-3G,dmp文件,40-50G),还好先缓解一下,但是我得至少腾出20G,才能解决问题。想想可不可以用tar 压缩,然后加参数删除源文件,刚执行压缩到tmp下,立马觉得不行,ctrl+c,同时立刻报警 /tmp 使用率 %100。因为文件太大了。
不爽3:
1)脚本被修改,为什么没有接到通知,临时压缩有风险啊 哎。。。
2)脑子已经不敢确定xz gzip tar压缩,压缩过程会不会有临时处理文件,那样死的更快。
两台应用挂载同一个目标主机盘,gpfs文件系统格式,还没有确定用的什么方式挂载。(nfs或者其它),但是我已经没时间想这些了,空间又不够了 %98了。先在/tmp下创建临时目录,缓解一下压力。
评估了一下,两个/tmp各分担一下,恰好批量完成,剩下4G空间。
不爽4:
1)如果两台tmp空间不够的话,大家如果是我怎么办?(后期尝试密码碰运气进入oracle用户进去了)
此刻,批量完成,心里松了口气。看着可怜的4G空间,心里不知道该说些什么。然后我想了一下,gzip,xz压缩是应该可以的(因为之前从来没有遇到过磁盘空间不够的情况,没深入理解这两个命令压缩原理),压缩之后,空间恢复。
不爽5:
1)脚本被修改没通知,领导肯定会问。不确定是不是同事,还是厂家 哎。。。万一是前者,又涉及到 工作没交接清楚问题,我也不好说。
2)因为和领导打了电话,领导肯定会问情况,还没想好怎么说。
3)工作交接,处理过程,以及建议等后续问题。
然后,我困了,要回家休息了,也许这只是一个意外吧!不知道大家遇到这种情况,该怎么处理!因为公司东西是机密,不可以透露,这里仅仅分析我的个人经历吧,个人情感,经验博客,谢绝转载!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Python3:图片转字符画
防伪码:没有相当程度的孤独是不可能有内心的平和。 1、环境准备 主机名 IP 系统 Python版本 Python-01 192.168.10.9 CentOS release 6.9 (Final) 3.5.4 参考:https://www.shiyanlou.com/courses/370/labs/1191/document 2、原理 字符画是一系列字符的组合,可以把字符看作是比较大块的像素,一个字符能表现一种颜色(暂且这么理解吧),字符的种类越多,可以表现的颜色也越多,图片也会更有层次感。 灰度值:指范围一般从0到255,白色为255,黑色为0,故黑白图片也称灰度图像。 任何颜色都由红、绿、蓝三基色组成,假如原来某点的颜色为RGB(R,G,B),本次实验可以用以下公式来转换灰度: gray=0.2126*r+0.7152*g+0.0722*b 3、实验 本次实验的核心是pillow库的Image模块和argparse模块。 3.1 图像处理库pillow Pillow是Python里的图像处理库,支持Python3.X,提供了广泛的文件格式支持和强大的图像处理能力,主要包括图像...
- 下一篇
华为5700系列交换机常用配置示例
华为S5700系列交换机,是我们项目中用的较多的一款,其中24与48口应用较多。现在将华为交换机的一些常用配置整理一下,进行记录。如有错误,请指正。 1 允许telnet(远程登录) 允许华为交换机能telnet,设置密码为Admin@123 telnet server en # aaa authentication-scheme default authorization-scheme default accounting-scheme default domain default domain default_admin local-user huawei password cipher Admin@123 local-user huawei privilege level 15 local-user huawei service-type telnet terminal local-user admin password cipher Admin@123 local-user admin service-type http # user-interface con 0 authe...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS6,CentOS7官方镜像安装Oracle11G
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8编译安装MySQL8.0.19
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- 设置Eclipse缩进为4个空格,增强代码规范