MySQL 表中非主键列溢出情况监控
今天,又掉坑了。 之前踩到过MySQL主键溢出的情况,通过prometheus监控起来了,具体见这篇MySQL主键溢出复盘
这次遇到的坑,更加的隐蔽。 是一个log表里面的一个int signed类型的列写满了。快速的解决方法当然还是只能切新表来救急了,然后搬迁老表的部分历史数据到热表。
亡羊补牢,处理完故障后,赶紧写脚本把生产的其他表都捋一遍。
下面是我暂时用的一个检测脚本,还不太完善,凑合用
分2个文件(1个sql文件,1个shell脚本)
check.sql 内容如下:
SELECT cast( pow(2, case data_type when 'tinyint' then 7 when 'smallint' then 15 when 'mediumint' then 23 when 'int' then 31 when 'bigint' then 63 end+(column_type like '% unsigned'))-1 as decimal(30,0)) as max_int, ' - ', concat ('(', concat('select ','max(',COLUMN_NAME,')',' from ',TABLE_SCHEMA,'.',TABLE_NAME),')') from information_schema.COLUMNS where TABLE_SCHEMA NOT IN ('information_schema','sys','test','mysql','performance_schema') AND DATA_TYPE IN ('int' ) ;
直接到数据库里面执行,效果类似这样:
check.sh 内容如下:
#!/bin/bash # 监测int类型的当可用空间少500w的时候,提醒做DDL操作 # 设置 session级别的 max_execution_time为2秒,防止没有索引的大的拖慢数据库,但是这样可能漏判部分列,需要注意下 # 注意:我这里bigint类型的没有检查,如果需要请修改 check.sql where条件中的DATA_TYPE加上 bigint的检查 source /etc/profile set -u mkdir $(date +%F) -pv # step1 检测 for host in {'192.168.1.100','192.168.1.110','192.168.1.120','192.168.1.130'}; do mysql -udts -pdts -h${host} -BN < check.sql 2>/dev/null > sql.log wait echo "说明: | 当前列允许的最大值 | 巡检用的SQL " >> $(date +%F)/$host.log while read line; do ret=$(mysql -udts -pdts -h${host} -BNe "set session max_execution_time=2000;select $line" 2>/dev/null) echo ${ret} if [[ "${ret}" == "NULL" ]]; then continue fi if [ ${ret} -lt 5000000 ] ; then echo "$line 剩余空间 ${ret}, 该表可用水位不足500W,建议做DDL修改为bigint类型" >> $(date +%F)/$host.log fi done < ./sql.log done # step2 将检查的内容打包发邮件(这里可能需要根据自己生产的情况改改) tar czf $(date +%F).tar.gz $(date +%F) sendemail -s 192.168.1.200 -f post@domain.com -t ergou@domain.com -a $(date +%F).tar.gz -u "$(date +%F) int水位线巡检日志" -o message-content-type=html -o message-charset=utf8 -m "内容详见附件" # step3 清理每日生成的以日期命名的目录和tar.gz文件,这里我就不贴命令
再配个每天上午10点的cronjob即可,
最终每天收到邮件里面内容大致类似如下:
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
上云之后,数据库管理员的角色会发生哪些变化?
在上云之前,企业通常会有数据库管理员(DBA)和数据库专家团队,他们的主要职责是:为构建企业数据平台并维护所选的数据库解决方案。所以需要DBA在管理和维护特定数据库系统方面拥有深厚的专业知识。由于他们在所选择解决方案上投入了大量的时间和成本,所以即使有更好的选择,DBA们仍然会在传统方式上倾注更多精力。 但是,随着云端提供了托管数据库更多的选择,DBA角色也随之发生了变化。如今的DBA不再孤立的专注于一种数据库解决方案。而且,DBA们发现他们的工作更多是基于软件,而很少涉及管理硬件。不难看出,DBA正迎来高光时刻,要承担更多责任,并有机会与开发团队一起开发战略业务解决方案。 那么云,给DBA的工作的方式带来了哪些变化? 容量规划 传统上,数据库容量规划是指为高峰负载配置服务器容量,因此大多数时候DBA要为未充分利用的资源付费。这不仅成本高昂,而且灵活性也大大降低。但是,云数据库更具弹性,因此可以动态地自动扩展其存储和计算能力,以满足需求的变化。软件API通常用于配置对受监控指标和警报的自动响应。此外,某些云数据库是无服务器的,这意味着根本无需对服务器或虚拟机进行配置。 数据库备份与恢复...
- 下一篇
springboot + aop + Lua分布式限流原理解析
一、什么是限流?为什么要限流?不知道大家有没有做过帝都的地铁,就是进地铁站都要排队的那种,为什么要这样摆长龙转圈圈?答案就是为了 限流 !因为一趟地铁的运力是有限的,一下挤进去太多人会造成站台的拥挤、列车的超载,存在一定的安全隐患。同理,我们的程序也是一样,它处理请求的能力也是有限的,一旦请求多到超出它的处理极限就会崩溃。为了不出现最坏的崩溃情况,只能耽误一下大家进站的时间。 限流是保证系统高可用的重要手段!!! 由于互联网公司的流量巨大,系统上线会做一个流量峰值的评估,尤其是像各种秒杀促销活动,为了保证系统不被巨大的流量压垮,会在系统流量到达一定阈值时,拒绝掉一部分流量。 限流会导致用户在短时间内(这个时间段是毫秒级的)系统不可用,一般我们衡量系统处理能力的指标是每秒的 QPS 或者 TPS ,假设系统每秒的流量阈值是1000,理论上一秒内有第1001个请求进来时,那么这个请求就会被限流。 二、限流方案1、计数器Java内部也可以通过原子类计数器 AtomicInteger 、 Semaphore 信号量来做简单的限流。 // 限流的个数 private int maxCount =...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS6,CentOS7官方镜像安装Oracle11G