首页 文章 精选 留言 我的

精选列表

搜索[稳定],共10000篇文章
优秀的个人博客,低调大师

QEMU 5.2 稳定版发布:改进对 RISC-V 的支持

QEMU 5.2 已正式发布,新版本总共包括超过 3200 个变化,亮点如下: 改进对RISC-V 的支持,包括升级 OpenSBI 至 0.8 版本、对设备迁移的支持,以及其他一些底层的改进 当使用 Linux 5.8 或更高版本内核时,提供了新的 KVM CPU 功能来优化异步页面故障的处理 QEMU 5.2 实现了 NVMe 1.3 规范所有强制要求的功能 macOS 上支持 DTrace 后端 QEMU 的构建系统现在部分基于 Meson,但还没完全过渡 …… 完整内容查看 Changelog。 下载地址https://www.qemu.org/download/#source QEMU 是一个纯软件实现的通用模拟器和虚拟机,它有三种模式,几乎可以模拟任何硬件设备: Full-system emulation:可在任何支持的硬件架构上运行任何操作系统 User-mode emulation:运行另一个 Linux/BSD 程序 Virtualization:接近本机性能运行KVM 和 Xen 虚拟机

优秀的个人博客,低调大师

LuatOS@Air302 V0004 发布了,更稳定更多 demo

时隔2个月,LuatOS@Air302 V0004版来了,这一主要更新有: add: 添加低内存消耗的新版mqtt实现, mqtt2.lua, 使用方法请看demo/mqtt2 add: 添加时区/锁band/ptw的获取和设置方法, 详情看nbiot库的api add: json库支持设置浮点数格式 add: 添加sht20/sht30的demo add: air302添加个上报到luatos设备跟踪服务的demo merge: 合并上游sdk v001.034.20201120 update:ctiot默认启用UQ MODE缓存数据 fix: gpio中断和上拉的bug fix: 在内存爆满的边缘,有可能触发死机的bug fix: air302的demo里有错误的aon_gpio和adc描述,修正一下 详情查看:https://gitee.com/openLuat/LuatOS/releases/v0004_air302

优秀的个人博客,低调大师

防微杜渐的稳定性法宝:播控系统面向失败的设计

作者| 阿里文娱高级开发工程师 云琰 一、浅谈面向失败的设计 1. 什么是面向失败的设计? 面向失败的设计,就是以“失败”为对象,天然为了失败而存在的设计思想,在一开始的系 统设计阶段就考虑到各种失败场景,把面向失败当成是系统设计的一部分,准备好从失败中恢 复的策略。 2. 为什么要面向失败设计? 因为无所不在的失败场景,比如硬件问题,软件 bug,配置变更错误,系统恶化,超预期流量,外部攻击,依赖库问题,依赖服务问题。并且,这些一旦失败,轻则出现业务不可用,影响用户体验和企业声誉;重则导致数据永 久丢失、业务再无恢复可能。例如,911 事故发生前,约有 350 家企业在世贸大厦工作。事故 后,有 200 家企业由于重要系统被破坏,关键数据丢失而倒闭。 3. 怎么面向失败设计? 在软件的整个生命周期中,不同的阶段面对失败场景有不同的应对规则。

优秀的个人博客,低调大师

案例分享:巧用工具提升无源码系统的性能和稳定

导读:在没有核心系统源码的情况下,修改源码打印耗时的方法无法使用,通过tcpdump、wireshark、gdb、010 editor、火焰图、ida、数据库抓sql耗时语句、oracle ash报告、loadrunner等工具找到了服务器tps上不去、C程序进程随机挂掉的问题,并顺利解决,收获颇多。 背景 公司最近新上线一个系统,主要架构如下: 测试环境系统部署后,出现了两个问题: 1.loadrunner压测tps上不去,压测java接口tps 单机只能到100多tps就上不去了,耗时从单次访问的100ms上升到110并发时的1s左右。 压测期间C服务器1 经常不定时挂掉。 因为某些原因,该项目C相关程序没有源码,只有安装部署文件,为了解决上述两个问题,我们几个同事和重庆同事一块参与问题排查和解决。因为没有源码,中间经历了层层波折,经过一个月努力,终于解决了上述两个问题,整个排查过程学到了很多知识。 用到的分析工具 1.tcpdump, 2.wireshark, 3.gdb, 4.010 editor, 5.火焰图, 6.ida, 7.数据库抓sql耗时语句, 8.oracle ash报告, 9.loadrunner 几句话总结 1.C程序客户端socket长连接调用C服务端存在性能瓶颈,通过tcpdump,wireshark 二进制分析出传输协议后改用java调用C服务端,单机tps提升1倍,性能提升3倍 2.数据库语句存在for update 语句导致并发上不去,经过分析从业务上采用sequence 替换for update语句,并通过010 editor直接修改二进制 修改for update 语句相关逻辑为sequence ,系统具备了扩容服务器tps也能同步提升的能力 3.数据库insert语句并发情况下存在瓶颈,扩大oracle redo log日志大小解决,继续提升tps40%。 4.程序进程随机挂掉,通过gdb分析core dump文件,定位到在并发情况下程序中使用的gethostbyname有问题,采用临时方法解决。 分析过程 1.第一次瓶颈定位 刚开始排查问题时,loadrunner压测java接口,并发用户从0逐渐增加到110个的情况下,tps到100左右就不再提升,响应耗时从100ms增大到1s。此时我们的分析重点是谁是当前的主要瓶颈 再看一遍架构图, 图中5个节点都有可能是瓶颈点,数据库此时我们通过数据库dba管理权限抓取耗时sql,没抓取到,先排除数据库问题,java的我们打印分步耗时日志,定位到jni调用 c客户端耗时占比最大。这时瓶颈点初步定位到C客户端,C服务端1,C服务端2 这三个节点。 因为没有源码,我们采用tcpdump抓包分析,在C服务器1上 tcpdump -i eth0 -s 0 -w aa.txt host java客户端ip 抓出的包用wireshark分析 通过追踪流-TCP流 分析服务端耗时并没有变的太大,因为C客户端和C服务端是长连接,多个请求可能会共用一个连接,所以此时分析出的数据可能会不太准,因此我们采用loadrunner压测,其它条件不变,一台C服务器1和两台C服务器1分别查看耗时变化, 其它条件不变,一台java服务器和两台java服务器分别查看耗时变化. 最终定位到是C客户端的问题。(ps:在wireshark的分析数据时还跟秦迪大师弄明白了tcp延迟确认) 2.改造C客户端 C客户端和C服务端是通过长连接通信的,直接改造C代码难度较大,所有我们准备把C替换成java,这就需要分析C之间通信传参时候用的什么协议,然后根据这个协议用java重写。我们根据之前的经验推测出了编码协议,用wireshark分析二进制确认确实是这种编码。 我们根据这种协议编码采用java重写后,同样在110并发用户情况下,tps提升到了210(提升两倍),耗时降到了330ms(是原来的三分之一) 3.第二次瓶颈定位。 经过第二步优化后tps提升了两倍,但是此时扩容tomcat,扩容C服务器,tps就维持在210左右,不会变高了。因此我们继续进行定位新的瓶颈点。此时找dba要到一个实时查看oracle 耗时sql的语句 select (select b.SQL_TEXT from v$sqlarea b where b.SQL_ID=a.SQL_ID ) sqltxt, (select c.SQL_FULLTEXT from v$sqlarea c where c.SQL_ID=a.SQL_ID ) sqlfulltxt, a.username, a.LAST_CALL_ET,a.MACHINE ,a.command, a.EVENT, a.SQL_ID ,a.SID,a.SERIAL#, 'alter system kill session ''' || a.SID ||','||a.SERIAL# ||''';' as killstment from v$session a where a.STATUS = 'ACTIVE' and a.USERNAME not in ('SYS', 'SYSTEM') order by a.LAST_CALL_ET desc ,a.username,a.MACHINE ,a.command, a.EVENT, a.SQL_ID ,a.SID; 发现有个for update的sql 并发量大的时候部分请求 LAST_CALL_ET列的值能达到6秒,for update导致了所有请求被串行执行,影响了并发能力。我们经过分析业务逻辑后,用sequence暂时替换 for update 语句,但是我们没有源码,没法修改,后来又通过010 editor 直接修改二进制文件,通过010 editor 查询找到了 for update 语句,顺利替换。 替换后,4台C服务器tps达到了580,提升了2.7倍(580/210),系统初步具备了横向扩展能力 4.第三次瓶颈定位。 经过上一步改造,4台C服务器时系统的tps提升了2.7倍,但是并没有提升到4倍(210*4=840),没有线性提升,说明还是有别的瓶颈,又通过dba上边给的sql发现insert 语句偶尔耗时也很长,在1s左右,EVENT等待事件是IO事件,DBA同事给修改了redo log file 大小(这个是测试环境Oracle,之前没有优化),从默认的50M,修改为1G, tps 提升到了640 (还没提升到4倍,也就是说还有瓶颈,可能还是数据库,但因为数据库暂时没办法抓取到毫秒级的耗时sql,没再继续追查) 经过这几次性能提升,加上我们测试服务器配置都不高,如果线上服务器性能预估能达到1000tps,基本满足眼前需求,因此就没再继续进行性能优化。 5.程序进程随机挂掉问题。 压测过程中,C服务器进程经常随机挂掉,通过tail -f /var/log/messages 发现生成了core dump 文件,但是又被系统自动删除了。董建查到了开启core dupm文件的方法,如下: a、ulimit -c 查看是否为0,如果为0,表示coredump文件设置为0,需要修改为不限制 ulimit -c unlimited b、修改/etc/abrt/abrt-action-save-package-data.conf ProcessUnpackaged = yes 修改后进程又崩溃时core dump 文件生成了,进入core dump 目录进行调试 gdb 脚本路径 coredump bt 显示堆栈信息 继续执行如下命令 f 0 set print pretty on info local //显示当前函数中的局部变量信息。 通过p命令查看里边变量的值 发现变量thishost->h_addr_list的值为null 我们分析可能是并发请求时有方法不是线程安全的导致这个值为null,从而引起了进程crash,继续调试。 在gdb中 set logging on 把调试信息输出到文件 thread apply all bt 输出所有的线程信息。 退出gdb grep --color -i clientconnect -C5 gdb.txt 确实有两个线程并发在访问 通过ida工具反编译so,最终定位到以下语句在并发时有问题,thishost中的变量可能会被另一个线程在一瞬间初始化为null。 thishost = gethostbyname((const char *)hostname); ip = inet_ntoa(*(struct in_addr *)*thishost->h_addr_list); 根据我们的项目特点,因为我们没有远程调用,C服务端1和C服务端2都部署在了同一台服务器上,所以我们通过修改二进制把地址暂时写死成了127.0.0.1,把ip = inet_ntoa((struct in_addr )*thishost->h_addr_list);修改成了空指令,重新部署后没再出现系统崩溃的问题。 作者简介:杨振-宜信工程师,前微博feed组工程师,对源码学习感兴趣;董建-宜信工程师,前微博工程师,关注大数据和高可用技术 原文发布于 高可用架构 来源:宜信技术学院

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。