刚线上又出现一个问题。。。热乎的,又是缓存!
大家好,我是yes。 我又来送线上排查经历啦! 事情是这样的,今天同事给我反馈了一个问题。 因为我们的应用需要从第三方那边同步订单的信息,如果用户有一段时间未进入订单页面,则再次进入之后会自动进行一次全量的从第三方拉取订单的操作,这样能可及时更新订单信息,防止用户操作过期的订单。 近期,这个同事发现每次点订单列表都会触发全量拉取,这明显就不合理,非常耗费后端任务的资源。 一开始我觉得这跟我肯定没关系,可能是前端代码出了 BUG (哈哈哈,上次也是这样想)。 所以我告知了前端的同事,经过排查,他很确定的告诉我代码肯定没问题,只有超过一小时没同步过订单的用户,再次进入订单页面进去才会触发拉取。 我看他信誓旦旦的样子,信了。没办法,只能我自己去研究研究了。 这一研究还真被我发现了问题,并追根溯源发生竟是以前碰到的一个问题引起的,真是一环扣这一环! 开始排查 我先登录测试账号,发现无法复现同事所说的每次点击订单列表都会触发全量拉取订单的情况。 好嘛,出师不利。 随即跟他进行了一番沟通,我发现,还竟然是个例?于是,找出个别会出现这样情况的用户。 模拟一看,全量订单拉取任务执行的时候,其实报错了,...