定位排查工作流的计算结果数据量不符合预期的方法
近期有发现一些用户在咨询,为什么数据从数据源出来后,经过了一些计算,结果不符合预期了。最常见的是说,为什么我的数据在Mysql里有xx条,怎么到MaxCompute里算了下结果变了。因为这是两个不同的系统,我们又没办法拿两边的记录直接做个full outer join看看少的是哪些数据。本文拿2个实际的例子,做了简化方便理解,给出排查过程,希望能给大家带来一些思路。
问题1
场景模拟
这是一个常见的场景,为什么我数据同步过来后,就直接用SQL做了count,结果就不对了。
先在mysql里创建一张用户表,并插入一些数据:
create table myuser(uid int,name varchar(30),regTime DATETIME );
insert into myuser(uid,name,regTime) values (1