PyOdps 0.4版本发布,从一个故事说起
有这么个故事(如有雷同,纯属巧合)。有一天,某运营同学给某开发同学一个excel文件,里面是个客户清单。
“帮我查下这些用户的消耗呢”。
开发同学扫了一眼,几百个用户。这个事肯定是可以办的,但是想到麻烦程度,开发同学心里肯定是有不少羊驼经过的啦。
“有点麻烦啊”,开发同学轻轻抱怨。
“我懂的,把这个表和ODPS里的表join下就好了嘛。”运营同学努努嘴。
“……”。于是,开发同学把excel数据导出成文本格式,然后dship上传到ODPS,ODPS上编写SQL,dship下载,大功告成。
这里说得很轻松,但其实整个过程真的挺麻烦呢。要是这个过程中还要对excel中的数据进行过滤,最终结果还要绘个图,还是需要不少时间。
但是,如果这个开发同学使用PyOdps 0.4+版本新特性,一切就都轻松写意了。
为了模拟这个过程,我们拿movielens 10