PyODPS开发中的最佳实践
PyODPS 支持用 Python 来对 MaxCompute 对象进行操作,它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,并且可以用 ml 模块来执行机器学习算法。
现在为了让大家能更好地使用 PyODPS,我们总结开发过程中的最佳实践,来让大家更高效地开发 PyODPS 程序。当然,希望大家能一起来帮助我们来完善总结。
除非数据量很小,否则不要试图进行本地数据处理
我们 PyODPS 提供了多种方便拉取数据到本地的操作,因此,很多用户会试图把数据拉取到本地处理,然后再上传到 ODPS 上。
很多时候,用户其实根本不清楚这种操作的低效,拉取到本地彻底丧失了 MaxCompute 的大规模并行能力。而有的用户仅仅是需要对单行数据应用一个 Python 函数,或者试图做一行变多行的操作,这