什么是PyODPS DataFrame
最近已经写了几篇有关PyODPS DataFrame的文章,但是还是有些同学不明白PyODPS DataFrame是什么,以及能做什么事情。这篇文章,我会做出解释,以及简单介绍一下实现的原理。
PyODPS DataFrame
首先什么是DataFrame,我在以前的文章也解释过,我们可以把它认为是二维表结构。在单机上,数据科学家一般会使用R或者Python库pandas来做数据分析,DataFrame是它们上广泛使用的数据结构。在DataFrame上,我们可以做过滤、列筛选、join、union等等操作。
因此,DataFrame也常常拿来和SQL做比较。我觉得主要的区别有:
- 可能每个系统都有自己的SQL语法,但是对于DataFrame来说,可以把一套语法应用到不同的系统中,也就是说,各个系统上层的DataFrame语法可以是一致的。
- D