ODPS技术架构及应用实践
本文来自《程序员》与阿里云联合出品的《凌云》杂志。
作者:李妹芳 张云远
初识ODPS
ODPS是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架,主要的功能组件有如下几个。
■Tunnel服务:数据进出ODPS的唯一通道,提供高并发、高吞吐量的数据上传和下载服务。
■SQL:基于SQL92并进行了本地化扩展,可用于构建大规模数据仓库和企业BI系统,是应用最为广泛的一类服务。
■DAG编程模型:类似Hadoop MapReduce,相对SQL更加灵活,但需要一定的开发工作量,适用于特定的业务场景或者自主开发新算法等。
■Graph编程模型:用于大数据量的图计算功能开发,如计算PageRank。
■XLIB:提供诸如SVD分解、逻辑回归、随机森林等分布式算法