在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn
背景
PyODPS DataFrame 提供了类似 pandas 的接口,来操作 ODPS 数据,同时也支持在本地使用 pandas,和使用数据库来执行。
PyODPS DataFrame 除了支持类似 pandas 的 map 和 apply 方法,也提供了 MapReduce API 来扩展 pandas 语法以适应大数据环境。
PyODPS 的自定义函数是序列化到 MaxCompute 上执行的,MaxCompute 的 Python 环境只包含了 numpy 这一个第三方包,用户常常问的问题是,如何在自定义函数里使用 pandas、scipy 或者 scikit-learn 这样的包含c代码的库?
现在,MaxCompute 在 sprint 27 及更高版本的 isolation,让在自定义函数中使用这些包成为可能。同时,
PyO
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Hadoop Yarn上的调度器
1. 引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。 上图是Yarn的基本架构,其中 ResourceManager 是整个架构的核心组件,负责集群上的资源管理,包括内存、CPU以及集群上的其他资; ApplicationMaster 负责在生命周期内的应用程序调度; NodeManager 负责本节点上资源的供给和隔离;Container 可以抽象的看成是运行任务的一个容器。本文讨论的调度器是在 ResourceManager 进行调度,接下来在了解一下 FIFO 调度器、Capacity 调度器、Fair 调度器三个调度器。 2. FIFO调度器 上图显示了 FIFO 调度器的实现(执行过程示意图)。FIFO 调度器是先进先出(First In First Out)调度器。FIFO 调度器是 Hadoop 使用最早的一种调度策略,可以简单的将其理解为一个 Java 队列,这就意味着在集群中同时只能有一个作业运行。所有的应用程序按照提交顺序来执行,在上一个 Job 执行完成之后,下一个 Job 按照队列中的顺序...
- 下一篇
2018数据库技术发展趋势
当前,正由IT时代进入DT时代,随着移动互联网、物联网的发展,企业正产生大量的数据,而数据的存储和组织离不开数据库技术,更多的公司意识到了数据能够为公司带来商业利益,于是如何管理和利用好数据已经变得越来越重要。 挖掘数据的价值,对数据进行分析,让数据指导决策已经成为很多公司最重要的工作之一,因此选择合适的数据库系统对公司的技术发展至关重要。 笔者曾经在某大型互联网公司负责Hadoop平台及部分MySQL数据库的管理,工作中涉及到对DBMS的选型、管理及优化等工作内容,笔者认为,未来数据库发展将有三大趋势: 一、数据库管理技术正在向AI方向发展 由于DBMS的发展越来越快,功能越来越多,需要优化的参数内容也相对更多,而各个公司的应用场景不同,对数据库的要求也各有特点。传统DBMS对管理人员要求专业性高,成本也很高,DBMS可以处理大量的数据和复杂的负载工作,但是却难以管理,因为它们具有数百个配置选项,用于控制诸如用于缓存的内存量以及将数据写入存储器等因素。 基于这些原因,一些DBMS与AI的结合相继出现,例如Oracle提出的自治数据库的概念,以及“OtterTune”,OtterTun...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装