在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

2018-05-09 721

背景

PyODPS DataFrame 提供了类似 pandas 的接口，来操作 ODPS 数据，同时也支持在本地使用 pandas，和使用数据库来执行。

PyODPS DataFrame 除了支持类似 pandas 的 map 和 apply 方法，也提供了 MapReduce API 来扩展 pandas 语法以适应大数据环境。

PyODPS 的自定义函数是序列化到 MaxCompute 上执行的，MaxCompute 的 Python 环境只包含了 numpy 这一个第三方包，用户常常问的问题是，如何在自定义函数里使用 pandas、scipy 或者 scikit-learn 这样的包含c代码的库？

现在，MaxCompute 在 sprint 27 及更高版本的 isolation，让在自定义函数中使用这些包成为可能。同时，
PyO

微信关注我们

原文链接：https://yq.aliyun.com/articles/591508

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop Yarn上的调度器

1. 引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。上图是Yarn的基本架构，其中 ResourceManager 是整个架构的核心组件，负责集群上的资源管理，包括内存、CPU以及集群上的其他资； ApplicationMaster 负责在生命周期内的应用程序调度； NodeManager 负责本节点上资源的供给和隔离；Container 可以抽象的看成是运行任务的一个容器。本文讨论的调度器是在 ResourceManager 进行调度，接下来在了解一下 FIFO 调度器、Capacity 调度器、Fair 调度器三个调度器。 2. FIFO调度器上图显示了 FIFO 调度器的实现（执行过程示意图）。FIFO 调度器是先进先出（First In First Out）调度器。FIFO 调度器是 Hadoop 使用最早的一种调度策略，可以简单的将其理解为一个 Java 队列，这就意味着在集群中同时只能有一个作业运行。所有的应用程序按照提交顺序来执行，在上一个 Job 执行完成之后，下一个 Job 按照队列中的顺序...

2018-05-09

666

产品介绍：阿里云Elasticsearch，提供基于开源Elasticsearch服务，致力于数据分析、数据搜索等场景服务。在开源Elasticsearch基础上提供企业级权限管控、安全监控告警、自动报表生成等功能。适用客户：面向传统电商公司／大数据公司／互联网公司等。主要面向场景是：数据分析及搜索、日志监控、非结构化数据库场景。发布功能： elasticsearch 5.2.2版本付费方式：按量付费和预付费模式产品文档： https://help.aliyun.com/product/57736.html

2018-05-09

581

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

背景

Hadoop Yarn上的调度器

阿里云Elasticsearch公测发布

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Spring

Sublime Text

欢迎您来访！