Mars 开源月报（2020.3）-低调大师

Mars 开源月报（2020.3）

2020-04-12 709

本月，Mars 发布了 0.4.0b1 ，0.4.0b2 和 0.3.2 以及 0.3.3，点击链接查看详细的 Release Notes。本月两次发布版本是特殊情况，0.4.0b2 修复了 0.4.0b1 中比较紧急的问题。

Mars 项目发布周期

这里先简述下 Mars 的版本发布周期。Mars 以一个月为发布周期，采用双版本发布策略，一般会同时发布 Pre-release 版本和正式版。Pre-release 版本里会包含更多激进的功能或改动，可能会不稳定，而开发中我们认为稳定的功能或增强会被同步到正式版里。

查看 Github 项目的 milestones 可以看到最新的 Pre-release 和正式版本。

查看 Github Projects 页面可以看到归类的 issues 和 PRs。

v0.4 Release 是我们按版本归档的进行中的 issues 和 PRs。其他则是按模块划分。

新版本功能 Highlight

新版本我们花了大量时间来完善 DataFrame API，经过这个版本的努力，pandas 中的一些常见的接口都得到了支持。

更完善的聚合和分组聚合

#1030 让 Groupby.aggregate 支持传入多个聚合函数。
#1054 支持了 DataFrame.aggregate 和 Series.aggregate。
#1019 和 #1069 支持了 cummax 等累积计算。

举个例子，在 pandas 中我们可以对 movielens 的数据执行如下操作：

In [1]: import pandas as pd                                                     

In [2]: %%time 
   ...: df = pd.read_csv('Downloads/ml-20m/ratings.csv') 
   ...: df.groupby('movieId').agg({'rating': ['max', 'min', 'mean', 'std']}) 
   ...:  
   ...:                                                                         
CPU times: user 5.41 s, sys: 1.28 s, total: 6.7 s
Wall time: 4.3 s
Out[2]: 
        rating                         
           max  min      mean       std
movieId                                
1          5.0  0.5  3.921240  0.889012
2          5.0  0.5  3.211977  0.951150
3          5.0  0.5  3.151040  1.006642
4          5.0  0.5  2.861393  1.095702
5          5.0  0.5  3.064592  0.982140
...        ...  ...       ...       ...
131254     4.0  4.0  4.000000       NaN
131256     4.0  4.0  4.000000       NaN
131258     2.5  2.5  2.500000       NaN
131260     3.0  3.0  3.000000       NaN
131262     4.0  4.0  4.000000       NaN

[26744 rows x 4 columns]

我们根据电影的 ID 进行聚合，求用户评价的最大、最小、平均值以及标准差。

使用 Mars 则可以：

In [1]: import mars.dataframe as md                                             

In [2]: %%time 
   ...: df = md.read_csv('Downloads/ml-20m/ratings.csv') 
   ...: df.groupby('movieId').agg({'rating': ['max', 'min', 'mean', 'std']}).execute() 
   ...:  
   ...:                                                                         
CPU times: user 5.81 s, sys: 6.9 s, total: 12.7 s
Wall time: 1.54 s
Out[2]: 
        rating                         
           max  min      mean       std
movieId                                
1          5.0  0.5  3.921240  0.889012
2          5.0  0.5  3.211977  0.951150
3          5.0  0.5  3.151040  1.006642
4          5.0  0.5  2.861393  1.095702
5          5.0  0.5  3.064592  0.982140
...        ...  ...       ...       ...
131254     4.0  4.0  4.000000       NaN
131256     4.0  4.0  4.000000       NaN
131258     2.5  2.5  2.500000       NaN
131260     3.0  3.0  3.000000       NaN
131262     4.0  4.0  4.000000       NaN

[26744 rows x 4 columns]

代码几乎一致，除了 Mars 需要通过 execute() 触发执行。

ratings.csv 有 500M+，使用 Mars 在我的笔记本上运行就可以有数倍加速。当数据量更大的时候，使用 Mars 还可以有更好的加速效果，如果单机无法胜任，也可以使用 Mars 分布式用一致的代码加速执行。

排序

#1053 支持了 sort_index。
#1046 支持了 sort_values。

还是以 movielens 数据为例。

In [1]: import pandas as pd                                                                                               

In [2]: %%time 
   ...: ratings = pd.read_csv('Downloads/ml-20m/ratings.csv') 
   ...: movies = pd.read_csv('Downloads/ml-20m/movies.csv') 
   ...: movie_rating = ratings.groupby('movieId', as_index=False).agg({'rating': 'mean'}) 
   ...: result = movie_rating.merge(movies[['movieId', 'title']], on='movieId') 
   ...: result.sort_values(by='rating', ascending=False) 
   ...:  
   ...:                                                                                                                   
CPU times: user 5.17 s, sys: 1.13 s, total: 6.3 s
Wall time: 4.05 s
Out[2]: 
       movieId  rating                                  title
19152    95517     5.0      Barchester Chronicles, The (1982)
21842   105846     5.0                   Only Daughter (2013)
17703    89133     5.0                   Boys (Drenge) (1977)
21656   105187     5.0              Linotype: The Film (2012)
21658   105191     5.0                    Rocaterrania (2009)
...        ...     ...                                    ...
26465   129784     0.5            Xuxa in Crystal Moon (1990)
18534    92479     0.5         Kisses for My President (1964)
26475   129834     0.5  Tom and Jerry: The Lost Dragon (2014)
24207   115631     0.5             Alone for Christmas (2013)
25043   119909     0.5                  Sharpe's Eagle (1993)

[26744 rows x 3 columns]

主要目标是将数据集中的电影按平均分从高到低进行排列。

到 Mars 这边，代码还是几乎一致。

In [1]: import mars.dataframe as md                                                                                       

In [2]: %%time 
   ...: ratings = md.read_csv('Downloads/ml-20m/ratings.csv') 
   ...: movies = md.read_csv('Downloads/ml-20m/movies.csv') 
   ...: movie_rating = ratings.groupby('movieId', as_index=False).agg({'rating': 'mean'}) 
   ...: result = movie_rating.merge(movies[['movieId', 'title']], on='movieId') 
   ...: result.sort_values(by='rating', ascending=False).execute() 
   ...:  
   ...:                                                                                                                   
CPU times: user 4.97 s, sys: 6.01 s, total: 11 s
Wall time: 1.39 s
Out[2]: 
       movieId  rating                                  title
19152    95517     5.0      Barchester Chronicles, The (1982)
21842   105846     5.0                   Only Daughter (2013)
17703    89133     5.0                   Boys (Drenge) (1977)
21656   105187     5.0              Linotype: The Film (2012)
21658   105191     5.0                    Rocaterrania (2009)
...        ...     ...                                    ...
26465   129784     0.5            Xuxa in Crystal Moon (1990)
18534    92479     0.5         Kisses for My President (1964)
26475   129834     0.5  Tom and Jerry: The Lost Dragon (2014)
24207   115631     0.5             Alone for Christmas (2013)
25043   119909     0.5                  Sharpe's Eagle (1993)

[26744 rows x 3 columns]

Mars 的排序采用了并行正则采样排序算法，在我们的文章（链接）中已经做了介绍，这里不再赘述。

更完善的索引支持

Mars 在之前的版本中就支持了 iloc，现在我们也支持了其他的索引方法。

#1042 中支持了 loc。
#1101 中支持了 at 和 iat。
#1073 中支持了 md.date_range 方法。

通过 loc 的支持，使得基于索引的数据的查找更加方便。

In [1]: import mars.dataframe as md 
  
In [3]: import mars.tensor as mt

In [8]: df = md.DataFrame(mt.random.rand(10000, 10), index=md.date_range('2000-1-1', periods=10000))                      

In [9]: df.loc['2020-3-25'].execute()                                                                                     
Out[9]: 
0    0.372354
1    0.139235
2    0.511007
3    0.102200
4    0.908454
5    0.144455
6    0.290627
7    0.248334
8    0.912666
9    0.830526
Name: 2020-03-25 00:00:00, dtype: float64

自定义函数、字符串和时间处理

#1038 增加了 apply 的支持。
#1063 支持了 md.Series.str 和 md.Series.dt来处理字符串和时间列。

我们可以利用 apply 来计算每个城市（数据集）到杭州（东经120°12′，北纬30°16′）的距离。

In [1]: import numpy as np                                                                                                

In [2]: def haversine(lat1, lon1, lat2, lon2): 
   ...:     dlon = np.radians(lon2 - lon1) 
   ...:     dlat = np.radians(lat2 - lat1) 
   ...:     a = np.sin(dlat / 2) ** 2 + np.cos(np.radians(lat1)) * np.cos(np.radians(lat2)) * np.sin(dlon / 2) ** 2 
   ...:     c = 2 * np.arcsin(np.sqrt(a)) 
   ...:     r =  6371 
   ...:     return c * r 
   ...:                                                                                                                   

In [4]: import mars.dataframe as md                                                                                       

In [5]: df = md.read_csv('Downloads/world-cities-database/worldcitiespop.csv', chunk_bytes='16M', dtype={'Region': object}
   ...: )                                                                                                                 

In [6]: df.execute(fetch=False)                                                                                           

In [8]: df.apply(lambda r: haversine(r['Latitude'], r['Longitude'], 30.25, 120.17), result_type='reduce', axis=1).execute()                                                                                                                 
Out[8]: 
0          9789.135208
1          9788.270528
2          9788.270528
3          9788.270528
4          9789.307210
              ...     
248061    10899.720735
248062    11220.703197
248063    10912.645753
248064    11318.038981
248065    11141.080171
Length: 3173958, dtype: float64

移动窗口函数

#1045 增加了 rolling 移动窗口的支持。

移动窗口函数在金融领域使用频率很高，rolling 是在一个固定长度（也可能是固定的时间间隔）上进行一些聚合计算。以下是一个例子。

In [1]: import pandas_datareader.data as web                                                                                                                      

In [2]: data = web.DataReader("^TWII", "yahoo", "2000-01-01","2020-03-25")                                                                                        

In [3]: import mars.dataframe as md                                                                                                                               

In [4]: df = md.DataFrame(data)                                                                                                                                   

In [5]: df.rolling(10, min_periods=1).mean().execute()                                                                                                            
Out[5]: 
                    High           Low          Open         Close     Volume     Adj Close
Date                                                                                       
2000-01-04   8803.610352   8642.500000   8644.910156   8756.549805        0.0   8756.517578
2000-01-05   8835.645020   8655.259766   8667.754883   8803.209961        0.0   8803.177734
2000-01-06   8898.426758   8714.809896   8745.356445   8842.816732        0.0   8842.784180
2000-01-07   8909.012451   8720.964844   8772.374756   8844.580078        0.0   8844.547607
2000-01-10   8952.413867   8755.129883   8806.285742   8896.183984        0.0   8896.151172
...                  ...           ...           ...           ...        ...           ...
2020-03-19  10423.317090  10083.132910  10370.730078  10180.533887  4149640.0  10180.533887
2020-03-20  10202.623047   9833.786914  10105.280078   9971.761914  4366130.0   9971.761914
2020-03-23   9983.399023   9611.036914   9885.659082   9763.000977  3990040.0   9763.000977
2020-03-24   9821.716016   9436.392969   9703.275098   9591.208984  3927690.0   9591.208984
2020-03-25   9685.129980   9290.444922   9543.636035   9466.308984  4003760.0   9466.308984

[4974 rows x 6 columns]

下一个版本计划

下一个版本会是 0.4.0rc1 和 0.3.4，我们仍然会专注提升 DataFrame API 的覆盖率和性能，提升稳定性，并增加文档。

如果对 Mars 感兴趣，可以关注 Mars 团队专栏，或者钉钉扫二维码加入 Mars 讨论群。

微信关注我们

原文链接：https://yq.aliyun.com/articles/754856

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

并行正则采样排序算法及在 Mars 中的应用

相信大家对排序算法都非常熟悉了，快速排序、堆排序、归并排序等等。如果我们想在一个很大的数据集上进行排序，能利用上多核，甚至是分布式集群，有什么办法么？本文就介绍一种并行排序算法：并行正则采样排序算法（Parallel Sorting by Regular Sampling），简称 PSRS 算法。 PSRS 算法过程 PSRS 算法的整个过程分为四步，如图所示，我们拆解开来讲。现在假设我们有一个数组，有 48 个元素，现在数据被分成4份，即有4个分区。阶段1，每个分区分别排序，并正则采样我们对每个分区的数据调用快速排序，这样每个分区都是排好的数据。接着，我们从排好序的数据里正则采样4个数据。所谓正则，即有规律的，这里我们就每隔4个元素采样一个元素。阶段2，归并采样数据，选出关键点前面四个分区产生了4份采样数据，收集之，然后调用归并排序让他们有序。接着，我们从中选出 p - 1 （p 是分区个数）个关键点，这里还是正则采样的方式。阶段3，数据分区此时将关键点数据广播给每个分区，每个分区就可以根据关键点，将数据分成4份，使得每个数据落在各自的范围内。阶段4，合并数据，归并...

2020-04-12

882

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！ 0 - 前言注：本文默认传统算法是所有工程师的基础技能，所以后面提到的算法主要指机器学习以及深度学习等算法。尽管目前本人求职的重心还是在后端上，但是为了能从现在的人工智能专业硕士顺利毕业，也为了让自己顺便拓展算法工程这条路，简单的规划一下算法这部分需要补的知识和技能还是有必要的。本文以拿到2021算法岗Offer为目标，从2020的算法岗面经入手，分析需要点的技能树都有哪些。 1 - 不同算法岗的区别首先需要说明的一个地方就是，不同领域的技术岗位，都会按照接触科研和业务的程度来进行一定的区分。可以简单参考知乎上霍华德在问题“学术界科研（research）与工业界研发（R&D）有什么区别？”的回答[1]，算法岗可以大致分为：业务导向，大部分情况下以Development为主；技术导向，Research和Development兼顾；科研导向，大部分情况下会Research为主；近几年这一点在算法岗上表现体现的比较明显，因为在几年前大部分算法都还只在研究阶段，而最近随...

2020-04-12

598

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。