代码世界中的Lambda-低调大师

代码世界中的Lambda

2016-09-22 693

“ λ ”像一个双手插兜儿，独自行走的人，有“失意、无奈、孤独”的感觉。λ 读作Lambda，是物理上的波长符号，放射学的衰变常数，线性代数中的特征值……在程序和代码的世界里，它代表了函数表达式，系统架构，以及云计算架构。

代码中的Lambda

Lambda表达式基于数学中的λ演算得名，可以看作是匿名函数，可以代替表达式，函数，闭包等，也支持类型推论，可以远离匿名内部类。

为什么使用Lambda呢？
1）代码更紧凑
2）拥有函数式编程中修改方法的能力
3）有利于多核计算

Lambda的目的是让程序员能够对程序行为进行抽象，把代码行为看作数据。

Java

Java 8的一个大亮点是引入Lambda表达式，在编写Lambda表达式时，也会随之被编译成一个函数式接口。

一个典型的例子是文件类型过滤 :

File dir = new File("/an/dir/");
   FileFilter directoryFilter = new FileFilter() {
      public boolean accept(File file) {
         return file.isDirectory();
      }
};

用lambda 重写后：

File dir = new File("/an/dir/");  

File[] dirs = dir.listFiles((File f) -> f.isDirectory());

Lambda 表达式本身没有类型，因为常规类型系统没有“Lambda 表达式”这一内部概念。

Python

与其它语言不同，Python的Lambda表达式的函数体只能有唯一的一条语句，也就是返回值表达式语句。Python编程语言使用lambda来创建匿名函数。

一个典型的例子是求一个列表中所有元素的平方。

一般写法


def sq(x):
    return x * x

map(sq, [y for y in range(108)])

使用Lambda 的写法

map( lambda x: x*x, [y for y in range(108)] )

在spark 中，用python 操作RDD时，Lambda 更是随处可见。

out_rdd = in_rdd.filter( # filter the empty record
          lambda x:x[1] is not None and x[1] != {}
               ).map( 
          lambda x:utils.parse_data(x[1],es_relations)
               ).filter( # filter the empty record  
          lambda x:x is not None
               ).filter( # filter the record  
          lambda x:x[u'timestamp']>time_start)

大数据架构中的Lambda

Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构，包括有：高容错、低延时和可扩展等。Lambda架构整合离线计算和实时计算，融合不可变性（Immunability），读写分离和复杂性隔离等一系列架构原则，可集成Hadoop，Kafka，Storm，Spark，Hbase等各类大数据组件。

Batch Layer进行预运算的作用实际上就是将大数据变小，从而有效地利用资源，改善实时查询的性能。主要功能是：

存储Master Dataset，这是一个不变的持续增长的数据集
针对这个Master Dataset进行预运算

Serving Layer就要负责对batch view进行操作，从而为最终的实时查询提供支撑。主要作用是：

对batch view的随机访问
更新batch view

speed layer与batch layer非常相似，它们之间最大的区别是前者只处理最近的数据，后者则要处理所有的数据。另一个区别是为了满足最小的延迟，speed layer并不会在同一时间读取所有的新数据，在接收到新数据时，更新realtime view，而不会像batch layer那样重新运算整个view。speed layer是一种增量的计算，而非重新运算（recomputation）。Speed Layer的作用包括：

对更新到serving layer带来的高延迟的一种补充
快速、增量的算法
最终Batch Layer会覆盖speed layer

大数据系统一般具有如下属性：
* 健壮性和容错性（Robustness和Fault Tolerance）
* 低延迟的读与更新（Low Latency reads and updates）
* 可伸缩性（Scalability）
* 通用性（Generalization）
* 可扩展性（Extensibility）
* 内置查询（Ad hoc queries）
* 维护最小（Minimal maintenance）
* 可调试性（Debuggability）

个人觉得，有了spark streaming 之后，spark 本身就是一种Lambda架构。

云计算中的Lambda

云计算中的Lambda，是指serverless architecture，无需配置或管理服务器即可运行代码。借助 Lambda，几乎可以为任何类型的应用程序或后端服务运行代码，而且全部无需管理。

以AWS 为例，云计算中的Lambda 示意流程如下：

只需上传代码，Lambda 会处理运行和扩展高可用性代码所需的一切工作。还可以将代码设置为自动从其他服务触发，或者直接从任何 Web 或移动应用程序调用。

ETL 是数据挖掘与数据分析中的必备环节，可以方便的通过AWS的Lambda实现，示例如下：

其实，在spark 上实现Lambda 云服务也不是太费力的事。

总之，了解越多，越会喜欢上它，神奇而有趣的Lambda。

微信关注我们

原文链接：https://yq.aliyun.com/articles/687404

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

曾文旌的私房菜：开源数据库Greenplum Database的实现解析

Greenplum DB 号称是世界上第一个开源的大规模并行数据仓库，最初是基于 PostgreSQL，现在已经添加了大量数据库方面的创新。Greenplum 提供 PD 级别数据量的强大和快速分析能力，特别是面向大数据方面的分析能力，支持大数据的超高性能分析查询。在本次分享中，曾文旌从GPDB架构入手，辅助以SQL和优化器的案例以及对GPDB的硬件和性能的分析，对GPDB实现进行了详细解析。分享最后，他还对比了GPDB的优势和局限性，并对GPDB的未来发展进行了展望。以下是现场分享观点整理。名词简介在分享开始之前，首先解释一下整个内容中最关键的几个名词： MPP（Massive parallel processing）为大规模并行处理系统，一般是指多个SQL数据库节点搭建而成的数据库仓库；在执行SQL查询的时候，任务可分解到多个

2016-09-21

742

打开微信扫一扫，关注微信公众号【数据与算法联盟】转载请注明出处：http://blog.csdn.net/gamer_gyt博主微博：http://weibo.com/234654758Github：https://github.com/thinkgamer 代码下载地址：点击查看 -------------------------------------------------------------------------------------------------------------------------------------------------- 写在前边的话这篇文章应该是有史以来写的时间最长的一篇文章，我记得是今年暑假之前开始的，后来因为种种原因吧（找工作，开始工作，电脑重装，换工作等等），导致现在才写完，算是一篇迟到了二个月的文章，实在是不好意思，曾经也想过不写了，但是后来还是坚持了下来，只想分享给大家整片博客分为这几个部分： 1：微博热词跟踪系统概述 2：需求分析 3：算法模型...

2016-09-23

670

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。