Big Data, MapReduce, Hadoop, and Spark with Python-低调大师

Big Data, MapReduce, Hadoop, and Spark with Python

2016-11-09 776

此书不错，很短，且想打通PYTHON和大数据架构的关系。

先看一次，计划把这个文档作个翻译。

先来一个模拟MAPREDUCE的东东。。。

mapper.py

class Mapper:
    def map(self, data):
        returnval = []
        counts = {}
        for line in data:
            words = line.split()
            for w in words:
                counts[w] = counts.get(w, 0) + 1
        for w, c in counts.iteritems():
            returnval.append((w, c))
        print "Mapper result:"
        print returnval
        return returnval

reducer.py

class Reducer:
    def reduce(self, d):
        returnval = []
        for k, v in d.iteritems():
            returnval.append("%s\t%s"%(k, sum(v)))
        print "Reducer result:"
        print returnval
        return returnval

main.py

from mapper import Mapper
from reducer import Reducer

class JobRunner:
    def run(self, Mapper, Reducer, data):
        # map
        mapper = Mapper()
        tuples = mapper.map(data)

        # combine
        combined = {}
        for k, v in tuples:
            if k not in combined:
                combined[k] = []
            combined[k].append(v)
        print "combined result:"
        print combined

        # reduce
        reducer = Reducer()
        output = reducer.reduce(combined)

        # do something with output
        for line in output:
            print line

runner = JobRunner()
runner.run(Mapper, Reducer, open("input.txt"))

微信关注我们

原文链接：https://yq.aliyun.com/articles/234733

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

标签分类理论

免费开通大数据服务：https://www.aliyun.com/product/odps 转载自mohang 最近在做DMP，负责设计一套标签管理系统。在对现有标签进行整理的过程中，整理出了这套东西。 0. 标签的定义：标签分类学(Taxonomy) 对于标签(tag)，很难列出一个公认的定义，指明这个概念的种差与属概念。所以为了把握这个概念，就需要采取定义另一种办法：分类与枚举。我们要解决的第一个问题是，有哪些类型的标签，如何对标签进行分类。首先不妨对“如何分类”本身进行分类，我们可以从“形式”与“内容”上分辨考察标签的分类。 1. 标签的形式分类标签的形式是标签分类最主要的依据。首先，我们可以列出一些常见或者不常见的的“标签”样例：性别标签：女年龄标签：23 体重标签：90.6 偶像标签：阿西莫夫最近到过的城市标签：['北京'

2016-11-08

1138

阿里云E-Mapreduce动态 E-Mapreduce产品即将发布的版本信息如下： 1.5.2版本增加预定制配置，如试用型／入门型／计算型／内存型等增加包年包月自动续费功能 1.6.0版本交互式查询（支持Hive、Spark）资讯 CIO时代学院院长姚乐：大数据的行业应用策略关于大数据的发展，CIO时代学院院长姚乐认为有三个趋势值得我们关注：第一、数据资源鉴权问题；第二、与云计算的深度融合；第三、与人工智能的深度融合。美国大选背后的个人隐私与大数据美国总统竞选从来都是一项注重公众参与的活动，了解公众的需求，获得公众的喜好再加以满足，是入主白宫的根本;现在的候选人们早已意识到，数据技术是必要的途径。数据变现独角兽-10种商业模式数据，已经成为每一个行业和各种业务职能领域重要的生产因素和变革力量。数据的积累、合作、整理、挖掘、利用是现

2016-11-09

713

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。