玩玩SPARK
没有SCALA的东东,玩不起哈。
./spark-shell
从文件生成一个DRIVER?
val logFile = sc.textFile("hdfs://192.168.14.51:9000/usr/root/spark-root-org.apache.spark.deploy.master.Master-1-hs51.out")
看看这个东东里包含条数据?
logFile.count
来来来,作个过滤,再显示有多少条:
var theCount = logFile.filter(line=>line.contains("The"))
theCount.count

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
最新版HANA平台发布 SAP持续创新脚步
导读:SAP近日发布了HANA SPS 09,在本文中我们就将总结其中一些值得关注的新功能、新特性。 关键词:SAP HANA HANA SPS 09 内存数据平台 应用开发 大数据 【TechTarget中国原创】尽管客户仍然在摸索新技术究竟能够为他们的企业带来什么样的优势,SAP并没有放慢围绕HANA平台的创新脚步。SAP坚信,这样的创新将确保产品能够满足客户的需求,并随着大数据领域的不断发展,为客户提供最需要的功能特性。SAP近日发布了HANA SPS 09,在本文中我们就将总结其中一些值得关注的新功能、新特性。 由于SAP希望为客户提供尽可能多的灵活性,因此在HANA SPS 09当中引入了多租户功能(multi-tenancy)。企业CIO希望利用HANA一体机运行一个以上的ERP或者数据仓库(BW)系统,而多租户功能可以使得用户跨多个系统对基础设施资源进行分享,同时通过将备份、灾难恢复以及补丁升级等能力下放到管理员层面,降低了运维方面的消耗。利用这一新功能,SAP能够进一步降低客户的总体拥有成本,从而鼓励更多客户考虑部署HANA。 随着Hadoop在企业级层面的应用不断深...
- 下一篇
国外、国内Hadoop的应用现状
国外、国内Hadoop的应用现状 2015-04-23 大数据 摘要:Hadoop是一个开源的高效云计算基础架构平台,其不仅仅在云计算领域用途广泛,还可以支撑搜索引擎服务,作为搜索引擎底层的基础架构系统,同时在海量数据处理、数据挖掘、机器学习、科学计算等领域都越来越受到青睐。本文将讲述国外、国内Hadoop的主要应用现状。 国外Hadoop的应用现状 1.Yahoo Yahoo是Hadoop的最大支持者,截至2012年,Yahoo的Hadoop机器总节点数目超过42?000个,有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4500个节点(每个节点双路4核心CPUboxesw,4×1TB磁盘,16GBRAM)。总的集群存储容量大于350PB,每月提交的作业数目超过1000万个,在Pig中超过60%的Hadoop作业是使用Pig编写提交的。 Yahoo的Hadoop应用主要包括以下几个方面: 支持广告系统 用户行为分析 支持Web搜索 反垃圾邮件系统 会员反滥用 内容敏捷 个性化推荐 同时Pig研究并测试支持超大规模节点集群的Hadoop系统。 2.Face...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Mario游戏-低调大师作品
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块