Spark SQL概念学习系列之如何使用 Spark SQL（六）-低调大师

Spark SQL概念学习系列之如何使用 Spark SQL（六）

2017-11-13 531

al sqlContext = new org.apache.spark.sql.SQLContext(sc)
// 在这里引入 sqlContext 下所有的方法就可以直接用 sql 方法进行查询
import sqlContext._
case class Person(name: String, age: Int)

　　// 下面的 people 是含有 case 类型数据的 RDD，会默认由 Scala 的 implicit 机制将 RDD 转换为
SchemaRDD， SchemaRDD 是 SparkSQL 中的核心 RDD
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.
split(",")).map(p => Person(p(0), p(1).trim.toInt))
// 在内存的元数据中注册表信息，这样一个 Spark SQL 表就创建完成了
people.registerAsTable("people")
// sql 语句就会触发上面分析的 Spark SQL 的执行过程，读者可以参考上面的图示
val teenagers = sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")
// 最后生成 teenagers 也是一个 RDD
teenagers.map(t =>"Name: " + t(0)).collect().foreach(println)

　　通过之前的介绍，读者对支撑结构化数据分析任务的 Spark SQL 的原理与使用有了一定的了解。在生产环境中，有一类数据分析任务对响应延迟要求高，需要实时处理流数据，在 BDAS 中， Spark Streaming 用于支撑大规模流式处理分析任务。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5725106.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/371184

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark生态之Spark Streaming

批处理 & 流处理为什么需要流处理---更多场景需要？越来越多的应用需要大规模数据下的实时计算能力实时舆情分析 Spark Core & RDD本质上是离线运算 val conf=new SparkConf().setAppName("myWordCount") val sc=new SparkContext(conf) //读取数据 val lines=sc.textFile(input) //进行相关计算 val resultRdd=lines .flatMap(_.split(" ")) .map((_,1)) .reduceByKey(_+_) //保存结果 resultRdd.saveAsTextFile(output) Spark Streaming是什么 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of li...

2017-11-14

571

第一：理论知识：什么是hadoop：由三部分组成：HDFS，MapReduce和Hbase。维基百科这样说：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。这里面关键就是高速运算和海量存储。我们首先讲海量存储，这个比较有意思，一会儿再说高速运算。海量存储：HDFS<Hadoop Distributed File System> 前身来自google的一篇博文，所以自身带有浓厚的互联网色彩，比如读多于写的特性，高度的扩展性。具体说一下他的特性：图1：HDFS结构示意图 <抄自岑文初> 上图中展现了整个HDFS三个重要角色：NameNode、DataNode和Client。NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。DataNode是...

2017-11-14

627

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。