Kylin —— 来自 eBay 的 OLAP 分析引擎
Kylin 是一个开源的分布式的 OLAP 分析引擎,来自 eBay 公司开发,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到 PB 级别的数据量。 文章转载自 开源中国社区 [http://www.oschina.net]
Spark程序必须做的第一件事是创建一个JavaSparkContext对象(Scala和Python中是SparkContext对象),它告诉Spark如何访问集群。 要创建SparkContext,您首先需要构建一个包含有关应用程序信息的SparkConf对象。
Java版本:
private static String appName = "JavaWordCountDemo";
private static String master = "local";
// 初始化Spark
private static SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);
private static JavaSparkContext sc = new JavaSparkContext(conf);
Scala版本:
val conf = new SparkConf().setAppName(appName).setMaster(master)
new SparkContext(conf)
备注
每个JVM只有一个SparkContext可能是活跃的。 在创建新的SparkContext之前,必须先调用stop()方法停止之前活跃的SparkContext。
Python版本:
conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)
appName参数是应用程序在集群UI上显示的名称。 master是Spark,Mesos或YARN集群URL,或以本地模式运行的特殊字符串“local”。 实际上,当在集群上运行时,您不需要在程序中写死master,而是使用spark-submit启动应用程序并以参数传递进行接收。但是,对于本地测试和单元测试,你可以通过“local”来运行Spark进程。
在 Spark shell 中,已经为你创建了一个专有的 SparkContext,可以通过变量sc访问。你自己创建的SparkContext 将无法工作。可以用 --master 参数来设置 SparkContext 要连接的集群,用 --jars 来设置需要添加到 classpath 中的 JAR 包,如果有多个 JAR 包使用逗号分割符连接它们。你还可以通过向--packages参数提供逗号分隔的maven坐标列表,将依赖关系(例如Spark Packages)添加到shell会话中。 可能存在依赖关系的其他存储库(例如Sonatype)可以传递给--repositories参数。例如:在一个拥有 4 核的环境上运行 bin/spark-shell,使用:
./bin/spark-shell --master local[4]
或者,还可以将code.jar添加到其classpath中,请使用:
./bin/spark-shell --master local[4] --jars code.jar
使用maven坐标来包含依赖关系:
./bin/spark-shell --master local[4] --packages "org.example:example:0.1"
可以执行 spark-shell --help 获取完整的选项列表。其背后,spark-shell调用的是更常用的spark-submit脚本(Behind the scenes, spark-shell invokes the more general spark-submit script.)。
原文:http://spark.apache.org/docs/latest/programming-guide.html#initializing-spark
微信关注我们
转载内容版权归作者及来源网站所有!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。
Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。
Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。
Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。