如何在运行pyspark时加载本地jar包?
某内网项目需要测试spark和mongodb联调,因为不能连接外网,所以下载好了相应的jar包扔进去了。
官网给出的事例代码如下:
./bin/pyspark --conf "spark.mongodb.input.uri=mongodb://127.0.0.1/test.myCollection?readPreference=primaryPreferred" \
--conf "spark.mongodb.output.uri=mongodb://127.0.0.1/test.myCollection" \
--packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.0
其中--packages参数后面指定的jar包会自动从maven包中心下载,对于无法连接互联网的机器,会提示错误。
其实,答案很简单,只需要在后面跟上--jars参数就好:
./pyspark --conf "spark.mongodb.input.uri=..."
--conf "spark.mongodb.output.uri=..."
--jars "/path/to/local/xxx.jar"
后面的路径建议使用绝对路径,以防手误。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
elasticsearch使用指南之Elasticsearch Document Get API详解、原理与示例
作者介绍:《RocketMQ技术内幕》作者,中间件兴趣圈微信公众号维护者。 本节将重点介绍ElasticSearch Doucment Get API(根据ID获取文档)。 从《ElasticSearch Client详解》可知,ElasticSearch Get Rest Hign level Get Api声明如下: public final GetResponse get(GetRequest getRequest, RequestOptions options) throws IOException public final void getAsync(GetRequest getRequest, RequestOptions options, ActionListener listener)上述两个API,一个同步调用,一个异步调用,同步调用方法直接组装GetResponse 并返回,而异步方法通过回调ActionListener,并将执行结果(GetResponse )传入回调方法。 从中可以看出,Get API的核心是GetRequest 与RequestOptions,...
-
下一篇
大数据学习路线,一共分为这几个阶段
目前,全球数据呈现爆发增长、海量集聚的特点。国家大力推动实施大数据发展战略,推进数据资源整合和开放共享,加快建设数字中国。大数据行业政策环境良好,发展机遇空前。 大数据学习路线图——让自己系统学习,知道每一个阶段的学习内容 阶段一、大数据基础——java语言基础方面 核心是,大部分大数据技术都是用Java或Scala编写的。但是别担心,如果你不想用这些语言编写代码,那么你可以选择Python或者R,因为大部分的大数据技术现在都支持Python和R。 (1)Java语言基础 Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类 (2)HTML、CSS与JavaScript PC端网站布局、HTML5 CSS3基础、WebApp页面布局、原生JavaScript交互功能开发、Ajax异步交互、jQuery应用 (3)JavaWeb和数据库 数据库、JavaWeb开发核心、JavaWeb开发内幕 此阶段是针对没有编程基础,或者对基础不扎实的同学一次补习,这个...
相关文章
文章评论
共有0条评论来说两句吧...