flatMap作用-低调大师

flatMap作用

2017-11-15 821

总结：1. map会将每一条输入映射为一个新对象。{苹果，梨子}.map(去皮） = {去皮苹果，去皮梨子} 其中： “去皮”函数的类型为：A => B

2.flatMap包含两个操作：会将每一个输入对象输入映射为一个新集合，然后把这些新集合连成一个大集合。 {苹果，梨子}.flatMap(切碎) = {苹果碎片1，苹果碎片2，梨子碎片1，梨子碎片2} 其中： “切碎”函数的类型为： A => List<B>

例如：spark单词计数

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
             .map(lambda word: (word, 1)) \
             .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/7814563.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/394973

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

spark 类标签的稀疏特征向量

一个向量(1.0,0.0,3.0)它有2中表示的方法密集：[1.0,0.0,3.0] 其和一般的数组无异稀疏：(3,[0,2],[1.0,3.0]) 其表示的含义(向量大小，序号，值) 序号从0开始本地向量和矩阵本地向量（Local Vector）存储在单台机器上，索引采用0开始的整型表示，值采用Double类型的值表示。Spark MLlib中支持两种类型的矩阵，分别是密度向量（Dense Vector）和稀疏向量（Spasre Vector），密度向量会存储所有的值包括零值，而稀疏向量存储的是索引位置及值，不存储零值，在数据量比较大时，稀疏向量才能体现它的优势和价值。下面给出其应用示例： import org.apache.spark.mllib.linalg.{Vector, Vectors} //密度矩阵，零值也存储 scala> val dv: Vector = Vectors.dense(1.0, 0.0, 3.0) dv: org.apache.spark.mllib.linalg.Vector = [1.0,0.0,3.0] // 创建稀疏矩阵，指定...

2017-11-15

674

HIVE升级1.2.1操作文档将最新的apache-hive-1.2.1-bin.tar.gz文件解压到hdp文件目录下，解压得到apache-hive-1.2.1-bin将原删除，重命名apache-hive-1.2.1-bin为hive进行替换进入新hive/lib下复制jline-2.12.jar至hdp文件目录下的hadoop-yarn/lib替换原jline-0.9.94.jar 打开etc/hive/conf将里面的所有的XML复制到新hive下的conf目录内打开新hive的bin目录hive文件修改-------------------------------------------- ."$bin"/hive-config.sh >>>>>>>>替换为 ./usr/hdp/2.2.6.0-2800/hive/bin/hive-config.sh for i in"$bin"/ext/*.sh ; do >>>>>>>>替换为 for i in/usr/hd...

2017-11-15

683

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。