基于Spark的机器学习实战 (十二) - 推荐系统实战

2019-04-20 665

0 相关源码

将结合前述知识进行综合实战，以达到所学即所用。在推荐系统项目中，讲解了推荐系统基本原理以及实现推荐系统的架构思路，有其他相关研发经验基础的同学可以结合以往的经验，实现自己的推荐系统。

1 推荐系统简介

1.1 什么是推荐系统

1.2 推荐系统的作用

1.2.1 帮助顾客快速定位需求,节省时间

1.2.2 大幅度提高销售量

1.3 推荐系统的技术思想

1.3.1 推荐系统是一种机器学习的工程应用

1.3.2 推荐系统基于知识发现原理

1.4 推荐系统的工业化实现

Apache Spark
Apache Mahout
SVDFeature(C++)
LibMF(C+ +,Lin Chih-Jen)

2 推荐系统原理

可能是推荐系统最详细且简单的入门教程

官方文档指南

协同过滤

协同过滤通常用于推荐系统。这些技术旨在填写用户项关联矩阵的缺失条目。
spark

微信关注我们

原文链接：https://yq.aliyun.com/articles/699173

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

大数据开发：剖析Hadoop和Spark的Shuffle过程差异

一、前言对于基于MapReduce编程范式的分布式计算来说，本质上而言，就是在计算数据的交、并、差、聚合、排序等过程。而分布式计算分而治之的思想，让每个节点只计算部分数据，也就是只处理一个分片，那么要想求得某个key对应的全量数据，那就必须把相同key的数据汇集到同一个Reduce任务节点来处理，那么Mapreduce范式定义了一个叫做Shuffle的过程来实现这个效果。二、编写本文的目的本文旨在剖析Hadoop和Spark的Shuffle过程，并对比两者Shuffle的差异。三、Hadoop的Shuffle过程 Shuffle描述的是数据从Map端到Reduce端的过程，大数据学习kou群74零零加【41三八yi】大致分为排序（sort）、溢写（spill）、合并（merge）、拉取拷贝（Copy）、合并排序（merge sort）这几个过程，大体流程如下： ![image](https://yqfile.alicdn.com/e4ccedfb6ccaaa0d3c0ad5b3b7ab83d96dd9fed2.png) 上图的Map的输出的文件被分片为红绿蓝三个分片，这个分片的...

2019-04-21

564

LocalFlinkMiniCluster 集群的actor 模型相关的主要类图如下： AkkaRpcActor持有一个rpcEndpoint成员，接收到消息后进行基础解析后调用rpcEndpoint的的对应方法来进行处理。其中RpcGateway及RpcEndPoint的类图支持的消息类型其中主要使用RpcInvocation基于反射调用RPCEndpoint的对应函数 FencedMessage 将message进行封装成payload，通过fencingToken进行校验，保证请求的合法性 LocalFlinkMiniCluster集群的角色 ResouceManager 负责容器的分配使用FencedAkkaRpcActor实现，其rpcEndpoint为 org.apache.flink.runtime.resourcemanag

2019-04-22

679

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。