《Scala机器学习》一一-低调大师

《Scala机器学习》一一

2017-07-03 608

本节书摘来自华章计算机《Scala机器学习》一书中的第3章，第3.1节,作者：[美]　亚历克斯·科兹洛夫（Alex Kozlov），更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.1　安装Spark

如果读者还没有安装过Spark，可从http://spark.apache.org/downloads.html下载预先编译好的Spark包。在写本书时的发布版本为1.6.1。

图3-1　本章建议的下载链接http://spark.apache.org/downloads.html
读者也可通过下面的链接下载完整的源代码来构建Spark：

命令将下载必要的依赖并在Spark目录中创建spark-2.0.0-SNAPSHOT-bin-alex-spark-build-2.6-yarn.tgz文件，其版本是2.0.0，这是在写本书时最新

微信关注我们

原文链接：https://yq.aliyun.com/articles/118790

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

实施数据湖泊之前请先“试水”

现今，数据湖泊在IT行业掀起了波澜。数据湖泊是将数据存储与数据管理关联，提供关于数据的分析功能——这种功能通常是其他分析系统的独立功能，如数据仓库或数据集市，作为数据梳理流程的一部分。例如，数据仓库的提取、转化与加载预处理器将消费日志，这些日志记录了某个系统到达或插入某“操作数据存储”的时间。但现今产业中，数据湖泊似乎至少有两个定义。一是源于存储公司，认为数据湖泊是磁盘存储基础设施，用于源数据的存储。另一个，主要由市场驱动，混合许多通常未混合的数据。根据我的定义，没有产商在销售全扩展的数据湖泊——相反，人们利用Hadoop来混合数据并自主研发的工具来访问数据。作为初始供应商向现实世界实验抛出的炒作课题，用户发现数据中心集市的最佳实践并不适用于数据湖泊。为避免早期用户的错误，需要专注于数据湖泊的温和实现，而不是超大规模。以下是在数据湖泊工作中的最佳实践。请记住数据湖泊适用于探索数据湖泊实现应该是实现企业扩展某个已存在分析的探索方式。数据湖泊中增加的数据类型来大部分来自于实时数据——例如，用户事务日志——实时分析系统一般不会提供长周期的分析功能。大多数现有的分析工具不足以提供应...

2017-07-04

525

本节书摘来自华章计算机《Scala机器学习》一书中的第3章，第3.3节,作者：[美]　亚历克斯·科兹洛夫（Alex Kozlov），更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.3　应用下面会介绍Spark/Scala中的一些实际示例和库，具体会从一个非常经典的单词计数问题开始。3.3.1　单词计数大多数现代机器学习算法需要多次传递数据。如果数据能存放在单台机器的内存中，则该数据会容易获得，并且不会呈现性能瓶颈。如果数据太大，单台机器的内存容纳不下，则可保存在磁盘（或数据库）上，这样虽然可得到更大的存储空间，但存取速度大约会降为原来的1/100。另外还有一种方式就是分割数据集，将其存储在网络中的多台机器上，并通过网络来传输结果。虽然对这种方式仍有争议，但分析表明，对于大多数实际系统而言，如果能有效地在多个CPU之间拆分

2017-07-04

581

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。