《Hadoop与大数据挖掘》一2.5.3　Hadoop K-Means算法实现思路-低调大师

《Hadoop与大数据挖掘》一2.5.3　Hadoop K-Means算法实现思路

2017-06-25 805

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.5.3节，张良均　樊　哲　位文超　刘名军许国杰　周　龙　焦正升　著更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.5.3　Hadoop K-Means算法实现思路

针对K-Means算法，本节给出两种实现思路。思路1相对比较直观，但是效率较低；思路2在实现上需要自定义键值类型，但是效率较高。下面是对两种思路的介绍。
思路1
如图2-47所示，算法描述如下：
1）根据原始文件生成随机聚类中心向量（需指定聚类中心向量个数k），指定循环次数；
2）在map阶段，setup函数读取并初始化聚类中心向量；在map函数中读取每个记录，计算当前记录到各个聚类中心向量的距离，根据到聚类中心向量最小的聚类中心id判断该记录属于哪个类别，输出所属聚类中心id和当前记录；
3）在

微信关注我们

原文链接：https://yq.aliyun.com/articles/110210

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《Hadoop与大数据挖掘》一2.5.2　动手实践：K-Means算法实现

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.5.2节，张良均　樊　哲　位文超　刘名军许国杰　周　龙　焦正升　著更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.5.2　动手实践：K-Means算法实现编写单机版的K-Means算法有利于理解Hadoop实现的K-Means算法，所以这里给出单机版（Java）的编写步骤，供读者参考。实验步骤如下：1）打开Eclipse，新建Java工程kmeans1.0；2）参考前面的流程完善K-means代码；3）使用测试数据hadoop/data/kmeans.data进行测试，查看结果；4）思考把该算法转换为Hadoop MapReduce实现的思路。

2017-06-25

608

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.5.4节，张良均　樊　哲　位文超　刘名军许国杰　周　龙　焦正升　著更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.5.4　Hadoop K-Means编程实现在下面的实现过程中，会进行简单实现思路介绍，针对一些实现会有动手实践给读者练习。一般情况下我们建议读者自己全部实现，对于实现起来有难度的读者，我们提供了参考程序，但是需要注意，参考程序不是完整的，里面设置了TODO提示，这些地方是需要读者去完善的。思路1不管是思路1还是思路2，Hadoop实现K-Means算法都包含4个步骤：①初始化聚类中心向量；②进行聚类并更新聚类中心向量；③判断是否达到循环条件，如果是则循环；④判断是否需要对原始数据进行分类，如果是则进行分类操作。下面就针对这4个步骤分

2017-06-25

688

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。