《Mahout算法解析与案例实战》一一3.2 K-Means算法
本节书摘来自华章计算机《Mahout算法解析与案例实战》一书中的第3章,第3.2节,作者:樊 哲,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3.2 K-Means算法
3.2.1 K-Means算法简介
1967年,James MacQueen提出“K-Means”(K均值),这个被应用得最广泛的基于划分的聚类算法,其实是一种硬聚类算法,属于典型的局域原型的目标函数聚类的代表。算法首先随机选择k个对象,每个对象初始地代表一个簇的平均值或者中心。对于剩余的每个对象,根据其到各个簇中心的距离,把它们分给距离最小的簇中心,然后重新计算每个簇的平均值。重复这个过程,直到聚类准则函数收敛。准则函数一般采用两种方式:其一,全局误差函数,对应式(3-1);其二,前后两次中心误差变化,对应式(3-2)。
其中E代表误差,k代表k个聚类中心,
