记一次百G数据的聚类算法实施过程
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 如题,记一次百G数据的聚类算法实施过程,用的技术都不难,spark和kmeans,我想你会认为这没有什么难度,我接到这个任务的时候也认为没有难度,可是一周之后我发现我错了,数据量100G的确不大,但难度在于我需要对 kmeans 的 train过程执行将近3000次,而且需要高效的完成。那么问题就来了,如何保证高效和准确性。(声明小编对Spark也不是说很熟悉) 需求 数据格式为三列,第一列为类别ID,第二列为商品ID,第三列为价格,数据格式如下 1000 2000 45.3 1000 2001 121.3 1001 2002 4125.3 1000 2003 225.3 1001 2004 3415.3 1000 2005 12245.3 ... ... .... 数据有很多条,数据量为将近100G,存储在hdfs上,第一...
