SparkSQL 电影评价数据分析
当我做了很多Spark Core练习,喜欢写map、reduce,后来又开始用SparkSQL ,感觉SQL比mapReduce简洁优雅很多。 SQL是我的短板,通过Spark SQL又练习了group by、join 、case when 等语法。 数据集介绍 These files contain 1,000,209 anonymous ratings of approximately 3,900 movies made by 6,040 MovieLens users who joined MovieLens in 2000. 2000年,100万条电影评价数据集,包括3900部电影和6040个用户。 users.dat 格式:UserID::Gender::Age::Occupation::Zip-code movies.dat 格式:MovieID::Title::Genres ratings.dat 格式:UserID::MovieID::Rating::Timestamp 一、创建Dataset和Dataframe JavaRDD<User> userRDD ...