Mahout学习之命令行创建序列文件
一:命令行转换
创建新的工作目录
mkdir lastfm
mkdir ./lastfm/original
export WORK_DIR=/home/thinkgamer/document/lastfm
cd $WORK_DIR
自己准备一个数据集放在original文件夹下,例如将点击打开链接下边的数据保存在synthetic_control.data中进行转换,首先将其放在origiinal文件夹中
进入mahout的安装目录,前提是hadoop环境是启动的
cd /usr/local/hadoop/mahout
bin/mahout seqdirectory -i $WORK_DIR/original -o $WORK_DIR/sequencesfile
然后进入$WORK_DIR目录下有一个sequencesfile文件夹
cd $WORK_DIR
cd sequencesfile
ls
会显示如下:
part-m-00000 _SUCCESS
命令行查看part-m-00000的文件内容为:
bin/mahout seqdumper -i $WORK_DIR/sequencesfile/part-m-00000 | more0
二:mapreduce转换
具体请参考mahout运行canopy程序中的程序:点击打开链接
三:命令行转换为文本文件
bin/mahout seqdumper -i $WORK_DIR/sequencesfile/part-m-00000 -o $WORK_DIR/clusteranalyzer
mahout版本不同如果上边的不好使,换用下边的
bin/mahout seqdumper -s $WORK_DIR/sequencesfile/part-m-00000 -o $WORK_DIR/clusteranalyzer

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Mahout学习之运行canopy算法错误及解决办法
一:将Text转换成Vector序列文件时 在Hadoop中运行编译打包好的jar程序,可能会报下面的错误: Exceptioninthread"main"java.lang.NoClassDefFoundError: org/apache/mahout/common/AbstractJob 书中和网上给的解决办法都是:把Mahout根目录下的相应的jar包复制到Hadoop根目录下的lib文件夹下,同时重启Hadoop 但是到了小编这里不管怎么尝试,都不能解决,最终放弃了打包成jar运行的念头,就在对源码进行了修改,在eclipse运行了 二:java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.io.IntWritable cannot be cast to org.apache.hadoop.io.Text 此种错误,是由于map和reduce端函数格式输入输出不一致,导致数据类型不匹配 在次要注意一个特别容易出错的地方:Mapper和Reducer类中的函数必须是map和reduce,名字不能...
- 下一篇
缓存系列文章--5.缓存穿透问题
转载请注明出处哈:http://carlosfu.iteye.com/blog/2269678 一.缓存穿透(请求数据缓存大量不命中): 缓存穿透是指查询一个一定不存在的数据,由于缓存不命中,并且出于容错考虑,如果从存储层查不到数据则不写入缓存,这将导致这个不存在的数据每次请求都要到存储层去查询,失去了缓存的意义。 例如:下图是一个比较典型的cache-storage架构,cache(例如memcache, redis等等) + storage(例如mysql, hbase等等)架构,查一个压根就不存在的值, 如果不做兼容,永远会查询storage。 二. 危害: 对底层数据源(mysql, hbase, http接口, rpc调用等等)压力过大,有些底层数据源不具备高并发性。 例如mysql一般来说单台能够扛1000-QPS就已经很不错了(别说你的查询都是select * from table where id=xx 以及你的机器多么牛逼,那就有点矫情了) 例如他人提供的一个抗压性很差的http接口,可能穿透会击溃他的服务。 三. 如何发现: 我们可以分...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2全家桶,快速入门学习开发网站教程
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2整合Thymeleaf,官方推荐html解决方案