Mahout学习之运行canopy算法错误及解决办法-低调大师

Mahout学习之运行canopy算法错误及解决办法

2015-10-10 624 89

一：将Text转换成Vector序列文件时

在Hadoop中运行编译打包好的jar程序，可能会报下面的错误：

Exception in thread "main" java.lang.NoClassDefFoundError:
org/apache/mahout/common/AbstractJob

书中和网上给的解决办法都是：把Mahout根目录下的相应的jar包复制到Hadoop根目录下的lib文件夹下，同时重启Hadoop

但是到了小编这里不管怎么尝试，都不能解决，最终放弃了打包成jar运行的念头，就在对源码进行了修改，在eclipse运行了

二：java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.io.IntWritable cannot be cast to org.apache.hadoop.io.Text

此种错误，是由于map和reduce端函数格式输入输出不一致，导致数据类型不匹配

在次要注意一个特别容易出错的地方：Mapper和Reducer类中的函数必须是map和reduce，名字不能改，因为是继承Mapper类和Reducer类，如果函数名字改变了的话也可能造成以上的错误，或者Reducer端不输出

三：当在命令行里直接用命令转化文件格式时抛出如下错误：

ERROR common.AbstractJob: Unexpected --seqFileDir while processing Job-Specific Options

注：转化命令为：bin/mahout clusterdump --seqFileDir /home/thinkgamer/document/canopy/output/clusters-0-final/ --pointsDir /home/thinkgamer/document/canopy/output/clusteredPoints/ --output /home/thinkgamer/document/canopy/clusteranalyze.txt

上网搜了搜热心的网友给出的解决办法是：将--seqFileDir换成--input即可

微信关注我们

原文链接：https://yq.aliyun.com/articles/413155

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark工程开发常用函数与方法(Scala语言)

import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode, DataFrame}import scala.collection.mutable.ArrayBufferimport main.asiainfo.coc.tools.Configureimport org.apache.spark.sql.hive.HiveContextimport java.sql.DriverManagerimport java.sql.Connection 1 连接前台数据源查询前台MYSQL中的数据 val DIM_COC_INDEX_INFO_DDL = s""" CREATE TEMPORARY TABLE DIM_COC_INDEX_INFO USING org.apache.spark.sql.jdbc OPTIONS ( url '${mySQLUrl}', dbtable 'DIM_COC_INDEX_INFO' )""".stripMargin sqlContext.s...

569

Mahout学习之命令行创建序列文件

一：命令行转换创建新的工作目录 mkdir lastfm mkdir ./lastfm/original export WORK_DIR=/home/thinkgamer/document/lastfm cd $WORK_DIR 自己准备一个数据集放在original文件夹下,例如将点击打开链接下边的数据保存在synthetic_control.data中进行转换，首先将其放在origiinal文件夹中进入mahout的安装目录，前提是hadoop环境是启动的 cd /usr/local/hadoop/mahout bin/mahout seqdirectory -i $WORK_DIR/original -o $WORK_DIR/sequencesfile 然后进入$WORK_DIR目录下有一个sequencesfile文件夹 cd $WORK_DIR cd sequencesfile ls 会显示如下： part-m-00000 _SUCCESS 命令行查看part-m-00000的文件内容为： bin/mahout seqdumper -i $WORK_DIR/sequenc...

633

资源下载

更多资源

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Oracle Database，又名Oracle RDBMS

Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Eclipse（集成开发环境）

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。