Mahout学习之运行canopy算法错误及解决办法

简介: 一:将Text转换成Vector序列文件时  在Hadoop中运行编译打包好的jar程序,可能会报下面的错误: Exception in thread "main" java.lang.

一:将Text转换成Vector序列文件时

 在Hadoop中运行编译打包好的jar程序,可能会报下面的错误:

 
  1. Exception in thread "main" java.lang.NoClassDefFoundError:  
  2. org/apache/mahout/common/AbstractJob 
书中和网上给的解决办法都是:把Mahout根目录下的相应的jar包复制到Hadoop根目录下的lib文件夹下,同时重启Hadoop

但是到了小编这里不管怎么尝试,都不能解决,最终放弃了打包成jar运行的念头,就在对源码进行了修改,在eclipse运行了

二:java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.io.IntWritable cannot be cast to org.apache.hadoop.io.Text

此种错误,是由于map和reduce端函数格式输入输出不一致,导致数据类型不匹配

在次要注意一个特别容易出错的地方:Mapper和Reducer类中的函数必须是map和reduce,名字不能改,因为是继承Mapper类和Reducer类,如果函数名字改变了的话也可能造成以上的错误,或者Reducer端不输出

三:当在命令行里直接用命令转化文件格式时抛出如下错误:

ERROR common.AbstractJob: Unexpected --seqFileDir while processing Job-Specific Options

注:转化命令为:bin/mahout clusterdump --seqFileDir /home/thinkgamer/document/canopy/output/clusters-0-final/ --pointsDir /home/thinkgamer/document/canopy/output/clusteredPoints/ --output /home/thinkgamer/document/canopy/clusteranalyze.txt

上网搜了搜热心的网友给出的解决办法是:将--seqFileDir换成--input即可

相关文章
|
7月前
|
存储 算法 网络架构
基于多目标粒子群优化算法的冷热电联供型综合能源系统运行优化(Matlab代码实现)
基于多目标粒子群优化算法的冷热电联供型综合能源系统运行优化(Matlab代码实现)
227 2
|
6月前
|
存储 边缘计算 算法
【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析(Matlab代码实现)
【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析(Matlab代码实现)
118 0
|
6月前
|
数据可视化
基于遗传算法(GA)的配电网优化运行仿真
基于遗传算法(GA)的配电网优化运行仿真
|
算法 测试技术 开发者
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗;代码审查通过检查源代码发现潜在问题,提高代码质量和团队协作效率。本文介绍了一些实用的技巧和工具,帮助开发者提升开发效率。
246 3
|
分布式计算 算法 Java
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
1605 3
|
算法 调度
基于多目标粒子群算法冷热电联供综合能源系统运行优化(matlab代码)
基于多目标粒子群算法冷热电联供综合能源系统运行优化(matlab代码)
|
存储 算法 搜索推荐
【大数据分析与挖掘技术】Mahout推荐算法
【大数据分析与挖掘技术】Mahout推荐算法