读书人

Mahout引见

发布时间: 2012-07-22 19:31:18 作者: rapoo

Mahout介绍
What is Mahout, why need it?

Mahout 是机器学习和数据挖掘的一个分布式框架,区别于其他的开源数据挖掘软件,它是基于hadoop之上的; 所以Mahout的优势就是hadoop的优势。官网http://mahout.apache.org/ 上说的Scalable就是指hadoop的可扩展性。

Mahout用map-reduce实现了部分数据挖掘算法,解决了并行挖掘的问题。这里说的“解决”是一个初步的概念,很多算法由于各种原因是无法用map-reduce并行实现的。

Supported Algorithms

?

?

?

也可以在MAHOUT_HOME/src/conf/driver.classes.props文件中查看各个算法的入口,如果要添加新的算法,也可以在这个文件中注册。

Mahout引见

?

算法的执行:

例如执行贝叶斯分类 (训练过程)

MAHOUT_HOME/bin目录下 执行./mahout trainclassifier -h 查看参数

?

Mahout引见

?

读书人网 >开源软件

热点推荐