读书人

mahout算法源码分析之Itembased Colla

发布时间: 2013-10-15 16:47:37 作者: rapoo

mahout算法源码分析之Itembased Collaborative Filtering(三)RowSimilarityJob验证

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。

本篇分析上篇的分析是否正确,主要是编写上篇输出文件的读取以及添加log信息打印相关变量。

首先,编写下面的测试文件分析所有的输出:


可以看到上篇其实只是分析到了第二行(第二行和第三行一样)而已,而没有分析到最后的输出。其实也只是少分析了一个while循环而已:


(key在104~107):

mahout算法源码分析之Itembased Collaborative Filtering(3)RowSimilarityJob验证

combiner的输出:

mahout算法源码分析之Itembased Collaborative Filtering(3)RowSimilarityJob验证
这样看到数据的输出后,就可以很好的理解combiner的具体操作了;

最后看reducer的操作,就是把combiner的输出进行排序即可:

mahout算法源码分析之Itembased Collaborative Filtering(3)RowSimilarityJob验证

但是,看到上面的log信息,似乎不是这样的,关于那个Vectors.topKElements方法没有细看,应该是和猜测的不同操作吧,这个下次在看了。


分享,成长,快乐

转载请注明blog地址:http://blog.csdn.net/fansy1990



读书人网 >云计算

热点推荐