读书人

【hadoop学习】在伪分布式hadoop下手把

发布时间: 2012-10-18 13:46:55 作者: rapoo

【hadoop学习】在伪分布式hadoop上手把手实践word count程序【下】

3. 准备输入的数据文件

前段时间看svm,也参考了libsvm,其中有个分类测试数据,内容如下:

-1      235101       7446100:1   53101:1   79102:1   64103:1   613104:1   36105:1   23106:1   28107:1   67108:1   17109:1   2610:1    1978110:1   47111:1   44112:1   56113:1   12114:1   58115:1   33116:1   12117:1   16118:1   15119:1   9811:1    1222120:1   19121:1   31122:1   20123:1   112:1    1413:1    614:1    618615:1    618916:1    619717:1    6177

呵呵,可以看到,“-1”出现的次数是23510,就这个文件来说,-1表示负类的样本数;相应的,正样本数是7446。接下来,特征“100:1”出现的次数是53,特征“101:1”是79......我就不具体解释了,做过机器学习算法的人都会知道上面表示什么意思。


总之,word count程序在我macbook pro的伪分布式上成功运行!将来,可以在进一步折腾了。


读书人网 >云计算

热点推荐