读书人

seq2sparse(三)之TFParitialVectorR

发布时间: 2013-09-06 10:17:17 作者: rapoo

seq2sparse(3)之TFParitialVectorReducer源码分析

接着上篇seq2sparse系列,本次主要分析TFParitialVectorReducer的源码。

打开该类文件,首先分析逻辑流。TFParitialVectorReducer有两个函数分别是setup和reduce,setup函数,主要是读取基本的参数设置,然后就是读取一个相对来说比较重要的变量(从文件中读取),如下代码:

  • --maxNGramSize (-ng) ngramSize (Optional) The maximum size of ngrams to
  • create (2 = bigrams, 3 = trigrams, etc)
  • Default Value:1 由于默认是1,所以直接进入else中,代码如下:

    [sophomore->78643, moon's->59206, flamewar->38539, indiscriminately->47036, 
    下面是reduce中的for循环,首先第一个单词是from,在dictionary中查到的数字是39560,然后一次循环后vector值为{39560:1.0};两次循环后值为:{56411:1.0,39560:1.0}

    三次循环后:{56411:2.0,39560:1.0},由于第二次和第三次的单词一样,所以其对应的数字也是一样的,这样就会在vector中产生一个值,但是它的value是2;


    分享,快乐,成长


    转载请注明出处:http://blog.csdn.net/fansy1990


  • 读书人网 >云计算

    热点推荐