读书人

Spark实例:SortByKey

发布时间: 2013-11-15 22:28:15 作者: rapoo

Spark范例:SortByKey

前年的文章,备份

spark自身不提供sortByKey的功能,但提供reduceByKey,groupByKey,combineByKey等功能。
SortByKey常用于构建倒排索引上。

比如原始数据结构为
(key1,4)
(key1,3)
(key1,7)
(key1,1)
需要转换成
(key1,(1,3,4,7))

我创建了一个简单的数据样本,保存到一个文件里sortByKey.txt。也可以自己通过parallelize随机生成
文件里的内容如下:

key1 2
key1 3
key2 54
key1 23
key2 12
key3 45
key3 5
key1 53
key2 4
key3 78
key3 17
key2 6
key1 70
key1 74
key2 45
key1 41
key2 14

使用spark完成这样的任务也很简单,代码如下:

? 

读书人网 >开源软件

热点推荐