读书人

hadoop编程札记

发布时间: 2012-10-15 09:45:25 作者: rapoo

hadoop编程笔记

1 基本hadoop程序

2 输入输出格式

3 多个map reduce管道(已经实践,靠谱,可否支持写入不同的文件呢?)

4 数据join。

map端join

reduce端join(分组,打标志,以关联字段为key)

分布式缓存(非对称,小数据)

布隆过滤器(假负率为0,位图,缩小存储空间,非对称表join常用手段)

http://www.google.com.hk/ggblog/googlechinablog/2007/07/bloom-filter_7469.html

?

?

?

?

?

?

try数据统计:

试用品表和商品表的聚合数据(量小hive,表连接)

访问日志表,包括直接访问试用的日志,由试用引导到其他页面的数据。进行基本的uv统计,访问路径模式统计(hive过滤)。

试用交易表,试用商品对应的交易数据,引导交易数据(hive表连接)

试用用户表聚合uic表(hive表连接)

试用申请表用于同地址去重(mapreduce)

?

?

?

?

?

?

?

读书人网 >编程

热点推荐