hive+hbase调整

hive+hbase整合

用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面的 hql查询.hive也即做数据仓库

1. 基于Hadoop+Hive架构对海量数据进行查询：http://blog.csdn.net/kunshan_shenbin/article/details/7105319
2. HBase 0.90.5 + Hadoop 1.0.0 集成：http://blog.csdn.net/kunshan_shenbin/article/details/7209990
本文的目的是要讲述如何让Hbase和Hive能互相访问，让Hadoop/Hbase/Hive协同工作，合为一体。
本文测试步骤主要参考自：http://running.iteye.com/blog/898399
当然，这边博文也是按照官网的步骤来的：http://wiki.apache.org/hadoop/Hive/HBaseIntegration
1. 拷贝hbase-0.90.5.jar和zookeeper-3.3.2.jar到hive/lib下。
注意：如何hive/lib下已经存在这两个文件的其他版本（例如zookeeper-3.3.1.jar），建议删除后使用hbase下的相关版本。
2. 修改hive/conf下hive-site.xml文件，在底部添加如下内容：

TBLPROPERTIES ("hbase.table.name" = "xyz");  
hbase.table.name 定义在hbase的table名称
hbase.columns.mapping 定义在hbase的列族 
2.使用sql导入数据
a) 新建hive的数据表
[sql] view plaincopy
&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;hive&gt; CREATE TABLE pokes (foo INT, bar STRING);  
b) 批量插入数据
[sql] view plaincopy
TBLPROPERTIES("hbase.table.name" = "some_existing_table");  


多列和多列族（Multiple Columns and Families）
1．创建数据库
Java代码  
CREATE TABLE hbase_table_2(key int, value1 string, value2 int, value3 int)   
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'  
WITH SERDEPROPERTIES (  
"hbase.columns.mapping" = ":key,a:b,a:c,d:e"  
);  

2.插入数据
Java代码  
INSERT OVERWRITE TABLE hbase_table_2 SELECT foo, bar, foo+1, foo+2   
FROM pokes WHERE foo=98 OR foo=100;  


这个有3个hive的列（value1和value2，value3），2个hbase的列族（a，d）
Hive的2列（value1和value2）对应1个hbase的列族（a，在hbase的列名称b，c），hive的另外1列（value3）对应列（e）位于列族（d）

3.登录hbase查看结构
Java代码  


4.查看hbase的数据
Java代码  
hive&gt; select * from hbase_table_2;  OK  100     val_100 101     102  98      val_98  99      100  Time taken: 3.238 seconds  


参考资料：
http://running.iteye.com/blog/898399
http://heipark.iteye.com/blog/1150648
http://www.javabloger.com/article/apache-hadoop-hive-hbase-integration.html

hive+hbase调整

热点推荐