读书人

impala v0.3施用和配置

发布时间: 2013-02-27 10:48:11 作者: rapoo

impala v0.3使用和配置

一、Impala介绍

Cloudera Impala提供了快速,交互式的针对存储在hadoop(hdfs和hbase)上的数据的查询方案。impala采用了和hive相同的元数据、SQL语法(Hive SQL)、ODBC驱动程序和用户接口(HUE Beeswax),这样在使用CDH产品时,批处理和实时查询的平台是统一的。

Cloudera Impala是另外一个支持大数据查询的工具,但它并不是取代Hive

这种构建在mapreduce上的批量处理框架。hive和其他类似构建在mapreduce上的批处理框架还是非常适用于那种长时间运行的,比如ETL类型的作业。

1、Impala优势

l? 支持大家都非常熟悉的类SQL语法结构

l? 提供对存储在hadoop中(hdfs和hbase)数据交互式的查询

l? Single system for big data processing and analytics so customers can avoid costly modeling and ETL just for analytics

2、Impala工作原理图

Impala主要是对存储在hdfs和hbase中数据进行实时查询,由于impala采用和Hive一致的元数据结构,所以impala的元数据管理沿用了Hive元数据管理机制,安装impala的时候就必须要安装Hive。

3、Impala组件构成:

l? Impala State Store:运行statestored进程,用于存储集群中的impalad进程的状态信息,这些信息用于在分布式环境中快速的查询数据响应查询请求。

l? Impalad:运行在DataNode节点上,主要用于协调和执行查询,每一个impalad实例都能接受、并有效的协调来自ODBC或者impala shell的查询请求。另外,impalad进程还可以以一个worker的角色来执行由其他impalad进程发起的分布式并行查询。

l? Impala-shell:使用Impala-shell可以进行impala查询或任务管理,例如connect impalad等。

4、Impala执行查询的处理步骤如下:

a)?????? 用户的Applications通过ODBC驱动程序执行查询时,首先要连接到集群中的某一个impalad进程上,然后由这个impalad进程来协调和发起分布式查询请求。

b)?????? Impala接收到这个查询请求后会对其进行解析,并分析以确定需要由集群中的一个或者多个imapald进程实例来执行查询请求。查询的时候会根据执行计划选择最优的查询方式。

c)?????? 由选中的每一个impalad进程提供本地化的访问查询hdfs和hbase数据服务

d)?????? 每一个选中的impalad进程将查询到的数据返回给发起分布式查询的impalad进程,该impalad进程汇总这些数据后,最后返回个客户端。

5、Impala主要特性:

l? 支持大部分基于SQL-92标准的Hive QL语法功能,包括select, joins, 和aggregate 函数等。

l? 支持查询以以下存格式储和压缩的hdfs和hbase文件:

读书人网 >行业软件

热点推荐