1. 程式人生 > >學習筆記:從0開始學習大資料-25. impala 安裝及使用

學習筆記:從0開始學習大資料-25. impala 安裝及使用

還需繼續abc,這節學習安裝使用impala

Impala是Cloudera公司主導開發的新型查詢系統,它提供SQL語義,能查詢儲存在Hadoop的HDFS和HBase中的PB級大資料。已有的Hive系統雖然也提供了SQL語義,但由於Hive底層執行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的互動性。相比之下,Impala的最大特點也是最大賣點就是它的快速。

下載安裝網址: http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.16.1/

centos7最好是使用yum安裝,可以自動安裝依賴的包,因為impala安裝依賴的包較多,還要注意依賴包的版本一致

1.修改 yum源

建立檔案 /etc/yum.repos.d/impala.repo

[[email protected] yum.repos.d]# cat impala.repo
#impala
[impala]
name=impala-rpm
baseurl=http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.16.1
gpgcheck=0
repo_gpgcheck=0
enabled=1

2.安裝,有如下四個服務元件

yum  install -y impala
yum install -y impala-server 
yum install -y  impala-state-store
yum install -y impala-catalog

yum install -y impala-shell

3.顯示需要安裝的包

4.配置,目錄在/etc/impala,把 hdfs-site.xml,core-site.xml,hive-site.xml,hbase-site.xml 從 hadoop,hivs,hbase的conf目錄複製到/etc/impala/conf目錄

修改hdfs-site.xml,增加

<property> <name>dfs.client.read.shortcircuit</name> <value>true</value> </property> <property> <name>dfs.domain.socket.path</name> <value>/var/run/hadoop-hdfs/dn._PORT</value> </property> <property> <name>dfs.datanode.hdfs-blocks-metadata.enabled</name> <value>true</value> </property> <property> <name>dfs.client.file-block-storage-locations.timeout</name> <value>10000</value> </property>
5.啟動impala

systemctl start statestored
systemctl start impala-catalog
systemctl start impala-server

6.因為我的系統裡依賴包都安裝好了,但版本不一致,我這裡是cdh5.16.0的包,而yum安裝系統識別的是5.16.1,意味著所有包都要重灌新版本,並重新配置,當然,另外一個辦法是安裝新的虛擬機器,整套按這個自動安裝後重新每個依賴元件配置。

7.安裝好後,即可進行測試,因為我在上個cloudera的整合安裝裡已經安裝好了一個整合,就先用它測試一下

8. impala-shell

impala-shell 可以單獨安裝在任何一個客戶端,並可以連線到執行 impala的任一臺伺服器,無需一定要連線到impala-server的伺服器

impala 的表儲存依賴hive,因此hdfs,hive啟動後才能使用

9.通過impala安裝提供的web介面監控impala

10. 也可以通過hue整合介面監控及操作

 

關於impala 的使用,參考如下網址:

https://www.w3cschool.cn/impala/impala_create_table_statement.html   w3Cschool  impala 教程