學習筆記:從0開始學習大資料-25. impala 安裝及使用
還需繼續abc,這節學習安裝使用impala
Impala是Cloudera公司主導開發的新型查詢系統,它提供SQL語義,能查詢儲存在Hadoop的HDFS和HBase中的PB級大資料。已有的Hive系統雖然也提供了SQL語義,但由於Hive底層執行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的互動性。相比之下,Impala的最大特點也是最大賣點就是它的快速。
下載安裝網址: http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.16.1/
centos7最好是使用yum安裝,可以自動安裝依賴的包,因為impala安裝依賴的包較多,還要注意依賴包的版本一致
1.修改 yum源
建立檔案 /etc/yum.repos.d/impala.repo
[[email protected] yum.repos.d]# cat impala.repo
#impala
[impala]
name=impala-rpm
baseurl=http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.16.1
gpgcheck=0
repo_gpgcheck=0
enabled=1
2.安裝,有如下四個服務元件
yum install -y impala
yum install -y impala-server
yum install -y impala-state-store
yum install -y impala-catalog
yum install -y impala-shell
3.顯示需要安裝的包
4.配置,目錄在/etc/impala,把 hdfs-site.xml,core-site.xml,hive-site.xml,hbase-site.xml 從 hadoop,hivs,hbase的conf目錄複製到/etc/impala/conf目錄
修改hdfs-site.xml,增加
<property> <name>dfs.client.read.shortcircuit</name> <value>true</value> </property> <property> <name>dfs.domain.socket.path</name> <value>/var/run/hadoop-hdfs/dn._PORT</value> </property> <property> <name>dfs.datanode.hdfs-blocks-metadata.enabled</name> <value>true</value> </property> <property> <name>dfs.client.file-block-storage-locations.timeout</name> <value>10000</value> </property>
5.啟動impala
systemctl start statestored
systemctl start impala-catalog
systemctl start impala-server
6.因為我的系統裡依賴包都安裝好了,但版本不一致,我這裡是cdh5.16.0的包,而yum安裝系統識別的是5.16.1,意味著所有包都要重灌新版本,並重新配置,當然,另外一個辦法是安裝新的虛擬機器,整套按這個自動安裝後重新每個依賴元件配置。
7.安裝好後,即可進行測試,因為我在上個cloudera的整合安裝裡已經安裝好了一個整合,就先用它測試一下
8. impala-shell
impala-shell 可以單獨安裝在任何一個客戶端,並可以連線到執行 impala的任一臺伺服器,無需一定要連線到impala-server的伺服器
impala 的表儲存依賴hive,因此hdfs,hive啟動後才能使用
9.通過impala安裝提供的web介面監控impala
10. 也可以通過hue整合介面監控及操作
關於impala 的使用,參考如下網址:
https://www.w3cschool.cn/impala/impala_create_table_statement.html w3Cschool impala 教程