分散式sparkSQL引擎應用：從遠端通過thriftServer連線spark叢集處理hive中的資料

阿新 • • 發佈：2019-02-15

實現原理：

客戶端(java程式)與thriftServer連線，thriftServer再代理客戶端轉換成spark的操作流程，再載入hive的資料到spark的worker節點，並執行Map-Reduce作業。這裡只是個小案例，和大家一起來探討一下原理。

步驟：

分發三個配置檔案hdfs-site.xml、core-site.xml、hive-site.xml到所有worker節點 ==>
在有關的庫下建立hive的資料表 ==>
載入資料到hive表中 ==>
啟動hdfs(如果有資料存放在hadoop叢集的資料節點) ==>
啟動spark叢集（建議啟動模式：完全分散式）==>
啟動thriftserver伺服器 ==>
執行java程式碼。

[

[email protected] sbin]$ netstat -nao | grep 1000
tcp6 0 0 :::10000 :::* LISTEN off (0.00/0/0)
【pom.xml加依賴包：hive-jdbc 2.1.0】

data.txt 內容：
1,tom,12
2,tomas,13
3,tomas Lee,14
4,tony kidkid,15

【/Users/tonykidkid/programjava/SparkDemo/SparkDemo1/src/main/scala_java/ThriftClient.java】示例原始碼如下——

import java.sql.*;

/**
* 通過此客戶端程式訪問sparkSQL分散式引擎
*/

public class ThriftClient {
public static void main(String[] args) {
try {
Class.forName( "org.apache.hive.jdbc.HiveDriver" );
Connection conn = DriverManager.getConnection( "jdbc:hive2://h201:10000" );
Statement st = conn.createStatement();
ResultSet rs = st.executeQuery( "SELECT count(1) FROM mydb.tt WHERE age > 13"

);
while(rs.next()){
int count = rs.getInt( 1 );
System.out.println( count );
}
} catch (ClassNotFoundException e) {
e.printStackTrace();
} catch (SQLException e) {
e.printStackTrace();
}
}
}
【控制檯輸出結果如下】
2

到web頁面檢視：
http://172.16.112.201:8080 ==> Running Applications
檢視到：
Application IDNameCoresMemory per NodeSubmitted TimeUserStateDuration
app-20170501050836-0000 (kill)Thrift JDBC/ODBC Server31024.0 MB2017/05/01 05:08:36centosRUNNING37 min

點選 ApplicationID ==> 點選 Application Detail UI ==>
從Completed Jobs表格看到Description內容就是java原始碼裡面的SQL語句，
繼續點選Description裡的連結，進到Details for Job頁面 ==>
點選DAG Visualization就能看到各個階段的任務執行情況。

分散式sparkSQL引擎應用：從遠端通過thriftServer連線spark叢集處理hive中的資料

分散式sparkSQL引擎應用：從遠端通過thriftServer連線spark叢集處理hive中的資料

分散式學習筆記二：從分散式一致性談到CAP理論、BASE理論

分散式學習最佳實踐：從分散式系統的特徵開始（附思維導圖）

在Kubernetes上執行有狀態應用：從StatefulSet到Operator

【轉】編寫高質量代碼改善C#程序的157個建議——建議68：從System.Exception或其他常見的基本異常中派生異常

SpringBoot通過JedisCluster連線Redis叢集（分散式專案）

《Python 程式設計：從入門到實踐》第十五章(生成資料)練習題答案

《Python 程式設計：從入門到實踐》第十六章(下載資料)練習題答案

Spring Cloud Config(分散式配置中心)使用git作為遠端配置中心連線資料庫配置

從家中通過vpn連線到公司的外網伺服器，以進入其內網

網路爬蟲初步：從一個入口連結開始不斷抓取頁面中的網址併入庫

【深度首發】觀數科技的頭三年：從斷奶，走彎路，再到領跑大資料安全丨Xtecher 封面

通過Kafka在ignite叢集之間進行實時資料複製

SparkSql將資料來源Hive中資料匯入MySql例項

通過 mysq + 連線池來獲取資料庫中的資料的模組

通過指令碼和EL表示式獲取域中資料

zabbix企業應用：通過SNMP和iDRAC監控DELL服務器硬件

從研究到應用：騰訊AI Lab的自然語言理解和生成

ubuntu：scp從遠端下載或從本地上傳

多工學習概述論文：從定義和方法到應用和原理分析

分散式sparkSQL引擎應用：從遠端通過thriftServer連線spark叢集處理hive中的資料

相關推薦