通過spark-sql快速讀取hive中的資料

阿新 • • 發佈：2018-12-12

1 配置並啟動

1.1 建立並配置hive-site.xml

在執行Spark SQL CLI中需要使用到Hive Metastore，故需要在Spark中新增其uris。具體方法是將HIVE_CONF/hive-site.xml複製到SPARK_CONF目錄下，然後在該配置檔案中，新增hive.metastore.uris屬性，具體如下：

<configuration> 

  <property>

    <name>hive.metastore.uris</name>

    <value>thrift://hadoop1:9083</value>

    <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>

  </property>

</configuration>

1.2 啟動Hive

在使用Spark SQL CLI之前需要啟動Hive Metastore（如果資料存放在HDFS檔案系統，還需要啟動Hadoop的HDFS），使用如下命令可以使Hive Metastore啟動後執行在後臺，可以通過jobs查詢：

$nohup hive --service metastore > metastore.log 2>&1 &

1.3 啟動Spark叢集和Spark SQL CLI

通過如下命令啟動Spark叢集和Spark SQL CLI：

$cd /app/hadoop/spark-1.1.0

$sbin/start-all.sh

$bin/spark-sql --master spark://hadoop1:7077 --executor-memory 1g

在叢集監控頁面可以看到啟動了SparkSQL應用程式：

這時就可以使用HQL語句對Hive資料進行查詢，另外可以使用COMMAND，如使用set進行設定引數：預設情況下，SparkSQL Shuffle的時候是200個partition，可以使用如下命令修改該引數：

SET spark.sql.shuffle.partitions=20;

運行同一個查詢語句，引數改變後，Task（partition）的數量就由200變成了20。

通過spark-sql快速讀取hive中的資料

1 配置並啟動

1.1 建立並配置hive-site.xml

1.2 啟動Hive

1.3 啟動Spark叢集和Spark SQL CLI

通過spark-sql快速讀取hive中的資料

spark用scala讀取hive表資料

spark流式讀取hdfs中資料

從原始碼看Spark讀取Hive表資料小檔案和分塊的問題

十六.Spark SQL之讀取複雜的json資料

【七】Spark SQL命令和Spark shell命令操作hive中的表

sparksql讀取hive中的資料儲存到hdfs中

通過spark sql建立HIVE的分割槽表

SparkSQL讀取Hive中的資料

spark讀取hive表資料實操

spark 讀取elasticsearch中資料不完整問題

Spark-SQL連接Hive

通過spark sql 將 hdfs上文件導入到mongodb

Spark SQL 筆記(5)—— Hive 到 Spark SQL（1）

Spark SQL 筆記(1)—— Hive

通過管道傳輸快速將MySQL的資料匯入Redis(自己做過測試)

SQL SERVER匯出表中資料的sql指令碼形式

SparkSql將資料來源Hive中資料匯入MySql例項

Spark SQL將rdd轉換為資料集-以程式設計方式指定模式（Programmatically Specifying the Schema）

Hive中資料壓縮（企業優化）

通過spark-sql快速讀取hive中的資料

1 配置並啟動

1.1 建立並配置hive-site.xml

1.2 啟動Hive

1.3 啟動Spark叢集和Spark SQL CLI

相關推薦