自己的HADOOP平臺（三）：Mysql+hive遠端模式+Spark on Yarn

阿新 • • 發佈：2019-02-18

Spark和hive配置較為簡單，為了方便Spark對資料的使用與測試，因此在搭建Spark on Yarn模式的同時，也把Mysql + Hive一起搭建完成，並且配置Hive對Spark的支援，讓Spark也能像Hive一樣操作資料。

前期準備

scala-2.11.11.tgz
spark-2.1.1-bin-hadoop2.7.tar.gz
hive-1.2.1.tar.gz
mysql-connector-java-5.1.43-bin.jar

這裡寫圖片描述

安裝MySQL

通過yum 安裝MySQL
MySQL因為只用來儲存hive的元資料，因此只用在一個節點上安裝就好
1、下載MySQL的repo源

wget http://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm

2、安裝mysql源

yum localinstall mysql57-community-release-el7-11.noarch.rpm

3、檢查源是否安裝成功

yum repolist enabled | grep "mysql.*-community.*"

4、安裝mysql

yum install mysql-community-server

5、啟動mysql

systemctl start mysqld

6、檢視mysql狀態

systemctl status mysqld

出現active (running)表示成功

7、設定開機啟動mysql

systemctl enable mysqld
systemctl daemon-reload

8、修改root本地登入密碼

//生成預設密碼，然後登入後修改
grep 'temporary password' /var/log/mysqld.log
mysql -uroot -p

//修改全域性引數以便修改密碼
//檢查是否安裝validate_password外掛
SHOW VARIABLES LIKE 'validate_password%' 
;

//修改validate_passwhiord_policy引數的值
set global validate_password_policy=0;

//設定root賬戶密碼
set password for 'root'@'localhost'=password('rootroot');

9、新增遠端登入使用者

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'rootroot' WITH GRANT OPTION;

10、配置預設編碼為utf-8

//修改/etc/my.cnf 在[mysqld]下新增編碼
character_set_server=utf8
init_connect='SET NAMES utf8'

HIVE安裝

在master1節點上

1、建立hdfs目錄並賦予許可權
這幾步必須做，否則後面指定hive元資料庫的時候回出錯

hdfs dfs -mkdir -p /user/hive/warehouse
hdfs dfs -mkdir -p /user/hive/tmp
hdfs dfs -mkdir -p /user/hive/log
hdfs dfs -chmod 777 /user/hive/warehouse
hdfs dfs -chmod 777 /user/hive/tmp
hdfs dfs -chmod 777 /user/hive/log

增加環境變數

export HIVE_HOME=/usr/local/hive-1.2.1
export HIVE_CONF_DIR=/usr/local/hive/conf

2、建立mysql資料庫資訊並指定元資料庫

//登入mysql，建立一個數據庫命令為hive
create database hive;

//建立hive使用者，並賦予所有的許可權
CREATE USER 'hive'@'localhost' IDENTIFIED BY 'rootroot';
GRANT ALL PRIVILEGES ON *.* TO hive IDENTIFIED BY 'ROOTROOT' WITH GRANT OPTION;

//將mysql的JDBC驅動包拷貝到hive的安裝目錄的lib目錄中

3、遠端模式的服務端配置(master節點)
修改hive-site.xml配置

vim /usr/local/hive-1.2.1/conf/hive-site.xml
//具體配置如下

<configuration>
 <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false</value>
    <description>JDBC connect string for a JDBC metastore</description>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
    <description>Username to use against metastore database</description>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>rootroot</value>
    <description>password to use against metastore database</description>
  </property>

  <property>
    <name>hive.server2.logging.operation.log.location</name>
    <value>/usr/local/hive-1.2.1/iotmp/operation_logs</value>
    <description>Top level directory where operation logs are stored if logging functionality is enabled</description>
  </property>

  <property>
    <name>hive.exec.scratchdir</name>
    <value>/tmp/hive</value>
    <description>HDFS root scratch dir for Hive jobs which gets created with write all (733) permission. For each connecting user, an HDFS scratch dir: ${hive.exec.scratchdir}/&lt;username&gt; is created, with ${hive.scratch.dir.permission}.</description>
  </property>

  <property>
    <name>hive.exec.local.scratchdir</name>
    <value>/usr/local/hive-1.2.1/iotmp</value>
    <description>Local scratch space for Hive jobs</description>
  </property>

  <property>
    <name>hive.downloaded.resources.dir</name>
    <value>/usr/local/hive-1.2.1/iotmp</value>
    <description>Temporary local directory for added resources in the remote file system.</description>
  </property>

  <property>
    <name>hive.querylog.location</name>
    <value>/usr/local/hive-1.2.1/iotmp</value>
    <description>Location of Hive run time structured log file</description>
  </property>
</configuration>

4、其他節點作為客戶端（master1/slave1/slave2/slave3）

修改hive-site.xml配置

<configuration>
    <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/usr/hive/warehouse</value>
    </property>

    <property>
        <name>hive.metastore.uris</name>
        <value>thrift://master:9083</value>
    </property>
</configuration>

到這裡 hive的遠端模式就配置完成了。

測試一下hive是否正常啟動

//在master節點上啟動hive元資料服務
hive --service metastore &

//在master1節點上啟動hive
hive

這裡寫圖片描述

hive 可以顯示資料
mysql儲存hive元資料資訊
HDFS儲存資料
這裡寫圖片描述

對應的HDFS上的資料
這裡寫圖片描述

hive功能執行正常

Spark on Yarn 配置

1、解壓spark包

//解壓到/usr/local/spark
tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz
mv spark-2.1.1-bin-hadoop2.7 /usr/local/spark

2、增加環境變數

vim ~/.bashrc
//增加
export SPARK_HOME=/usr/local/spark
//在PATH後面追加
%SPARK_HOME/bin:%SPARK_HOME/sbin

3、修改spark-env.sh配置檔案

//增加配置
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export JAVA_HOME=/usr/local/jdk1.8.0_144
export SPARK_HOME=/usr/local/spark
export SPARK_EXECUTOR_MEMORY=1G
export SPARK_EXECUTOR_cores=1
export SPARK_WORKER_CORES=1
export SCALA_HOME=/usr/local/scala

測試一下通過spark on yarn
使用spark知道的SparkPi來測試，指定master為yarn

/usr/local/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --num-executors 2 /usr/local/spark/examples/jars/spark-examples_2.11-2.1.1.jar 5

這裡寫圖片描述

也可以在yarn UI介面上看到Yarn為spark分配的application
這裡寫圖片描述

Spark sql訪問hive資料

1、將master節點的hive的配置檔案hive-site.xml拷貝進入spark/conf目錄中
hive-site.xml內容

<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://master:3306/hive?createDatabaseIfNoExist=true</value>
</property>

<property>    
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
</property>

<property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
<property>

<property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>rootroot</value>
</property>

<property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse<value>
</property>

2、修改spark-default.conf檔案

//在配置檔案裡面增加如下配置
spark.sql.warehouse.dir /user/spark/warehouse

3、將hive-site.xml 和 spark-default.conf兩個配置檔案傳送給其他的幾個節點

scp hive-site.xml hadoop@master1:/usr/local/spark/conf
scp hive-site.xml hadoop@slave1:/usr/local/spark/conf
scp hive-site.xml hadoop@slave2:/usr/local/spark/conf
scp hive-site.xml hadoop@slave3:/usr/local/spark/conf

scp spark-default.conf hadoop@master1:/usr/local/spark/conf
scp spark-default.conf hadoop@slave1:/usr/local/spark/conf
scp spark-default.conf hadoop@slave2:/usr/local/spark/conf
scp spark-default.conf hadoop@slave3:/usr/local/spark/conf

4、把mysql的驅動包放入spark/jars裡面

增加配置過後，就可以通過spark sql來操作hive資料庫了

測試一下spark sql 對hive的操作
這裡寫圖片描述

spark能通過sql語句訪問，功能正常！

如果有什麼意見或者建議，請聯絡我，謝謝。

自己的HADOOP平臺（三）：Mysql+hive遠端模式+Spark on Yarn

Spark和hive配置較為簡單，為了方便Spark對資料的使用與測試，因此在搭建Spark on Yarn模式的同時，也把Mysql + Hive一起搭建完成，並且配置Hive對Spark的支援，讓Spark也能像Hive一樣操作資料。前期準備

Hadoop系列（三）：hadoop基本測試

下面是對hadoop的一些基本測試示例 Hadoop自帶測試類簡單使用這個測試類名叫做 hadoop-mapreduce-client-jobclient.jar，位置在 hadoop/share/hadoop/mapreduce/ 目錄下不帶任何引數可以獲取這個jar的幫助資訊 $ yar

mysql（三）：mysql查詢語句和多表關聯查詢以及子查詢

1.查詢一張表：select * from 表名； 2.查詢指定欄位：select 欄位1，欄位2，欄位3....from 表名； 3.where條件查詢：select 欄位1，欄位2，欄位3 frome 表名 where 條件表示式；例：select *

Java多線程編程模式實戰指南（三）：Two-phase Termination模式

增加 row throws mgr 額外 finally join table 還需停止線程是一個目標簡單而實現卻不那麽簡單的任務。首先，Java沒有提供直接的API用於停止線程。此外，停止線程時還有一些額外的細節需要考慮，如待停止的線程處於阻塞（等待鎖）或者等待狀態（等

學習之路-RabbitMQ（三）：RabbitMQ的工作模式

RabbitMQ有以下幾種工作模式 : 1、Work queues 工作佇列 2、Publish/Subscribe 釋出訂閱模式 3、Routing 路由模式 4、Topics 萬用字元模式 5、Header 6、RPC 一：Work queues 工作佇列 work queues與

TIM通用定時器（三）：PWM輸入捕獲模式

一、概念理解 PWM輸入捕獲模式是輸入捕獲模式的特例，自己理解如下 1. 每個定時器有四個輸入捕獲通道IC1、IC2、IC3、IC4。且IC1 IC2一組，IC3 IC4一組。並且可是設定管腳和暫存器的對應關係。 2. 同一個TIx輸入映射了兩個ICx訊號。 3. 這兩個IC

Java多執行緒程式設計模式實戰指南（三）：Two-phase Termination模式

本文由本人首次釋出在infoq中文站上：http://www.infoq.com/cn/articles/java-multithreaded-programming-mode-two-phase-termination 停止執行緒是一個目標簡單而實現卻不那麼簡單的

MySQL的JOIN（三）：JOIN優化實踐之內循環的次數

ted www str 連接 pri 記錄 font 語句 style 這篇博文講述如何優化內循環的次數。內循環的次數受驅動表的記錄數所影響，驅動表記錄數越多，內循環就越多，連接效率就越低下，所以盡量用小表驅動大表。先插入測試數據。 CREATE TABLE t1

hadoop學習筆記（三）：hdfs體系結構和讀寫流程（轉）

sim 百萬服務器發表繼續什麽 lose 基於一次原文：https://www.cnblogs.com/codeOfLife/p/5375120.html 目錄 HDFS 是做什麽的 HDFS 從何而來為什麽選擇 HDFS 存儲數據 HDFS

搭建自己的部落格（三）：簡單搭建首頁和詳情頁

上一篇我們建立了部落格表和標籤表以及超級使用者，那如何將建立的部落格通過網頁顯示出來呢？‘我們簡單的建立首頁和詳情頁。 1、新建html介面首先建立在blog app下建立一個templates資料夾，這個資料夾用來放置前端頁面，注意資料夾名字必須是templates。建立blog_list.htm

搭建自己的博客（三）：簡單搭建首頁和詳情頁

title lose add 刷新 cti you urn http eight 上一篇我們創建了博客表和標簽表以及超級用戶，那如何將創建的博客通過網頁顯示出來呢？‘我們簡單的創建首頁和詳情頁。 1、新建html界面首先創建在blog app下創建一個templates文

MySQL效能管理及架構設計（三）：SQL查詢優化、分庫分表 - 完結篇

一、SQL查詢優化（重要） 1.1 獲取有效能問題SQL的三種方式通過使用者反饋獲取存在效能問題的SQL；通過慢查日誌獲取存在效能問題的SQL；實時獲取存在效能問題的SQL； 1.1.2 慢查日誌分析工具相關配置引數： slow

Navicat使用教程（三）：使用MySQL日誌（第3部分）——慢速日誌

下載Navicat for MySQL最新版本 Navicat for MySQL 是一套管理和開發 MySQL 或 MariaDB 的理想解決方案。使用Navicat for MySQL可以同時連線到 MySQL 和 MariaDB。Navicat for MySQL提供了強大的前端功能，為

阿里雲搭建大資料平臺（3）：安裝JDK和Hadoop偽分佈環境

一、安裝jdk 1.解除安裝Linux自帶的JDK rpm -qa|grep jdk #查詢原始JDK yum -y remove <舊JDK> 2.解壓縮 tar -zxvf /opt/softwares/jdk-8u151-linux-x64.t

JAVA通過JDBC操作MySQL資料庫（三）：PreparedStatement介面操作資料庫

JAVA通過JDBC操作MySQL資料庫（三）：PreparedStatement介面操作資料庫 Statement介面的問題 PreparedStatement介面操作資料庫 Statement介面的問題在文章JAVA通過JDBC操作

機器學習實戰教程（三）：決策樹實戰篇之為自己配個隱形眼鏡

原文連結：cuijiahua.com/blog/2017/1… 一、前言上篇文章機器學習實戰教程（二）：決策樹基礎篇之讓我們從相親說起講述了機器學習決策樹的原理，以及如何選擇最優特徵作為分類特徵。本篇文章將在此基礎上進行介紹。主要包括：決策樹構建決策樹視覺化使用決

Python3《機器學習實戰》學習筆記（三）：決策樹實戰篇之為自己配個隱形眼鏡

轉載請註明作者和出處： http://blog.csdn.net/c406495762 執行平臺： Windows Python版本： Python3.x IDE： Sublime text3 一前言上篇文章，Python3《

Hadoop+spark+jupyter環境搭建（三）：Pyspark+jupyter部署在Linux

Hadoop+spark+jupyter環境搭建順序請參照：我們已經實現了Spark on Yarn的搭建，但我們還希望有一個友好的開發介面，也便於展示成果，因此我們選擇了jupyter。他的本質就是一個 web app，也支援多種語言，完全滿足我們的要求。1.安裝

微信公眾號平臺開發（三）：幾大微信介面的呼叫

文章結構 1、怎麼呼叫微信高階介面 2、呼叫微信高階幾大例項 2.1、呼叫自定義選單介面 2.2、客服介面 2.3、生成二維碼 3、獲取非微信功能介面，如天氣網的天氣介面、股票網站的資訊介面。怎麼呼叫微信高階介

MySQL優化（三）：索引原理及索引優化

建立高效能索引索引是提高MySQL查詢效能的一個重要途徑，但過多的索引可能會導致過高的磁碟使用率以及過高的記憶體佔用，從而影響應用程式的整體效能。應當儘量避免事後才想起新增索引，因為事後可能需要監控大量的SQL才能定位到問題所在，而且新增索引的時間肯定是遠大於初始新增索引所需

自己的HADOOP平臺（三）：Mysql+hive遠端模式+Spark on Yarn

前期準備

安裝MySQL

HIVE安裝

Spark on Yarn 配置

Spark sql訪問hive資料

相關推薦