如何快速地將Hive中的資料匯入ClickHouse

阿新 • • 發佈：2018-12-14

如何快速地將Hive中的資料匯入ClickHouse

ClickHouse是面向OLAP的分散式列式DBMS。我們部門目前已經把所有資料分析相關的日誌資料儲存至ClickHouse這個優秀的資料倉庫之中，當前日資料量達到了300億。

在之前的文章如何快速地把HDFS中的資料匯入ClickHouse中我們提到過使用Waterdrop——https://github.com/InterestingLab/waterdrop對HDFS中的資料經過很簡單的操作就可以將資料寫入ClickHouse。HDFS中的資料一般是非結構化的資料，那麼針對儲存在Hive中的結構化資料，我們應該怎麼操作呢？

Hive to ClickHouse

假定我們的資料已經儲存在Hive中，我們需要讀取Hive表中的資料並篩選出我們關心的欄位，或者對欄位進行轉換，最後將對應的欄位寫入ClickHouse的表中。

Hive Schema

我們在Hive中儲存的資料表結構如下，儲存的是很常見的Nginx日誌

CREATE TABLE `nginx_msg_detail`(
   `hostname` string,
   `domain` string,
   `remote_addr` string,
   `request_time` float,
   `datetime` string,
   `url` string,
   `status` int,
   `data_size` int,
   `referer` string,
   `cookie_info` string,
   `user_agent` string,
   `minute` string)
 PARTITIONED BY (
   `date` string,
   `hour` string)

ClickHouse Schema

我們的ClickHouse建表語句如下，我們的表按日進行分割槽

CREATE TABLE cms.cms_msg
(
    date Date, 
    datetime DateTime, 
    url String, 
    request_time Float32, 
    status String, 
    hostname String, 
    domain String, 
    remote_addr String, 
    data_size Int32, 
) ENGINE = MergeTree PARTITION BY date ORDER BY (date, hostnmae) SETTINGS index_granularity = 16384

Waterdrop with ClickHouse

接下來會給大家介紹，我們如何通過Waterdrop將Hive中的資料寫入ClickHouse中。

Waterdrop

Waterdrop是一個非常易用，高效能，能夠應對海量資料的實時資料處理產品，它構建在Spark之上。Waterdrop擁有著非常豐富的外掛，支援從Kafka、HDFS、Kudu中讀取資料，進行各種各樣的資料處理，並將結果寫入ClickHouse、Elasticsearch或者Kafka中。

Waterdrop的環境準備以及安裝步驟這裡就不一一贅述了，具體安裝步驟可以參考上一篇文章或者訪問Waterdrop Docs

Waterdrop Pipeline

我們僅需要編寫一個Waterdrop Pipeline的配置檔案即可完成資料的匯入。

配置檔案包括四個部分，分別是Spark、Input、filter和Output。

Spark

這一部分是Spark的相關配置，主要配置Spark執行時所需的資源大小。

spark {
  spark.app.name = "Waterdrop"
  spark.executor.instances = 2
  spark.executor.cores = 1
  spark.executor.memory = "1g"
}

Input

這一部分定義資料來源，如下是從Hive檔案中讀取text格式資料的配置案例。

input {
    hive {
        pre_sql = "select * from access.nginx_msg_detail"
        table_name = "access_log"
    }
}

看，很簡單的一個配置就可以從Hive中讀取資料了。其中pre_sql是從Hive中讀取資料SQL，table_name是將讀取後的資料，註冊成為Spark中臨時表的表名，可為任意欄位。

需要注意的是，必須保證hive的metastore是在服務狀態。

在Cluster、Client、Local模式下執行時，必須把hive-site.xml檔案置於提交任務節點的$HADOOP_CONF目錄下

Filter

在Filter部分，這裡我們配置一系列的轉化，我們這裡把不需要的minute和hour欄位丟棄。當然我們也可以在讀取Hive的時候通過pre_sql不讀取這些欄位

filter {
    remove {
        source_field = ["minute", "hour"]
    }
}

Output

最後我們將處理好的結構化資料寫入ClickHouse

output {
    clickhouse {
        host = "your.clickhouse.host:8123"
        database = "waterdrop"
        table = "nginx_log"
        fields = ["date", "datetime", "hostname", "url", "http_code", "request_time", "data_size", "domain"]
        username = "username"
        password = "password"
    }
}

Running Waterdrop

我們將上述四部分配置組合成為我們的配置檔案config/batch.conf。

vim config/batch.conf

spark {
  spark.app.name = "Waterdrop"
  spark.executor.instances = 2
  spark.executor.cores = 1
  spark.executor.memory = "1g"
}
input {
    hive {
        pre_sql = "select * from access.nginx_msg_detail"
        table_name = "access_log"
    }
}
filter {
    remove {
        source_field = ["minute", "hour"]
    }
}
output {
    clickhouse {
        host = "your.clickhouse.host:8123"
        database = "waterdrop"
        table = "access_log"
        fields = ["date", "datetime", "hostname", "uri", "http_code", "request_time", "data_size", "domain"]
        username = "username"
        password = "password"
    }
}

執行命令，指定配置檔案，執行Waterdrop，即可將資料寫入ClickHouse。這裡我們以本地模式為例。

./bin/start-waterdrop.sh --config config/batch.conf -e client -m 'local[2]'

Conclusion

在這篇文章中，我們介紹瞭如何使用Waterdrop將Hive中的資料匯入ClickHouse中。僅僅通過一個配置檔案便可快速完成資料的匯入，無需編寫任何程式碼，十分簡單。

希望瞭解Waterdrop與ClickHouse、Elasticsearch、Kafka、Hadoop結合使用的更多功能和案例，可以直接進入專案主頁https://github.com/InterestingLab/waterdrop

– Power by InterestingLab

如何快速地將Hive中的資料匯入ClickHouse

如何快速地將Hive中的資料匯入ClickHouse ClickHouse是面向OLAP的分散式列式DBMS。我們部門目前已經把所有資料分析相關的日誌資料儲存至ClickHouse這個優秀的資料倉庫之中，當前日資料量達到了300億。在之前的文章如何快速地把HDFS中的資料

SparkSql將資料來源Hive中資料匯入MySql例項

背景：能看到這篇部落格的夥計兒，應該是充分理解了[理想是豐滿的現實是骨感] 這句名言了吧。為啥子這麼說呢，那就是不就是個SparkSql從hive匯入到mysql嗎有什麼技術含量，但是呢不斷地踩坑ing填坑ing。廢話不多說，直接上硬菜。 package co

將MySQL中資料匯入到MongoDB中

第一步：將user表從MySQL中匯出，右鍵，點選匯出嚮導，選擇格式為xlsx。第二步：匯出完成後，雙擊開啟user.xlsx，將user.xlsx另存為csv格式的檔案。（切記不可直接修改後綴名，會導致亂碼，無法匯入到MongoDB中，血的教訓）第三步：

linux下大檔案編碼轉碼及將oracle中資料匯入mysql

這篇文章有不少廢話，只是為了發洩一下。如果讀者找需要解決的問題的辦法，直接無視這些廢話。最近做的專案要將Oracle中資料匯入Mysql，資料量約有兩千萬條，慶幸的是隻有一張表，而且資料結構比較簡單。在這個過程中遇到不少坑，現在

利用pyhive將hive查詢資料匯入到mysql

在大資料工作中經常碰到需要將hive查詢資料匯入到mysql的需求，常見的方法主要有兩種，一是sqoop，另一種則是pyhive。本文主要講的就是python的pyhive庫的安裝與使用。 pyhive作用遠端連線hive資料庫，執行hive sql，而

左.右連線相關 , 將table1中資料匯入到table2中(表結構不相同)

現在要將table1中的資料轉到table2中,請教SQL語句該如何實現(只需要查詢語句就行了); 表 table1 name time value type A 2011-6-13 51 1 B 2011-6-13

如何快速地把HDFS中的資料匯入ClickHouse

如何快速地把HDFS中的資料匯入ClickHouse ClickHouse是面向OLAP的分散式列式DBMS。我們部門目前已經把所有資料分析相關的日誌資料儲存至ClickHouse這個優秀的資料倉庫之中，當前日資料量達到了300億。之前介紹的有關資料處理入庫的經驗都是基於

快速地將Excel資料匯入到SQL2005中的方法

在查詢分析器裡，直接寫SQL語句： --啟用Ad Hoc Distributed Queries： exec sp_configure 'show advanced options',1 reconfigure exec sp_configure 'Ad Hoc Distr

使用spark將hive中的資料匯入到mongodb

import com.huinong.truffle.push.process.domain.common.constant.Constants; import com.mongodb.spark.MongoSpark; import com.mongodb.spark.config.WriteConf

Hive 實戰練習（一）—按照日期將每天的資料匯入Hive表中

需求：每天會產生很多的日誌檔案資料，有這麼一種需求：需要將每天產生的日誌資料在晚上12點鐘過後定時執行操作，匯入到Hive表中供第二天資料分析使用。要求建立分割槽表，並按照日期分割槽。資料檔案命名是以當天日期命名的，如2015-01-09.txt一、建立分割

用sqoop將mysql的資料匯入到hive表中，原理分析

Sqoop 將 Mysql 的資料匯入到 Hive 中準備Mysql 資料如圖所示，準備一張表，資料隨便造一些，當然我這裡的資料很簡單。編寫命令編寫引數檔案個人習慣問題，我喜歡把引數寫到檔案裡，然後再命令列引用。 vim mysql-info， #

用sqoop將mysql的資料匯入到hive表中

用sqoop將mysql的資料匯入到hive表中 1：先將mysql一張表的資料用sqoop匯入到hdfs中準備一張表需求將 bbs_product 表中的前100條資料導匯出來只要id brand_id和 na

通過管道傳輸快速將MySQL的資料匯入Redis(自己做過測試)

通過管道傳輸快速將MySQL的資料匯入Redis 通過管道傳輸pipe將MySQL資料批量匯入Redis 自Redis 2.6以上版本起，Redis支援快速大批量匯入資料，即官網的Redis Mass Insertion,即

Java將Excel表格中資料匯入至資料庫中的表中

上一節介紹了Java將資料庫表中資料匯出至Excel表格，那麼本節來介紹它的逆過程，也就是將Excel表格中的資料逐行匯入資料庫中的表中，依然需要使用Apache的POI，上一節已經說過也附了這個jar包的下載地址，這一節就不過多的說，直接講如

將sqlserver的資料匯入hbase中

將sqlserver的資料匯入hbase中 1.解壓sqoop-sqlserver-1.0.tar.gz，並改名（可以不改） tar -zxvf sqoop- sql

如何將不同型別資料匯入Elaticsearch中？

題記 Elaticsearch的原理明白了以後，手頭有很多不同型別的資料，如: 1）單條資料，如程式中自己構造的JSON格式資料； 2）符合Elasticsearch索引規範的批量資料； 3）日誌檔案，格式*.log; 4）結構化資料，儲存在mysql

將Excel的資料匯入SqlServer的表中

記錄一下最近從Excel匯入大量資料到SqlServer表中的步驟。在將Excel資料準備好以後。 1、右鍵SQL Server中需要匯入資料的庫名，選擇【任務】—【匯入資料】如圖： 2、彈

MapReduce將HDFS文字資料匯入HBase中

HBase本身提供了很多種資料匯入的方式，通常有兩種常用方式：使用HBase提供的TableOutputFormat，原理是通過一個Mapreduce作業將資料匯入HBase 另一種方式就是使用HBase原生Client API 本文就是示範如何通過M

hive over hbase方式將文字庫資料匯入hbase

1，建立hbase表Corpus >> create 'Corpus','CF' 2，建立hive->hbase外表logic_Corpus,並對應hbase中的Corpus表 >> CREATE EXTERNAL TABLE logic_Co

33.如何將不同型別資料匯入Elaticsearch中(ES同步小結)

題記Elaticsearch的原理明白了以後，手頭有很多不同型別的資料，如: 1）單條資料，如程式中自己構造的JSON格式資料； 2）符合Elasticsearch索引規範的批量資料； 3）日誌檔案，格式*.log; 4）結構化資料，儲存在mysql、oracle等關係型資料

如何快速地將Hive中的資料匯入ClickHouse

如何快速地將Hive中的資料匯入ClickHouse

Hive to ClickHouse

Hive Schema

ClickHouse Schema

Waterdrop with ClickHouse

Waterdrop

Waterdrop Pipeline

Spark

Input

Filter

Output

Running Waterdrop

Conclusion

相關推薦