記一次蛋疼的mongo to hive導數過程

阿新 • • 發佈：2019-01-13

1. 起因

一次hive查數過程中，發現hive中缺省了10天的近3000w的資料，自問自答：怎麼辦，當然是要補數啊！從哪裡補，mongo啊（還好mongo中有一份）！

mongo中資料是bson儲存，而且資料列與hive不一樣！

2. 解決方案

方案1：`mongoexport`

思路：由於mongoexport只能以逗號分割欄位，所以要導到hive裡面最快的方式就是，利用mysql可以導逗號的cvs檔案，還可以指定列，並且約束嚴格可以方便的檢查資料正確性。

所以，第一反應是mongo to cvs to mysql to hive，但是很快就失敗了，過程還是要記錄下來的！

第一步

：mongo to cvs

語句：sudo ./mongoexport -hxxx --port xxx -u xxx -pxxx -d sms -c outbox1 --type=csv -f id,type,mobile, -q '{optime:{$gte: "2017-02-19 05:40:00", $lte: "2017-02-20 05:40:00"}}' -o /home/q/temp_mongo/mongo_data.cvs

第二步：cvs to mysql

語句：LOAD DATA LOCAL INFILE '/home/xxx/xx00' INTO TABLE xxxtable FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n';

插曲：mongo_data.cvs資料太大60多G，採用split切分split -50000 mongo_data.cvs,每個檔案5w行切分，第一次測試就先切1000行吧：csplit /mongo_data.cvs 1000先將檔案切成了2份！

問題

mongoexport對字串不加"導致欄位中包含逗號,，導致匯入失敗！（知道為啥不直接到hive了吧，導數過程肯定有問題啊，mysql解決問題多方便快捷）
mongoexport對於\不會轉義，所以字串中出現\[漢字]，eg : \請...形式的字元，mysql無法識別。

報錯： [HY000][1300] Invalid utf8 character string: 'xxx'

最簡單的方法要解決這些問題太瑪法，迅速放棄，期待mongoexport更智慧點吧，找其他快速解決的辦法！

方案2：`mongo shell`

mongoexport不能解決問題，藉助shell也許是最快的辦法了。

思路：mongo shell to cvs to hive

第一步：新建指令碼 export.js


db.auth("xxx","xxx");

conn = new Mongo();

db = conn.getDB("xxxdb");

var cur = db.xxxdb.find({optime:{$gte: "2017-02-19 05:40:00", $lte: "2017-02-20 05:40:00"}});

var obj;

while(cur.hasNext()){

    obj = cur.next();

    print(obj.id+"\t"+ ... +"\t"+obj.subaccount+"\n");

}

tip：和在命令列語法差不多，可以隨意指定輸出格式！這樣就可以直接一步到hive了

第二步：使用mongo執行cd .../mongodb/bin目錄下的mongo指令碼，./mongo --help檢視幫助

sudo ./mongo xxxip:30000/xxdb -u xxx -p xxx export.js > /home/q/temp_mongo/outbox

注：export.js放在當前目錄，所以沒有路徑！並且要刪除outbox前兩行輸出: sed -i '1,2d' outbox

第三步：導hive


#!/usr/bin/env bash

source /etc/profile

eval cd $(dirname $0)

currentDir=$(pwd)



line="xxx"

_HIVE_TABLE=xxxdb

PATH_FILE="${currentDir}/xxx"



gzip ${PATH_FILE}

PATH_GZ="${PATH_FILE}.gz"

echo "PATH_GZ:${PATH_GZ}"

hive -e "set mapreduce.job.name = ${0}_xxx;USE wirelessdata; \

alter table ${_HIVE_TABLE} add IF NOT EXISTS PARTITION(num='${line}'); \

LOAD DATA LOCAL INPATH '${PATH_GZ}' OVERWRITE INTO TABLE ${_HIVE_TABLE} partition(num=${line});" || exit 1

rm -f ${PATH_FILE}

rm -f ${PATH_GZ}

echo "end success."

搞定，也算比較快的方式吧- -！

3. 總結

我想只有坑踩多了，才會成長吧！你將從本文獲取如下知識點：

使用mongoexport匯出mongo資料。
使用shell指令碼個性化匯出mongo資料。
cvs導mysql，字串中特殊字元的問題。
cvs導hive的指令碼基本知識。
mysql，hive，mongo之間資料匯入匯出方法。

記一次蛋疼的mongo to hive導數過程

1. 起因

2. 解決方案

方案1：`mongoexport`

問題

方案2：`mongo shell`

3. 總結

記一次蛋疼的mongo to hive導數過程

記一次蛋疼的小程式證書bug

記一次蛋疼的面試

記一次安卓Unable to Merge dex的解決方法

一次蛋疼的webservice客戶端編寫

記一次完整的asp.net-mvc頁面優化過程

記一次成功的arp流量轉發以及實驗過程中出現的問題

記一次linux下用git安裝fastadmin的過程

記一次訪問Web服務偶爾不通問題解決過程

記一次Mysql佔用記憶體過高的優化過程

記一次自建CDN非法請求的處理過程。

解Bug之路-記一次中介軟體導致的慢SQL排查過程

解Bug之路-記一次中間件導致的慢SQL排查過程

記一次Oracle資料庫遷移到Mysql資料庫的過程

記一次在虛擬機器上搭建ftp伺服器過程

記一次Oracle分割槽表全域性索引重建的過程

記一次記憶體溢位問題的排查、分析過程及解決思路

記一次CentOS7進單用戶模式修改密碼的失敗經歷（faild to load SELinux policy freezing）

記一次sshd啟動報錯，Failed to start OpenSSH server daemon.

記一次nginx負載均衡轉發錯誤 “no live upstreams while connecting to upstream ”

記一次蛋疼的mongo to hive導數過程

1. 起因

2. 解決方案

方案1：mongoexport

問題

方案2：mongo shell

3. 總結

相關推薦

方案1：`mongoexport`

方案2：`mongo shell`