hive使用技巧：把很多小檔案匯入一張表中、顯示在檔案中位置和行數等。

阿新 • • 發佈：2018-11-19

1.使用MSCK命令匯入輸入到hive表

我們有時候會遇到很多小檔案需要匯入到一張hive表裡面，但是一個個匯入非常麻煩。

假設建立一個外部表，這個表在hdfs的order資料夾裡，但是這個資料夾現在是空的。所以用select * 是沒有資料的。

CREATE EXTERNAL TABLE order(
    order STRING
  , time  STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION '/hive/order';

我們通過hdfs dfs -put 方式把資料匯入到hdfs的order 資料夾下。

然後在hive裡面輸入命令 msck repair table order；

現在再select * 就有資料了。通過這種方式，可以很快匯入資料到表格裡面，而不用一個個alter ...add partition來匯入。

2.使用describe formatted order_creates;可以查看錶具體資訊，包括位置，分隔符等。formatted不寫就看簡單點的。

3.關閉動態分割槽模式

如果insert語句報錯的時候Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict

可以先進行如下設定在操作。set hive.exec.dynamic.partition.mode=nonstrict;

有關動態分割槽表模式


    hive.exec.dynamic.partition=false  #預設不允許動態分割槽表
    hive.exec.dynamic.partition.mode=strict #設定動態分割槽模式
    hive.exec.max.dynamic.partitions.pernode=100  #動態分割槽在每個map、reducer裡面建立數量
    hive.exec.max.dynamic.partitions=1000         #動態分割槽被建立總數
    hive.exec.max.created.files=100000 #所有mapper建立最大HDFS檔案數           
    hive.error.on.empty.partition=false

4.檢視每行在檔案中的位置和行數

select INPUT__FILE__NAME,col1,col2, round(BLOCK__OFFSET__INSIDE__FILE / (length(col1) + length(col2) + 2) + 1) from tablename;

這裡的BLOCK_OFFSET_FILE表示在檔案中的位置，除以兩個列寬度加2（行首和行尾的\t鍵），最後加1表示第0行顯示成1.

5.修改檔案格式

ALTER TABLE order PARTITION (col1='2014-06') SET SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe';
ALTER TABLE order PARTITION (col1='2014-06') SET FILEFORMAT textfile;
ALTER TABLE order PARTITION (clo1='2014-07') SET FILEFORMAT INPUTFORMAT 'parquet.hive.DeprecatedParquetInputFormat' OUTPUTFORMAT 'parquet.hive.DeprecatedParquetOutputFormat';

hive使用技巧：把很多小檔案匯入一張表中、顯示在檔案中位置和行數等。

1.使用MSCK命令匯入輸入到hive表我們有時候會遇到很多小檔案需要匯入到一張hive表裡面，但是一個個匯入非常麻煩。假設建立一個外部表，這個表在hdfs的order資料夾裡，但是這個資料夾現在是空的。所以用select * 是沒有資料的。 CREATE EXTERNAL TABL

mong db 批量匯出和匯入json檔案的實際操作記錄，匯出和匯入一張表

需求是這樣的：需要修改資料庫中某個表的所有資料，所以，要全部匯出，然後修改，修改完之後，再把修改後的資料給再匯入到mongo去。具體如下：備份，匯出一張表為json檔案具體命令： mo

informix單獨匯出和匯入一張表

informix單獨匯出一張表，使用dbaccess進去後，在query language裡面輸入如下語句： unload to d:\fileName.txt select * from tableName informix單獨匯入一張表，使用dbaccess進去後，

plsql匯出匯入一張表的資料

pl/sql匯出一張表的資料：在左邊tables目錄下右鍵點選對應的表->export data: 三種匯出資料方式： 1、匯出dmp格式，此方式可以匯出clob欄位。 1）選擇執行的命令exp.exe所在的目錄（右邊重新整理如果報錯找不著命令，就將dbh

maven：把本地jar包匯入到maven倉庫中

在用maven開發是程式時。大多數不用自己配jar包。但有的時候還是需要自己手動新增自己本地jar包。可以從pom.xml檔案中找出要新增什麼型別的包。如：這個包不能用。例如：我下載的這個 jar 包是放到了 D:\mvn 目錄下(D:\mvn\class12-10.

將oracle的dmp匯入到不同表空間 oracle的dmp檔案匯入到不同表空間 oracle將dmp檔案匯入到不同的表空間方法： 1、exp USER/
在只有MySQL資料庫的情況下，如何把SQL Server 資料指令碼(.sql檔案)匯入Mysql的表中。

圖片被抽了，醉了。。反正大概的解決辦法就是找出二者的不同（可以在MySQL中建立一個同SQL Server 一樣的資料庫，然後匯出，對比指令碼的不同），然後利用Notepad++的【查詢再替換】的功能，把SQL Server指令碼逐步替換成MySQL的指令碼一步步替換就行。先

js小技巧：複製內容時自動加上一段文字

小技巧：複製網頁上面內容時，自動在剪下板內容後面加上網站資訊，這樣也利於SEO優化： <script type="text/javascript">// <![CDATA[ document.body.oncopy = function () {

c++基礎：資料型別轉換及處理(一）string轉wstring及檔案拷貝

使用java太長時間，已經習慣了其資料型別轉換及處理的便捷。但是，現在使用c++，不得不去面對其資料型別轉換，以及相關的處理。瞬間感覺奔潰，一天中，很多時間都交給度娘了... 檔案拷貝本來很方便，提供了CopyFile，但是看到入參，瞬間崩潰，普通字串不行

Bodymovin：Bodymovin和Lottie：把AE動畫轉換成HTML5/Android/iOS原生動畫大殺器Bodymovin和Lottie：把AE動畫轉換成HTML5/Android/iOS原生動畫

轉自：https://www.cnblogs.com/zamhown/p/6688369.html 大殺器Bodymovin和Lottie：把AE動畫轉換成HTML5/Android/iOS原生動畫前段時間聽部門老大說，Airbnb出了個移動端的動畫庫Lottie，可

C#遊戲程式設計：《控制檯小遊戲系列》之《六、貪吃蛇例項》

[csharp] view plaincopyprint? using System; using CEngine; using CGraphics; namespace Snake { /// <summary>

C#遊戲程式設計：《控制檯小遊戲系列》之《二、遊戲框架設計》

遊戲初始化此模組對遊戲資料進行初始化操作，為遊戲分配相應的記憶體空間。遊戲主迴圈此模組開始執行各種操作，直到遊戲結束或者使用者退出遊戲為止。遊戲輸入此模組負責監聽使用者的輸入，根據輸入改變相應的遊戲邏輯。遊戲邏輯此模組是遊戲的主體部分，包括遊戲中的碰撞檢測，人工智慧，物理系統等，其結果

將表匯出資料庫成.txt檔案將.txt檔案匯入資料庫成表

using System.Data.SqlClient; using System.IO; using System.Configuration; namespace 錶轉txt txt轉表 { public partial class Form1 :

把任意檔案隱藏在一張圖片裡、rar偽裝成jpg

偽裝圖片：教你如何把任意檔案隱藏在一張圖片裡？該技巧適合 Windows 2000 / XP / Vista 方法一：最好有基本的命令列知識。不過也沒關係，按照下面的步驟做就行了。準備：1.一張圖片jpg 2.一個做試驗的txt檔案 3.WinRAR 步驟：　　1：準備一張圖片，比如 wi

華為OJ：開發一個簡單錯誤記錄功能小模組，能夠記錄出錯的程式碼所在的檔名稱和行號。

用到了類string的length()， size()，find_first_of()，find_last_of()，substr()，push_back()函式 #include <iostream> #include <algorithm> #

關於文件保存/關閉時報錯：文件正由另一進程使用，因此該進程無法訪問此文件。

讀取顯示對象必須文件 ons 完整 comment static 起因：最近給Unity上的遊戲寫關於存檔的腳本，使用了xml。然後發現每次文件保存時，也就是調用XmlDocument.Save()對象方法的時候就會報錯說該文件路徑分享異常啥的我也不記得了。然後搞了

軟件工程作業個人項目： wc項目，統計文本文件的字符數、單詞數和行數。

platform 行數文本文件 chang cpp word 文件的 string || 1、代碼來源： http://www.cnblogs.com/changjiangcheng/p/5304120.html 2、platform: windows VC++

小程序-判斷一天的不同時間段顯示不同的內容

fff fault 時間 load 程序 cti ron 頂部 parseint 摘要好吧，判斷一天的不同時間段顯示不同的內容又是在我的項目中的一個需求，沒辦法呀，容易忘，還是寫著吧需求：1.把一天分為3個時間段，5：00-11:00 11:00-15:00

Python基礎筆記系列十一：標準輸入輸出、文件讀寫和指針等操作

mode strong sublime pre 字符串類型類型 print語句 open 同時　　本系列教程供個人學習筆記使用，如果您要瀏覽可能需要其它編程語言基礎（如C語言），why?因為我寫得爛啊，只有我自己看得懂！！標準輸入輸出一、輸入　　在sublime中這

shell指令碼限制日誌檔案大小和行數

背景: 專案server在後端持續執行，日誌檔案不斷變大，需及時進行清空。解決方案：編輯sh指令碼，指定時間間隔輪詢；將超出限制的日誌檔案，先備份，再清空原日誌檔案內容。清空日誌檔案內容的方法有： 1

hive使用技巧：把很多小檔案匯入一張表中、顯示在檔案中位置和行數等。

相關推薦