1. 程式人生 > >hive 與 hdfs 檔案的關係

hive 與 hdfs 檔案的關係

  • Hive 是一個建立在hadoop檔案系統上的資料倉庫架構,可以用其對hdfs上資料進行分析與管理。
  • 實際上是將hdfs上的檔案對映成table(按檔案格式建立table,然後hive的資料倉庫會生成對應的目錄,預設的倉庫路徑:user/hive/warehouse/tablename,目錄名與這個表名相同,這時只要將符合table定義的檔案載入到該目錄便可通過Hql對整個目錄的檔案進行查詢了。
  • 將資料載入到該目錄可以用hdfs dfs -put 命令直接新增到該目錄;
  • 也可以通過load data local inpath ‘user/test.txt’ into table
    tableName,通過load命令載入資料與通過put命令載入檔案的結果是一樣的,即在user/hive/warehouse/tablename
    目錄下都會有載入進來的檔案,如果用load命令載入的是hdfs上的檔案則會將原hdfs目錄下對應的檔案移動至hive的倉庫目錄下),並將這些元資料儲存到關係型資料庫中,元資料儲存著表所對應的檔案路徑,表的列與分割槽,表建立時間,檔案大小等屬性;
  • 同時支援使用者運用類sql對檔案進行操作,這個操作主要是查詢。