1. 程式人生 > >Hadoop 面試題 之Hive(4)

Hadoop 面試題 之Hive(4)

1.Hive 有哪些方式儲存元資料,各有哪些特點。

   mysql ,自身帶的一個數據庫

15. Hive內部表和外部表的區別

         最後歸納一下Hive中表與外部表的區別:
         1、在匯入資料到外部表,資料並沒有移動到自己的資料倉庫目錄下,也就是說外部表中的資料並不是由它自己來管理的!而表則不一樣;
         2、在刪除表的時候,Hive將會把屬於表的元資料和資料全部刪掉;而刪除外部表的時候,Hive僅僅刪除外部表的元資料,資料是不會刪除的!

23.hive底層與資料庫互動原理
Hive的Hql語句掌握情況?

36.使用Hive或自定義mr實現如下邏輯:

product_no lac_id moment start_time user_id county_id staytime city_id 13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571 282 571 13429100082 22540 8 2013-03-11 08:58:20.152622488 571 571 270 571 13429100082 22691 8 2013-03-11 08:56:37.149593624 571 571 103 571 13429100087 22705 8 2013-03-11 08:56:51.139539816 571 571 220 571 13429100087 22540 8 2013-03-11 08:55:45.150276800 571 571 66 571 13429100082 22540 8 2013-03-11 08:55:38.140225200 571 571 133 571 13429100140 26642 9 2013-03-11 09:02:19.151754088 571 571 18 571 13429100082 22691 8 2013-03-11 08:57:32.151754088 571 571 287 571 13429100189 22558 8 2013-03-11 08:56:24.139539816 571 571 48 571 13429100349 22503 8 2013-03-11 08:54:30.152622440 571 571 211 571 欄位解釋: product_no:使用者手機號; lac_id:使用者所在基站; start_time:使用者在此基站的開始時間; staytime:使用者在此基站的逗留時間。 需求描述: 根據 lac_id 和 start_time 知道使用者當時的位置,根據 staytime 知道使用者各個基站的逗留時 長。根據軌跡合併連續基站的 staytime。 最終得到每一個使用者按時間排序在每一個基站駐留時長 期望輸出舉例: 13429100082 22540 8 2013-03-11 08:58:20.152622488 571 571 270 571 13429100082 22691 8 2013-03-11 08:56:37.149593624 571 571 390 571 13429100082 22540 8 2013-03-11 08:55:38.140225200 571 571 133 571 13429100087 22705 8 2013-03-11 08:56:51.139539816 571 571 220 571 13429100087 22540 8 2013-03-11 08:55:45.150276800 571 571 66 571 Linux 指令碼能力考察:
59.pig latin,hive 語法有什麼不同
71.hive如何調優

72.hive 如何許可權控制?

74.hive能像關係資料庫那樣,建多個庫嗎?  

110. hive 實現統計的查詢語句是什麼?

115.對比hive與mapreduce統計手機流量的區別?

HIve也問了一些,外部表,還有就是hive的物理模型跟傳統資料庫的不同

134.Hive元資料儲存的方法有哪些,各有什麼特點?

145.對於hive,你寫過哪些udf函式,作用是什麼?

148.hive 底層與資料庫互動原理。

362.你們寫hive的hql語句,大概有多少條?
364.hive 跟hbase的區別是?
379.hive 中的壓縮格式RCfile .TextFile SequenceFile 各有什麼區別?

以上3種格式一樣大的檔案哪個佔用空間大小,還有hadoop中的一個HA壓縮。
395.你們hive處理資料能到到的指標是多少?

408.Hive 的工作原理、兩種元資料存放方式、幾種表之間的區別、資料匯入的幾種方式、幾種檔案格式、UDF函式、效能調優(重點是join 的時候如何放置大小表)?

412.hive的兩張表關聯,使用mapreduce 是怎麼寫的?

提示:打標記笛卡爾乘積

413.hive 相對於oracle來說有哪些優點?

提示:hive 是資料倉庫,oracle是資料庫,hive 能夠儲存海量資料,hive還有更重要的作用就是資料分析,最主要的是免費。


472.hive優化

475.hive的sort by 和 order by 的區別

476.Hive裡面用什麼代替in 查詢

提示:Hive中的left semi join 替換sql 中的in 操作

488.hive如何優化
549.你們用hive-15啊