1. 程式人生 > >sqoop的數據抽取過程記錄

sqoop的數據抽取過程記錄

over 每次 spi sqoop load 避免 wirte 效應 hive

今天公司抽取了4千萬的表大概十幾G 用sqoop抽取是30--40分鐘 開了兩個map。模型是oracle----hdfs(hive)。以前只抽過幾十萬級別,所以千萬級別感覺還是spilt做好切分和定好切分字段。盡量避免木桶效應。才能把sqoop時間縮到最短。另外。hdfs load到hive 加了overwirte就是覆蓋,沒加這個關鍵字默認是追加。每次追加hdfs的文件會被轉移到hive的 hdfs目錄下。

sqoop的數據抽取過程記錄