Hbase叢集間資料遷移方法總結

阿新 • • 發佈：2019-02-08

呵呵，今天花了一天的時間查資料做測試，略微的總結了一下hbase資料遷移的方法。

一、需要在hbase叢集停掉的情況下遷移

  步驟：(1)執行hadoop distcp -f filelist "hdfs://new cluster ip:9000/hbasetest" 
       (2)在new cluster執行./hbase org.jruby.Main add_table.rb /hbase/table20111222，將拷貝來的表加入到.MEAT.中（會出現region的數目不一致的問題，這個需要重啟hase才能解決）
  說明：(1)filelist為hdfs上的列表檔案，內容如下：
              /hbase/table20111222
            /hbase/table20120131
       (2)如果兩個叢集的hadoop版本不一致，需要在new cluster上執行hadoop distcp，否則會出現讀寫異常；

二、在叢集執行的時候進行資料遷移
1、Replication：這個是動態的備份（可以理解為實時備份）

     步驟：(1)在old cluster將需要遷移的表屬性進行修改：
               disable 'your_table'
              alter 'your_table', {NAME => 'family_name', REPLICATION_SCOPE => '1'}
              enable 'your_table'
         (2)開啟new cluster叢集的replication，修改hbase-site.xml
            <property>
              <name>hbase.replication</name>
              <value>true</value>
            </property>
         (3)新增peer，在new cluster的hbase shell中執行：add_peer '1','old cluster ip:2181:/hbase'，啟動replication，執行start_replication
     說明：需要兩個叢集的hadoop版本一致，否則出現讀寫錯誤

2、CopyTable：可以在本叢集中拷貝一張表，也可以將表拷貝到其他的叢集中。

    命令：./hbase org.apache.hadoop.hbase.mapreduce.CopyTable --peer.adr=new cluster ip:2181:/hbase zy_test
    說明：(1)拷貝完成，不需要重啟機器，在new cluster中就可以看到該表;
         (2)穩定性還需要考慮，測試過程中遇到一個問題，拷貝過程中始終都停留在這裡Lookedup root region location, 檢視日誌沒有什麼錯誤和相關的資訊。

3、Export and Import

    步驟：(1)在old cluster上執行：./hbase org.apache.hadoop.hbase.mapreduce.Export test hdfs://new cluster ip:9000/zhuangyang/test
         (2)在new cluster上執行：./hbase org.apache.hadoop.hbase.mapreduce.Import test hdfs://new cluster ip:9000/zhuangyang/test
    說明：(1)一定要寫全路徑，不能寫相對路勁;
         (2)在import前，需要將表事先在new cluster中建立好.

以上都是在old cluster和new cluster網路相通的情況下實現資料遷移的辦法。
如果兩個叢集網路不通，只能先將old cluster中的資料都下載到本地或者其他的地方，然後在人工的轉移到new cluster上了，可以參看這篇文章http://blog.csdn.net/hua840812/article/details/6866175。

Hbase叢集間資料遷移方法總結

呵呵，今天花了一天的時間查資料做測試，略微的總結了一下hbase資料遷移的方法。一、需要在hbase叢集停掉的情況下遷移步驟：(1)執行hadoop distcp -f filelist "hdfs://new cluster ip:9000/hbasetest"

hadoop叢集間資料遷移工具

背景當前比較流行的hdfs間資料遷移工具有hadoop預設提供的distcp，阿里開源的DataX，這些工具能夠滿足常規的大部分需求，但是當時碰到hadoop版本不一致、keberos授權等場景時就行不通了。針對這些特殊的應用場景和實際需求我就構思並實現了Hd

叢集間資料遷移報錯

[[email protected] ~]$ hadoop distcp -update /user/hive/warehouse/cslc.db/ hdfs://172.26.xx.xx:8020/user/hive/warehouse/cslc.db/18/12/24 10:27:06 ERRO

hadoop叢集間資料遷移

1、兩個叢集版本不同的 hadoop distcp hftp://192.168.X.X:50070/tmp/test.txt /tmp 2、兩個叢集版本相同的 hadoop distcp hdfs://192.168.X.X:8020/tmp/test.txt /tm

HBase跨版本資料遷移總結

某客戶大資料測試場景為：Solr類似畫像的資料查出使用者標籤——通過這些標籤在HBase查詢詳細資訊。以上測試功能以及效能。其中HBase的資料量為500G，Solr約5T。資料均需要從對方的叢集人工遷移到我們自己搭建的叢集。由於Solr沒有在我們叢集中整合，優先

Hbase 手動資料遷移方法

1.從源hbase叢集中複製出hbase資料庫表到本地目錄 hdfs dfs -get /hbase/data/default/ (hbase中的每個表在hdfs上都會對應一個檔案在上述目錄下) 2 目標Hbase匯入 hdfs dfs -put .......(

hive表叢集間的遷移

記錄下工作中由於需要複製生產環境到測試環境以供測試使用做的一次資料庫的遷移，方法比較繁瑣，有待改進；基本思路：將生產環境的表匯出到hdfs，將hdfs的資料get到本地，scp到測試環境的本地，put到測試環境的hdfs，再進行匯入； hive表到處到hdfs： export tab

資料處理方法總結

#讀取資料 data=pd.read_csv("") print(data.head(10)) #處理資料 #1.縮小資料,查詢資料篩選，query相當於sql語句，進行條件查詢 data=data.query

js檢測資料型別方法總結

1.常用方法typeof var str=‘abc’; console.log(typeof str)//string 2.判斷已知物件型別的方法： instanceof var str='abc'; console.log(str instanceof String);//true

叢集間資料拷貝和Hadoop存檔對於小檔案處理

scp實現兩個遠端主機之間的檔案複製 scp -r hello.txt [email protected]:/user/atguigu/hello.txt // 推 push scp -r [email protected]:/user/atguigu

data augmentation 資料增強方法總結

1、問題描述收集資料準備微調深度學習模型時，經常會遇到某些分類資料嚴重不足的情況，另外資料集過小容易造成模型的過擬合。本文參考一些網友對於資料增強方法的一些tips，後續會附上自己實現的C++程式碼； 2、data augmentation常用方法

Django資料查詢方法總結

__exact 精確等於 like ‘aaa’__iexact 精確等於忽略大小寫 ilike ‘aaa’__contains 包含 like ‘%aaa%’__icontains 包含忽略大小寫 ilike ‘%aaa%’，但是對於sqlite來說，contains的作用效果等同於icontains。_

ef資料遷移命令總結之Add-Migration

ef資料遷移命令總結之Add-Migration 首先我們可以在vs的程式包管理控制檯輸入 get-help Add-Migration -detailed以檢視詳細資訊。個人感覺有一篇好的文章，http://www.mortenanderson.net/code-firs

EF資料遷移命令總結

EF資料遷移命令總結 //段落 > >> >>> ,markdown用法 Get-Help add-migration/EntityFramework。微軟官網關於ef的介紹 https://docs.microsoft.

海量資料處理：十道面試題與十個海量資料處理方法總結（大資料演算法面試題）

第一部分、十道海量資料處理面試題 1、海量日誌資料，提取出某日訪問百度次數最多的那個IP。首先是這一天，並且是訪問百度的日誌中的IP取出來，逐個寫入到一個大檔案中。注意到IP是32位的，最多有個2^32個IP。同樣可以採用對映的方法

TensorFlow 資料讀取方法總結

作者：黑暗星球原文地址：https://blog.csdn.net/u014061630/article/details/80712635 ====================下一篇：tf.data 官方教程==================== ==============

mysql資料遷移方法一

先找到遷移伺服器上的Data檔案，我安裝的是mysql5.7，預設安裝的路徑。那麼就是在C:\ProgramData\MySQL檔案裡面，先把隱藏檔案開啟。這個Data檔案就是你的資料檔案；將你要遷移的資料庫檔案放到這裡如下：然後開啟my.ini：找到datadir,然

海量資料處理：十道面試題與十個海量資料處理方法總結

第一部分、十道海量資料處理面試題 1、海量日誌資料，提取出某日訪問百度次數最多的那個IP。首先是這一天，並且是訪問百度的日誌中的IP取出來，逐個寫入到一個大檔案中。注意到IP是32位的，最多有個2^32個IP。同樣可以採用對映的方法，比如模1000，把整個大檔

【轉】data augmentation 資料增強方法總結

1、問題描述收集資料準備微調深度學習模型時，經常會遇到某些分類資料嚴重不足的情況，另外資料集過小容易造成模型的過擬合。本文參考一些網友對於資料增強方法的一些tips，後續會附上自己實現的C++程式碼； 2、data augmentation常用方法 Color Jittering：對顏色的資料增強：影

大資料量，海量資料處理方法總結

大資料量的問題是很多面試筆試中經常出現的問題，比如baidu google 騰訊這樣的一些涉及到海量資料的公司經常會問到。下面的方法是我對海量資料的處理方法進行了一個一般性的總結，當然這些方法可能並不能完全覆蓋所有的問題，但是這樣的一些方法也基本

Hbase叢集間資料遷移方法總結

相關推薦