hdfs資料遷移至hbase(python2.7版本)

阿新 • • 發佈：2019-02-15

慣例直接上詳細註釋的程式碼。
任務是將HDFS上多個需要重新編碼的檔案合併後寫入HBASE。
python2.7完成，用3的話可能需要改hbase.py的一些原始碼。

# -*- coding: utf-8 -*-
"""
Created on Thu Aug  9 09:09:56 2018

@author: admin
"""
from hdfs import Client
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
from 
 hbase import Hbase
from hbase.ttypes import Mutation,BatchMutation
import re
import datetime,time

#client配置（HDFS）
client = Client("http://localhost:50070",root="/",timeout=100,session=False)

#client配置（HBASE）
transport = TSocket.TSocket('localhost', 9090)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)
client0 = Hbase.Client(protocol)
#已經建立的表名 

tableName = 'new_table'
#開始計時
start = time.clock()
#開啟HBASE
transport.open()
#全域性匹配所需字串
pattern = re.compile(r'{.*?}')
#遍歷HDFS目錄下檔案
for item in client.list("/JJW/flume/events/18-08-15/",status=False):
    #讀檔案內容
    with client.read("/JJW/flume/events/18-08-15/{}".format(item)) as reader:
#       解碼（源資料為`b''`樣式） 

        out=reader.read().decode("unicode_escape")
#       所有匹配到的字串存進陣列
        patternContent=[m.group() for m in re.finditer(pattern,out)]
#       測試輸出
#       print(count,len(patternContent),patternContent[0],patternContent[len(patternContent)-1])
        for item in patternContent:
#           將每一個字典樣式字串陣列，即`str(dic)`轉換為字典
            dic=eval(item)
#            print(dic)
#           設定HBASE行鍵
            rowkey='{}'.format(dic['id'])
#           設定HBASE列值（表設計為以id為行，一個meta-data列族，插入兩個列值）
            createtime=Mutation(column="meta-data:createtime", value='{}'.format(dic['createtime']))
            updatetime=Mutation(column="meta-data:updatetime", value='{}'.format(dic['updatetime']))

            mutations=[createtime,updatetime]
#            print(mutations)
#           HBASE多值批插入
            batchMutation = BatchMutation(rowkey,mutations)
            client0.mutateRows(tableName,[batchMutation])
#            print(rowkey)
#關閉HBASE
transport.close()
#計時結束
elapsed = (time.clock() - start)
#輸出計時
#print("Time used:",elapsed)

附帶下建表程式碼和結果圖片好了：

table = ColumnDescriptor(name='meta-data:', maxVersions=1)
client.createTable('new_table', [table])

這裡寫圖片描述

hdfs資料遷移至hbase(python2.7版本)

慣例直接上詳細註釋的程式碼。任務是將HDFS上多個需要重新編碼的檔案合併後寫入HBASE。 python2.7完成，用3的話可能需要改hbase.py的一些原始碼。 # -*- coding: utf-8 -*- """ Created on Thu

MySQL 5.6升級至MySQL 5.7--------版本升級最佳實戰

mysql dba1. 背景 MySQL 5.7是當前MySQL最新版本，與MySQL 5.6版本相比，有如下特征　 * 性能和可擴展性：改進 InnoDB 的可擴展性和臨時表的性能，從而實現更快的網絡和大數據加載等操作。 * JSON支持：使用 MySQL 的 JSON 功能，你可以結合 NoSQL

ubuntu16.04安裝Anaconda3後切換使用原始python2.7版本

安裝Anaconda3後，如果使用了其自動改變環境變數，那麼預設的python ,pip都將變為Anaconda下的這時如果想切換預設python為原始獨立python, 1. sudo gedit ~/.bashrc 2. 新增 alias python=/usr/bin/python2.7

【oracle】oracle使用utl_file和sqlloard實現A表資料遷移至B表資料(欄位數和順序不一樣)

oracle使用utl_file和sqlloard實現A表資料遷移至B表資料(欄位數和順序不一樣) 資料庫版本：11.2.0.4；系統版本：CentOS Linux 6.8 使用utl_file方式從A表匯出部分欄位至文字，再使用sqlload方式載入進B表；表test欄位：

簡單的基於Python2.7版本的多程序下開發多執行緒的示例

簡單的基於Python2.7版本的多程序下開發多執行緒的示例可以使得程式執行效率至少提升10倍 #!/usr/bin/env python # -*- coding: utf-8 -*- """ @Time : 2018/10/24 @Author : Li

輕鬆上雲系列之二：其他雲資料遷移至阿里雲

本文件圍繞如何將您其他雲廠商上的資料遷移到阿里雲，提供了多個場景的實踐方案。文件合集 AWS 資料遷移至阿里雲 Amazon S3資料遷移到OSS 從AWS RDS遷移MySQL到阿里雲RDS AWS S3遷移到OSS（線上遷移服務） Azure資料遷移至阿里

Hbase之--------將Hdfs資料載入到Hbase資料庫中

資料： zhangfenglun,M,20,13522334455,[email protected],23521472 chenfei,M,20,13684634455,[email protected],84545472 liyuchen,M,20,135223342

HDFS資料匯入到Hbase表

package com.lhjava.hbase; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.c

SQL Server GUID 資料遷移至MongoDB後怎樣檢視？

關鍵字：SQL Server NEWID（）；BSON；MongoDB UUID 1.遇到的問題和困惑 SQL Server中的NEWID資料儲存到MongoDB中會是什麼樣子呢？發現不能簡單的通過此資料查詢了。例如我們將SQL Server 資料庫中的QQStatements2019表遷

建立python2.7版本虛擬環境，並安裝tensorflow1.8.0版本

1.建立虛擬環境(env_name是命名的虛擬環境名字) conda create -n env_name python=2.7 2.啟用虛擬環境 source activate env_name 3.在虛擬環

HDFS資料遷移解決方案之DistCp工具的巧妙使用分析

前言在當今每日資訊量巨大的社會中,源源不斷的資料需要被安全的儲存.等到資料的規模越來越大的時候,也許瓶頸就來了,沒有儲存空間了.這時候怎麼辦,你也許會說,加機器解決,顯然這是一個很簡單直接但是又顯得有些欠缺思考的辦法.無謂的加機器只會帶來無限上升的成本消耗,更好的辦法應該是做到更加精細化的資料

anaconda已安裝python2.7版本直接命令列操作安裝3.6或任何版本的方法

如果您已經安裝了anaconda python 2.7，就可以直接開啟命令列安裝其他版本而不用去官網再下載很大的安裝包啦~ 具體操作如下： 1.windows搜尋欄輸入anaconda，出現 2.開啟命令列後，命令列執行：（使用清華映象，否則會報錯h

Python2.7版本和3.6版本相容問題

環境：Window7 方法：將2.7安裝到C:\Python27下，將3.6安裝到C:\Python36下，在需要使用pthon3 run的.py檔案中，新增shebang line來實現。 shebang line >>>> #!/usr/

Python中關於URL的處理（基於Python2.7版本）

參考官方文件：https://docs.python.org/3/library/urllib.html點選開啟連結1、完整的url語法格式：協議://使用者名稱@密碼:子域名.域名.頂級域名:埠

虛擬環境指定python2.7版本報錯解決

虛擬環境指定python版本報錯： Exception: Traceback (most recent call last): File "d:\python\python36_64\lib\site-packages\virtualenv_support\pip-9.

python2.7版本在win7、64位系統安裝遇到的問題

1、第一次安裝時出現錯誤如下“An error occurred during the installation of assembly 'Microsoft.VC90.CRT,version="9.0.30729.1",publicKeyToken=........"解決方法：1. 先解除安裝舊版pytho

yum回滾至Kubernetes1.15.7版本

背景：升級Kubernetes版本從1.14.1-->1.17.0,官方說明不能跨版本升級，所以只好一個版本一個版本升級。最終升到1.17.0後發現API的格式有改動，之前的中介軟體版本很多不支援。所以回滾到1.15.7。官方升級說明：https://kubernetes.io/docs/tasks/

由資料遷移至MongoDB導致的資料不一致問題及解決方案

故事背景企業現狀 2019年年初，我接到了一個神祕電話，電話那頭竟然準確的說出了我的暱稱：上海小胖。我想這事情不簡單，就回了句：您好，我是小胖，請問您是？ “我就是剛剛加了你微信的 xxx 啊” 哦……他只是把我的微信暱稱報出來了…… 隨著深入溝通，瞭解到對方是某央企保密單位的大資料部門技術負責人

HBase跨版本資料遷移總結

某客戶大資料測試場景為：Solr類似畫像的資料查出使用者標籤——通過這些標籤在HBase查詢詳細資訊。以上測試功能以及效能。其中HBase的資料量為500G，Solr約5T。資料均需要從對方的叢集人工遷移到我們自己搭建的叢集。由於Solr沒有在我們叢集中整合，優先

技術實操丨HBase 2.X版本的元資料修復及一種資料遷移方式

摘要：分享一個HBase叢集恢復的方法。背景在HBase 1.x中，經常會遇到元資料不一致的情況，這個時候使用HBCK的命令，可以快速修復元資料，讓叢集恢復正常。另外HBase資料遷移時，大家經常使用到一種遷移方式是：拷貝HBase的資料目錄/hbase/data/default到新的叢集，然後在新叢集

hdfs資料遷移至hbase(python2.7版本)

相關推薦