Hadoop Mapper 階段將資料直接從 HDFS 匯入 Hbase

阿新 • • 發佈：2019-02-08

資料來源格式如下：

20130512    1   -1  -1  13802   1   2013-05-12 07:26:22
20130512    1   -1  -1  13802   1   2013-05-12 11:18:24

我們期待的結果是資料直接從 hdfs 讀取後寫入 hbase，沒有 reduce 階段，

程式碼如下：

package WebsiteAnalysis;
 
import java.io.IOException;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
 
public class Map2Hdfs {
    public static final String NAME = "ImportFromFile";
 
    public enum Counters {
        LINES
    }
 
    static class ImportMapper extends Mapper<LongWritable, Text, ImmutableBytesWritable, Writable> {
        private byte[] family = null;
        private byte[] qualifier = null;
 
        @Override
        protected void setup(Context context) throws IOException, InterruptedException {
            String column = context.getConfiguration().get("conf.column");
            byte[][] colkey = KeyValue.parseColumn(Bytes.toBytes(column));
            family = colkey[0];
            if (colkey.length > 1) {
                qualifier = colkey[1];
            }
        }
 
        @Override
        public void map(LongWritable offset, Text line, Context context) throws IOException {
            try {
                String[] lineArr = line.toString().split("\t");
                Put put = new Put(Bytes.toBytes(offset + ""));
                put.add(family, Bytes.toBytes("time"), Bytes.toBytes(lineArr[lineArr.length - 1]));
                context.write(new ImmutableBytesWritable(Bytes.toBytes(offset + "")), put);
                context.getCounter(Counters.LINES).increment(1);
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
 
    public static void main(String[] args) throws Exception {
        Configuration conf = HBaseConfiguration.create();
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
        conf.set("conf.column", "cf");
        String inputPath = "/dsap/middata/lj/ooxx/pv";
        Job job = new Job(conf, "TestMap2Hdfs");
 
        job.setJarByClass(Map2Hdfs.class);
        job.setMapperClass(ImportMapper.class);
        job.setOutputFormatClass(TableOutputFormat.class);
        job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, "TestMap2Hdfs");
        job.setOutputKeyClass(ImmutableBytesWritable.class);
        job.setOutputValueClass(Writable.class);
        job.setNumReduceTasks(0);
        FileInputFormat.addInputPath(job, new Path(inputPath + "/" + otherArgs[0]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

REF：

hbase-hdfs MapReduce 資料讀寫總結

Hadoop Mapper 階段將資料直接從 HDFS 匯入 Hbase

資料來源格式如下： 20130512 1 -1 -1 13802 1 2013-05-12 07:26:22 20130512 1 -1 -1 13802 1 2013-05-12 11:18:24我們期待的結果是資料直接從 h

JAVA類實現從hdfs匯入資料到hive表中

// 需要引入 hadoop & hive jar import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import ja

sqoop之從oracle匯入hbase的問題與sqoop hbase 需要注意的一個問題

轉載URL： http://blog.csdn.net/liuxingjiaofu/article/details/6953701 sqoop從oracle匯入，需要有ojdbc6.jar,放在$SQOOP_HOME/lib裡，不用新增到classpath裡，因為sq

Hadoop的Mapper是怎麼從HDFS上讀取TextInputFormat資料的

LineRecordReader.next(LongWritable key, Text value) LineReader.readLine(Text str, int maxLineLength, int maxBytesToConsume) DataInputS

kettle 從資料庫表將資料寫入 hadoop hdfs

kettle 作為一個 java 的開源 ETL 工具，支援的接入源與輸出源很豐富，下面測試簡單的資料庫 table -> table -> hdfs 檔案的寫入。簡介：kettle 主目錄分為作業和轉換轉換：用來配置ETL 鏈路資訊，及工作方

使用Sqoop將資料從RDBMS(關係型資料庫) 到hdfs和Hive的匯入匯出

一、RDBMS 到 HDFS/HIVE 1.首先啟動Mysql service mysql start 2.在mysql中新建一張表並插入資料 # mysql -uroot -proot mysql> create table dept(id int pri

使用sqoop將資料從hdfs中匯入mysql時，卡在INFO mapreduce.Job: map 100% reduce 0%的解決辦法

最近在將hdfs中已經處理好的資料匯入到mysql的時候遇到這麼一個現象，當任務執行到 INFO mapreduce.Job: map 100% reduce 0% mapreduce任務卡在map100% ，任何reduce不繼續執行。總結了以下解決辦法：一，如果沒

python通過下載連結可以下載成excel，直接將資料寫入資料庫中

from urllib.request import urlopen import sys import datetime import psycopg2 import os # 用來操作資料庫的類 class GPCommand(object): # 類的初始化 def

Centos6安裝圖形介面(hdp不需要，hdp直接從github上下載資料即可)

CentOS 6.5 安裝圖形介面安裝的時候沒有安裝影象介面。安裝步驟如下： 1.yum -y groupinstall Desktop 2.yum -y groupinstall "X Window System" 3.init 5 由字元介面切換到圖形介面可用兩種簡單方法實現： 1、在字元介面

從鍵盤輸入三個整數a、b、c，要求將輸出的資料按從大到小排序後輸出。

#include<stdio.h> int main() { int a,b,c,t; scanf("%d%d%d",&a,&b,&c); if(a>b) { t=a; a=b; b=t; } if(a>c) { t=a; a=c; c=t

Python elasticsearch 匯入json檔案資料 + 將scrapy爬蟲資料直接存入elasticsearch

1、json檔案資料存入elasticsearch json檔案是從網上爬下來的資料 scrapy 儲存的json格式資料預設Unicode格式編碼，轉utf-8 格式需要在settings裡面加入一條： FEED_EXPORT_ENCODING

C/C++從鍵盤讀入連續輸入的資料（以回車結束），並將資料存入連結串列。

要求新建一個連結串列，連結串列從鍵盤讀取一組連續輸入的資料，每個資料之間以一個空格分隔，當遇到換行符時，停止讀取。下面是自己總結的比較簡單的實現方法。 C: #include <stdio.h> typedef struct ListNode *node; s

Pandas DataFrame將多列資料一次性從object轉換為datetime

從CSV檔案中讀取資料後，很多日期型別資料為object。為了批量將這幾列轉換為datetime。怎麼做呢？一、找出df的列名中有“date”日期的列 datel=[] for x in df.columns.tolist(): if 'date' in x: d

大資料： Hadoop reduce階段

Mapreduce中由於sort的存在，MapTask和ReduceTask直接是工作流的架構。而不是資料流的架構。在MapTask尚未結束，其輸出結果尚未排序及合併前，ReduceTask是又有資料輸入的，因此即使ReduceTask已經建立也只能睡眠等待MapTask完成。從而可以從MapTask節點獲取

利用sqoop指定列指定條件的方式將資料從mysql中增量匯入hive表中

========1、sqoop增量（指定列指定條件的方式增量匯入hive表中）匯入hive指令碼======= #!/bin/bash #Set the RDBMS connection params rdbms_ip=$1 rdbms_connect="jdbc:mysq

Hive從HDFS中載入資料

建表以手機流量資訊為例插入30w行資料 create table flow(id string,phonenum string,mac string,ip string,num1 int,num2 int,up in

基於DataX將資料從Sqlserver同步到Oracle

DataX是阿里雲推出的一款開源的ETL工具，通過配置json檔案實現不同資料庫之間的資料同步。先有需求是從Sqlserver同步資料到Oracle,網上關於DataX的介紹很多。框架設計 DataX本身作為離線資料同步框架，採用Framework + plugin架構構建。將資料來源讀取和寫入抽象

陌陌迴應資料洩露：誰都無法直接從資料庫獲取明文密碼

12月3日訊息。有微博網友曝出陌陌2015年的賬戶密碼資訊在暗網上公開售賣，資料量達到3000萬條，而要價只有區區50美元，摺合人民幣還不到350元。不過賣家表示，這批資料是2015年7月17日寫入的，也就是已經三年多，因此不保證現時有效性，只適合撞庫使用，且一經售出

Hadoop大資料平臺入門——HDFS和MapReduce

隨著硬體水平的不斷提高，需要處理資料的大小也越來越大。大家都知道，現在大資料有多火爆，都認為21世紀是大資料的世紀。當然我也想打上時代的便車。所以今天來學習一下大資料儲存和處理。大資料學習資料分享群119599574 隨著資料的不斷變大，資料的處理就出現了瓶頸：儲存容量，讀

在沒有檢視層的情況下，怎樣將前臺資料直接發給邏輯層

怎樣把邏輯層資料直接發給前臺我就不寫了，有興趣的看看我的-----SSH 不經過Contriller------------（字太多懶得打全）的文章，那是後臺直接發到前臺的程式碼部分我這邊呢因為經理不讓用Controller層所以沒辦法就用的dwr,第一步要配置dw

Hadoop Mapper 階段將資料直接從 HDFS 匯入 Hbase

相關推薦