blukload方式將資料寫入HBase

阿新 • • 發佈：2018-12-24

package wondersgroup_0628.com

import java.util.{Base64, Date}

import com.wonders.TXmltmp
import org.apache.hadoop.fs.Path
import org.apache.hadoop.hbase.{HBaseConfiguration, KeyValue, TableName}
import org.apache.hadoop.hbase.client.{ConnectionFactory, HTable, Put}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapred.{TableInputFormat, TableOutputFormat}
import org.apache.hadoop.hbase.mapreduce.{HFileOutputFormat, LoadIncrementalHFiles}
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.mapreduce.Job
import org.apache.spark.{SparkConf, SparkContext}

object TestTest_4 {
  def main(args: Array[String]): Unit = {
    val saprkConf = new SparkConf().setAppName("TextTeset_3")
    val sc = new SparkContext(saprkConf)
    val text = args(0)
    val rdd = sc.textFile(text)
    val data = rdd.map(_.split("\\|\\|")).map{x=>(x(0),x(1),x(2))}.sortBy(z => z._3)
    val conf= HBaseConfiguration.create()
    val table = new HTable(conf, "hbaseTest")
    conf.set(TableOutputFormat.OUTPUT_TABLE, "hbaseTest")
      conf.setInt(LoadIncrementalHFiles.MAX_FILES_PER_REGION_PER_FAMILY,416)
    val job = Job.getInstance(conf)
    job.setMapOutputKeyClass (classOf[ImmutableBytesWritable])
    job.setMapOutputValueClass (classOf[KeyValue])
    HFileOutputFormat.configureIncrementalLoad (job, table)

    val result = data.map{x => {
        val tmp = new TXmltmp
        val j1 = new String( Base64.getDecoder.decode(x._1) )
        val j2 = new String( Base64.getDecoder.decode(x._2))
        val xml = tmp.load(j1, j2)
        val kv:KeyValue = new KeyValue(Bytes.toBytes(x._3),"cf2".getBytes(),"age".getBytes(),Bytes.toBytes(xml))
        (new ImmutableBytesWritable(Bytes.toBytes(x._3)),kv)
    }
    }
    result.saveAsNewAPIHadoopFile("/tmp/hbaeTest", classOf[ImmutableBytesWritable], classOf[KeyValue],
      classOf[HFileOutputFormat], conf)

    val bulkLoader = new LoadIncrementalHFiles(conf)
    bulkLoader.doBulkLoad(new Path("/tmp/hbaeTest"), table)
//      result.saveAsNewAPIHadoopFile("/tmp/iteblog", classOf[ImmutableBytesWritable], classOf[KeyValue],
//          classOf[HFileOutputFormat], job.getConfiguration())
    sc.stop()
  }

}

blukload方式將資料寫入HBase

package wondersgroup_0628.com import java.util.{Base64, Date} import com.wonders.TXmltmp import org.apache.hadoop.fs.Path import org.apache.hadoop

使用spark將資料寫入Hbase

--------------組裝xml並捕獲異常------------------- package wondersgroup_0628.com import java.io.{IOException, PrintWriter, StringReader, StringWriter} imp

Spark將資料寫入Hbase以及從Hbase讀取資料

本文將介紹 1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset將RDD寫入hbase 2、spark從hbase中讀取資料並轉化為RDD 操作方式為在eclipse本地執行spark連線到遠端的hbase。 ja

flume將多列資料寫入HBase的配置

只列出sink部分的配置如下： a1.sinks.k1.type = hbase #名稱空間和表名a1.sinks.k1.table = ns1:t10 #列族a1.sinks.k1.columnFamily = f1a1.sinks.k1.serializer = o

python 將資料寫入excel

參考部落格： https://www.cnblogs.com/liuyang92/p/7492336.html https://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html https://www.cnblogs.com/

IO流讀取資料檔案，將資料寫入資料庫，並記錄資料匯入日誌

流程分析：資料型別： ROUTE_ID,LXBM,ROAD_NAME,SRC_LON,SRC_LAT,DEST_LON,DEST_LAT 10000,G50,滬渝高速,115.8605349,30.08934467,115.5437817,30.08898601 10001,G

python通過下載連結可以下載成excel，直接將資料寫入資料庫中

from urllib.request import urlopen import sys import datetime import psycopg2 import os # 用來操作資料庫的類 class GPCommand(object): # 類的初始化 def

Java 將資料寫入磁碟並讀取磁碟上的檔案

package test; import java.io.BufferedReader;import java.io.FileReader;import java.io.FileWriter;import java.util.ArrayList;import java.util.List; public

app應用啟動測試，並將資料寫入csv檔案

import os import subprocess import codecs import time import re from decimal import * import csv class Start_APP(object): all_info=[] def get

將資料寫入csv檔案

import csv import os def writercsv(): stu1=['1','2','3'] stu2=['4','5','6'] if os.path.isfile('test_launch.csv'): with open('test

用python在後端將資料寫入到資料庫並讀取

用python在後端將資料寫入到資料庫： # coding:utf-8 import pandas as pd from sqlalchemy import create_engine # 初始化資料庫連線，使用pymysql模組 # MySQL的使用者：root, 密碼:147369, 埠：

java中用jdom建立xml文件/將資料寫入XML中

1 import java.io.FileNotFoundException; 2 3 import java.io.FileOutputStream; 4 import java.io.IOException; 5 6 import org.jdom.Attribute; 7 imp

oracle pl/sql 將資料寫入Csv檔案且以附件的形式傳送郵件

內容介紹這篇文章將介紹，oracle 中如何將資料庫中查找出來的資料寫入csv 檔案，且將這個csv 檔案，用郵件以附件的形式傳送出去。如果你也想實現這個功能，請參考以下程式碼。如果想用sqlplus 方式實現，請參考我的另外一篇文章：sqlplus spool 生成csv檔案，且用

利用sqoop指定列指定條件的方式將資料從mysql中增量匯入hive表中

========1、sqoop增量（指定列指定條件的方式增量匯入hive表中）匯入hive指令碼======= #!/bin/bash #Set the RDBMS connection params rdbms_ip=$1 rdbms_connect="jdbc:mysq

pandas 將資料寫入excel 併發形式

程式碼 def get_data(self, q): create_time = q.created_at beijing = MYDatetime.utc

R語言實戰--隨機產生服從不同分佈函式的資料（正態分佈，泊松分佈等），並將資料寫入資料框儲存到硬碟

隨機產生服從不同分佈的資料均勻分佈——runif（） > x1=round(runif(100,min=80,max=100)) > x1 [1] 93 100 98 98 92 98 98 89 90 98 100 89

Spark SQL將資料寫入Mysql表的一些坑

轉自:https://blog.csdn.net/dai451954706/article/details/52840011/ 最近，在使用Spark SQL分析一些資料，要求將分析之後的結果資料存入到相應的MySQL表中。但是將資料處理完了之後，存

如何使用Spark快速將資料寫入Elasticsearch

如何使用Spark快速將資料寫入Elasticsearch 說到資料寫入Elasticsearch，最先想到的肯定是Logstash。Logstash因為其簡單上手、可擴充套件、可伸縮等優點被廣大使用者接受。但是尺有所短，寸有所長，Logstash肯定也有它無法適用的應用場景，比如：

簡單實現kafka資料寫入hbase

測試資料格式 19392963501,17816115082,2018-09-18 16:19:44,1431 19392963501,17816115082,2018-09-18 16:19:44,1431 14081946321,13094566759,2018-05-23

使用bat將資料寫入檔案

一個簡單的類子 beginAA.bat call aa.bat hostDir user Password aa.bat @echo off set ftpIP=%1 set ftpUser=%2 set ftpPass=%3 set ftpFolder=/home/

blukload方式將資料寫入HBase

相關推薦