Spark運算元[20]：saveAsHadoopDataset、saveAsNewAPIHadoopDataset 例項詳解

阿新 • • 發佈：2019-01-30

概要

saveAsHadoopDataset：
使用舊的Hadoop API將RDD輸出到任何Hadoop支援的儲存系統，為該儲存系統使用Hadoop JobConf 物件。
JobConf設定一個OutputFormat和任何需要的輸出路徑(如要寫入的表名)，就像為Hadoop MapReduce作業配置的那樣。

saveAsNewAPIHadoopDataset：
使用新的Hadoop API將RDD輸出到任何Hadoop支援的儲存系統，為該儲存系統使用Hadoop Configuration物件。
Conf設定一個OutputFormat和任何需要的輸出路徑(如要寫入的表名)，就像為Hadoop MapReduce作業配置的那樣。

saveAsHadoopDataset

saveAsHadoopDataset(conf: JobConf): Unit

案例：將RDD寫入hbase

import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapred.TableOutputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.mapred.JobConf
import org.apache.spark.{SparkContext, SparkConf}

/**
 * User:leen
 * Date:2017/12/20 0020
 * Time:16:51
 */
object HbaseTest1 {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("HBaseTest1").setMaster("local")
    val sc = new SparkContext(sparkConf)

    val conf = HBaseConfiguration.create()
    //設定zooKeeper叢集地址，也可以通過將hbase-site.xml匯入classpath，但是建議在程式裡這樣設定
    conf.set("hbase.zookeeper.quorum","slave1,slave2,slave3")
    //設定zookeeper連線埠，預設2181
    conf.set("hbase.zookeeper.property.clientPort", "2181")

    val tablename = "account"

    //初始化jobconf，TableOutputFormat必須是org.apache.hadoop.hbase.mapred包下的
    val jobConf = new JobConf(conf)
    jobConf.setOutputFormat(classOf[TableOutputFormat])
    jobConf.set(TableOutputFormat.OUTPUT_TABLE, tablename)

    val indataRDD = sc.makeRDD(Array("1,jack,15","2,Lily,16","3,mike,16"))

    val rdd = indataRDD.map(_.split(',')).map{arr=>{
    
      // 一個Put物件就是一行記錄，在構造方法中指定主鍵
      // 所有插入的資料必須用org.apache.hadoop.hbase.util.Bytes.toBytes方法轉換
      // Put.add方法接收三個引數：列族，列名，資料
      val put = new Put(Bytes.toBytes(arr(0).toInt))
      put.addColumn(Bytes.toBytes("cf"),Bytes.toBytes("name"),Bytes.toBytes(arr(1)))
      put.addColumn(Bytes.toBytes("cf"),Bytes.toBytes("age"),Bytes.toBytes(arr(2).toInt))
      //轉化成RDD[(ImmutableBytesWritable,Put)]型別才能呼叫saveAsHadoopDataset
      (new ImmutableBytesWritable, put)
    }}

    rdd.saveAsHadoopDataset(jobConf)

    sc.stop()
  }
}

saveAsNewAPIHadoopDataset

 saveAsNewAPIHadoopDataset(conf: Configuration): Unit

案例：將RDD寫入HBASE

import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.mapreduce.Job
import org.apache.spark.{SparkContext, SparkConf}

/**
 * User:leen
 * Date:2017/12/20 0020
 * Time:17:34
 */
object HbaseTest2 {

  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("HBaseTest").setMaster("local")
    val sc = new SparkContext(sparkConf)

    val tablename = "account"

    sc.hadoopConfiguration.set("hbase.zookeeper.quorum","slave1,slave2,slave3")
    sc.hadoopConfiguration.set("hbase.zookeeper.property.clientPort", "2181")
    sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE, tablename)

    val job = Job.getInstance(sc.hadoopConfiguration)
    job.setOutputKeyClass(classOf[ImmutableBytesWritable])
    job.setOutputValueClass(classOf[Result])
    job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])

    val indataRDD = sc.makeRDD(Array("1,jack,15","2,Lily,16","3,mike,16"))
    
    val rdd = indataRDD.map(_.split(',')).map{arr=>{
      val put = new Put(Bytes.toBytes(arr(0)))
      put.addColumn(Bytes.toBytes("cf"),Bytes.toBytes("name"),Bytes.toBytes(arr(1)))
      put.addColumn(Bytes.toBytes("cf"),Bytes.toBytes("age"),Bytes.toBytes(arr(2).toInt))
      (new ImmutableBytesWritable, put)
    }}

    rdd.saveAsNewAPIHadoopDataset(job.getConfiguration())
    
    sc.stop()
  }
}

Spark運算元[20]：saveAsHadoopDataset、saveAsNewAPIHadoopDataset 例項詳解

概要

saveAsHadoopDataset

saveAsNewAPIHadoopDataset

Spark運算元[20]：saveAsHadoopDataset、saveAsNewAPIHadoopDataset 例項詳解

Spark運算元[10]：foldByKey、fold 原始碼例項詳解

Spark學習筆記：輸入DStream和Receiver詳解

CABaseAnimation收錄：二、CAAnimation動畫詳解

Qt：調色盤QPalette類用法詳解（附例項、原始碼）

關於spark RDD trans action運算元、lineage、寬窄依賴詳解

Spark學習筆記：四、WordCount字頻統計入門程式（基於IntelliJ IDEA使用Scala+SBT）

#20 ifconfig、route、netstat、ip、ss命令詳解與修改主機名與網卡配置文件

第20講 | 區塊鏈項目詳解：比特股BTS

Zookeeper技術：分散式架構詳解、分散式技術詳解、分散式事務

Zookeeper技術：分布式架構詳解、分布式技術詳解、分布式事務

03 -1 pandas 中 DataFrame理解與建立、索引、運算的詳解以及例項

android平臺下OpenGL ES 3.0例項詳解頂點屬性、頂點陣列

JavaScript中立即執行函式例項詳解轉載作者：李牧羊

CSS例項詳解：Flex佈局

Python 例項詳解：銀行 ATM 等待時間分析

【搞定Java併發程式設計】第20篇：讀寫鎖 --- ReentrantReadWriteLock詳解

開發日常小結（9）：如何在專案中定位列舉類的作用，並使用列舉類？-- 列舉類描述業務物件狀態的例項詳解

應用層協議：HTTP與HTTPS協議詳解、二者的區別

Linux Rootkit系列三：例項詳解 Rootkit 必備的基本功能

Spark運算元[20]：saveAsHadoopDataset、saveAsNewAPIHadoopDataset 例項詳解

概要

saveAsHadoopDataset

saveAsNewAPIHadoopDataset

相關推薦