SparkSQL把rdd轉化為DataFrame時，想要把整個陣列的值都放到Row中則麼辦?

阿新 • • 發佈：2018-11-29

在使用sparkSQL，有時想要把rdd中的資料轉換成DataFrame，RDD中的的資料可能時Array型別，或者是想要把陣列型別中的所有元素放到Row中，當陣列中的元素特別多時，可能就會變得更加麻煩，其實Row的Object中為我們提供了一個很好的方法，就是merge方法，話不多說，直接看程式碼吧
在這裡插入圖片描述

Object  Demo {
def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName(s"${this.getClass.getName}").setMaster("local" 
)
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    //這裡我是並行化建立了一個RDD,當然也可從檔案讀取
    val lines:RDD[String] = sc.parallelize(Array("a 1 c","n 2 m"))
    //把每一行資料都按空格進行切分後，得到的RDD中的是Array陣列
   val splits: RDD[Array[String]]  = lines.map(_.split(" "))
   //現在想要把splits轉換成RDD[Row]型別，以進行轉換為DataFrame 

    val rowRDD: RDD[Row] = .map(t => {
      var row: Row = Row() //先建立一個Row，空的
      for (i <- 0 until (t.size)) {
      //每次把這次的Row型別，和原來的Row進行合併， 最後的row中有是
      //數組裡面的所有欄位
      //把第2個值 轉成 int型別 在新增到Row中
        if(i==1)row = Row.merge(row,Row(t(i).toInt))
        
        else row = Row.merge(row, 
Row(t(i)))
      }
      //最後把row 返回，此時的row中相當於Row(t(0),t(1).toInt,t(2))
      //在數字段數特別多時，就會特別麻煩，可以使用上面的那種方法
      row
    })
    //最後在建立元資料
    val structType = StructType(List(StructField("name",StringType,true),StructField("name1",IntegerType,true),StructField("name2",StringType,true)))
    val df1 = sqlContext.createDataFrame(rowRDD,structType)
    df1.show()
    sc.stop()

  }
}

上面的列子欄位比較少，可能不是特別明顯，可以通過下面的列子在進行比較

object Bz2toParquet01 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName(s"${this.getClass.getName}").setMaster("local").set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    sqlContext.setConf("spark.sql.parquet.compression.codec","snappy")
    val lines = sc.textFile("D:\\tools\\qianfeng\\hadoop\\spark\\sparkStreaming\\DMP專案\\2016-10-01_06_p1_invalid.1475274123982.log.FINISH.bz2")
    val rowRDD = lines.map(x=>x.split(",",x.size)).filter(
    t=>t.length>=85).map(arr=>{
    //此處將欄位取出來放到Row中
      Row(
        arr(0),
        NBF.toInt(arr(1)),
        NBF.toInt(arr(2)),
        NBF.toInt(arr(3)),
        NBF.toInt(arr(4)),
        arr(5),
        arr(6),
        NBF.toInt(arr(7)),
        NBF.toInt(arr(8)),
        NBF.toDouble(arr(9)),
        NBF.toDouble(arr(10)),
        arr(11),
        arr(12),
        arr(13),
        arr(14),
        arr(15),
        arr(16),
        NBF.toInt(arr(17)),
        arr(18),
        arr(19),
        NBF.toInt(arr(20)),
        NBF.toInt(arr(21)),
        arr(22),
        arr(23),
        arr(24),
        arr(25),
        NBF.toInt(arr(26)),
        arr(27),
        NBF.toInt(arr(28)),
        arr(29),
        NBF.toInt(arr(30)),
        NBF.toInt(arr(31)),
        NBF.toInt(arr(32)),
        arr(33),
        NBF.toInt(arr(34)),
        NBF.toInt(arr(35)),
        NBF.toInt(arr(36)),
        arr(37),
        NBF.toInt(arr(38)),
        NBF.toInt(arr(39)),
        NBF.toDouble(arr(40)),
        NBF.toDouble(arr(41)),
        NBF.toInt(arr(42)),
        arr(43),
        NBF.toDouble(arr(44)),
        NBF.toDouble(arr(45)),
        arr(46),
        arr(47),
        arr(48),
        arr(49),
        arr(50),
        arr(51),
        arr(52),
        arr(53),
        arr(54),
        arr(55),
        arr(56),
        NBF.toInt(arr(57)),
        NBF.toDouble(arr(58)),
        NBF.toInt(arr(59)),
        NBF.toInt(arr(60)),
        arr(61),
        arr(62),
        arr(63),
        arr(64),
        arr(65),
        arr(66),
        arr(67),
        arr(68),
        arr(69),
        arr(70),
        arr(71),
        arr(72),
        NBF.toInt(arr(73)),
        NBF.toDouble(arr(74)),
        NBF.toDouble(arr(75)),
        NBF.toDouble(arr(76)),
        NBF.toDouble(arr(77)),
        NBF.toDouble(arr(78)),
        arr(79),
        arr(80),
        arr(81),
        arr(82),
        arr(83),
        NBF.toInt(arr(84))
      )
    })

//SchemaUtils是我自定義的一個工具類，裡面建立了Row的Schame資訊
    val df1: DataFrame = sqlContext.createDataFrame(rowRDD,SchemaUtils.schema)
    df1.write.parquet("hdfs:\\spark\out3")

    sc.stop()
  }

}

下面是用一個for迴圈搞定那麼長的Row

object Bz2toParquet {
  def main(args: Array[String]): Unit = {

    //首先判斷目錄是否為空
    if(args.length != 2){
      println("目錄不正確，退出程式")
      sys.exit()
    }
    //建立一個幾個儲存輸入輸入出目錄
   
    val conf = new SparkConf().setAppName(s"${this.getClass.getName}").setMaster("local")
      .set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)

    //在spark1.6版本的預設的壓縮方式還不是snappy，到2.0以後才預設是snappy
   // sqlContext.setConf("spark.sql.parquet.compression.codec","snappy")
    sqlContext.setConf("spark.sql.parquet.compression.codec","snappy")
    val lines = sc.textFile(inputPath)
    //開始過濾，保證欄位大於85，並且要解析內部的，，，，進行特殊處理
    val rowRDD: RDD[Row] = lines.map(x=>{
      x.split(",",x.length) //按所有的, 解析， 如果過不寫長度，只會解析一個
    }).filter(_.length>=85).map(arr=> {
      var row : Row= Row()
      //這裡只需要把你要轉換為Int或Double的進行一下判斷就可以啦
      for (i <- 0 until  85){
        if(i==1||i==2||i==3||i==4||i==7||i==8||i==17||i==21||i==20||i==26||i==28||i==30||i==31||i==32
        ||i==34||i==35||i==36||i==38||i==39||i==42||i==57||i==59||i==60||i==73||i==84) row = Row.merge(row,Row(NBF.toInt(arr(i))))
        else if(i==9||i==10||i==40||i==41||i==44||i==45||i==58||i==74||i==75||i==76||i==77||i==78)row = Row.merge(row,Row(NBF.toDouble(arr(i))))
        else row = Row.merge(row,Row(arr(i)))
      }
      row

    })


    val df1 = sqlContext.createDataFrame(rowRDD,SchemaUtils.schema)
    //重新指定分割槽，並輸出為parquet檔案
    df1.coalesce(1).write.parquet(outputPath)
    sc.stop()
  }

}

SparkSQL把rdd轉化為DataFrame時，想要把整個陣列的值都放到Row中則麼辦?

在使用sparkSQL，有時想要把rdd中的資料轉換成DataFrame，RDD中的的資料可能時Array型別，或者是想要把陣列型別中的所有元素放到Row中，當陣列中的元素特別多時，可能就會變得更加麻煩，其實Row的Object中為我們提供了一個很好的方法，就是merge方法，話不多說，直接

spark1.6使用：讀取本地外部資料，把RDD轉化成DataFrame，儲存為parquet格式,讀取csv格式

一、先開啟Hadoop和spark 略二、啟動spark-shell spark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.j

spark讀取日誌檔案，把RDD轉化成DataFrame

一、先開啟Hadoop和spark 略二、啟動spark-shell spark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc

【我要程式設計】Java技術手冊之根據圖片連結把圖片轉化為io流，並輸出到頁面上的方法

適用場景：A程式只能內網訪問，B程式可以外網訪問，只有B程式可以訪問A程式，使用者需要通過B程式訪問A程式的圖片資源。這是可以使用該方法。 @RequestMapping("/getImageByPath") public void getImageByTomcat(St

如何將pyspark的rdd資料型別轉化為DataFrame

簡述　　在用pyspark進行開發的時候，經常會遇到如何將pyspark讀取的資料使用xgboost的模型進行訓練，當然，如果是使用scala，可以直接使用xgboost4j，這個庫裡面提供了可以讀取rdd的資料檔案的函式介面，通過scala可以很簡單的進行

java反射載入類，並轉化為DataFrame

動態載入類，構造類的例項，並轉化為DataFrame,同時還要解決入表時，類屬性值與表字段一一對應，同時只有部分欄位有值，其他欄位提供根據欄位型別提供預設值 def mergeRDD(spark:S

SparkSQL建立RDD：建立DataFrame的方式，配置Spark on Hive【文字說明+關鍵程式碼】

建立DataFrame的方式建立DataFrame的方式 1).讀取json格式的檔案 a).json檔案不能巢狀 b).讀取的兩種方式： DataFrame df = sqlContext.read().format("json").load(

php把網路圖片轉化為base64格式，解決html2canvas圖片跨域問題

一、前言最近在用html2canvas做網頁截圖功能。這個開源庫使用很簡單，程式碼也很方便，但難點在於跨域問題。比如說，我的一個頁面中有圖片也有文字，圖片是來自於圖片伺服器的網路圖片。此時我們要生成截圖的話，需要有許可權來操作網路圖片，這就出現了

Docx4j將html轉成word時，br標簽為軟回車的問題修改

peek aras -i lin 位置 org pac 回車 tco docx4j版本：3.0.1 修改jar包：docx4j-ImportXHTML maven配置為：具體代碼位置：\org\docx4j\convert\in\xhtml\XHTMLImporterIm

oauth X-Frame-Options 跳轉授權頁面時，302重定向禁用iframe

授權 ngx auth option rest pairs 測試 authorize iframe 因為oauth/authorize響應頭包含X-Frame-Options: DENY解決方案：openresty nginx 移除該屬性,經測試生效 more_clear

將memo轉化為JPG輸出，使用Memo1.PaintTo(Bitmap.Canvas)

ali send sig .text ctr ace rap reat bit unit unit1; interface uses Windows, Messages, SysUtils, Graphics, Controls, Forms, StdCtrls,

String轉化為date型別，從而獲取星期幾

//String轉化為Date型別，從而獲取時間 //StringtimeStr = "2018-10-30" publicStringgetStringOfDateWeek(StringtimeStr){ SimpleDateFormatformat=newSimpleD

分數轉化為整int，int a=2/3，是0； int c=7/5;是1；不存在四捨五入。

不存在四捨五入。 #include <iostream> using namespace std; int main () { int a=2/3; int b=3/4;

把十進位制轉化為N進位制的演算法

程式碼 #include<stdio.h> int main() { int m,n; int a[99],i=0,j; printf("請輸入需要轉化的十進位制數，以及需要轉化為幾進位制\n"); scanf("%d%d",&m,&n); whil

c++ -學習之路-- 如何把int 轉化為string. 如何把string 轉化為int

把int 轉化為string. 看了很多部落格,發現最好用的是to_string()函式. 用法: string numberStr = to_string(number);// 將數字number, 比如說 nunber是等於15的; 轉化為的結果為"15"

python 用逗號分隔欄位但被三個引號括起來的欄位不被逗號分隔的檔案轉化為dataframe

請教一個問題： 0,"""哎，想當年來佘山的時候，類來,空了。""",-2,-2,-2,0,-2,-2,-2,1,-2,-2,-2,-2,-2,-2,-2,0,-2,-2,1,0 這種資料怎麼用pandas讀到dataframe中，"""括起來的是一個欄位，dataframe

Spark SQL中RDDs轉化為DataFrame（詳細全面）

除了呼叫SparkSesion.read().json/csv/orc/parqutjdbc 方法從各種外部結構化資料來源建立DataFrame物件外，Spark SQL還支援將已有的RDD轉化為DataFrame物件，但是需要注意的是，並不是由任意型別物件組成的RDD均

分數轉化為整int，int a=2/3，是0； int c=7/5;是1；不存在四捨五入。

不存在四捨五入。 #include <iostream> using namespace std; int main () { int a=2/3; int b=

java把字串轉化為unicode編碼

public static String gbToUnicode(final String gbString) { char[] utfBytes = gbString.toCharArray(); St

將時間毫秒轉化為String型別，如00:00:00

/** * 將時間毫秒轉化為String型別，如00:00:00 * * @param mili * 時間毫秒 * @return 時間字串，mili為0時，返回00:00

SparkSQL把rdd轉化為DataFrame時，想要把整個陣列的值都放到Row中則麼辦?

相關推薦