Spark SQL中RDDs轉化為DataFrame（詳細全面）

阿新 • • 發佈：2018-12-19

除了呼叫SparkSesion.read().json/csv/orc/parqutjdbc 方法從各種外部結構化資料來源建立DataFrame物件外，Spark SQL還支援

將已有的RDD轉化為DataFrame物件，但是需要注意的是，並不是由任意型別物件組成的RDD均可轉化為DataFrame 物件，

只有當組成RDD[T]的每一個T物件內部具有公有且鮮明的欄位結構時，才能隱式或顯式地總結出建立DataFrame物件所必要的

結構資訊(Schema) 進行轉化，進而在DataFrame上呼叫RDD所不具備的強大豐富的API,或執行簡潔的SQL查詢。

Spark SQL支援將現有RDDS轉換為DataFrame的兩種不同方法，其實也就是隱式推斷或者顯式指定DataFrame物件的Schema。

1.使用反射機制( Reflection )推理出schema (結構資訊)

第一種將RDDS轉化為DataFrame的方法是使用Spark SQL內部反射機制來自動推斷包含特定型別物件的RDD的schema

(RDD的結構資訊)進行隱式轉化。採用這種方式轉化為DataFrame物件，往往是因為被轉化的RDDIT]所包含的T物件本身就

是具有典型-一維表嚴格的欄位結構的物件，因此Spark SQL很容易就可以自動推斷出合理的Schema這種基於反射機制隱式

地建立DataFrame的方法往往僅需更簡潔的程式碼即可完成轉化，並且執行效果良好。

Spark SQL的Scala介面支援自動將包含樣例類( case class物件的RDD轉換為DataFrame物件。在樣例類的宣告中已預先定義

了表的結構資訊，內部通過反射機制即可讀取樣例類的引數的名稱、型別，轉化為DataFrame物件的Schema.樣例類不僅可以

包含Int、Double、String這樣的簡單資料型別，也可以巢狀或包含複雜型別，例如Seq或Arrays.

注意SparkContext是RDD的程式設計的主入口，SparkSession是SparkSQL的主入口，SparkSession初始化時，Sparkcontext

和SparkConf也會例項化，可有SparkSession呼叫。

以下將含有Person的樣例類物件的RDD隱式轉化為DataFrame物件的例項：

首先宣告Person樣例類，Person類物件用於裝載name,age

case class Person(name:String,age:Long)

匯入隱式類

import spark.implicits._

建立RDD

val personRDD = sparkSession.sparkContext.textFile("/spark/data/people.txt").map(_.split(" ")).map(attributes=>Person(attributes(0), attributes(1).trim.toInt))

轉化為DataFrame

val peopleDF = personRDD .toDF()

2.由開發者指定Schema

RDD轉化DataFrame的第二種方法是通過程式設計介面，允許先構建個schema,然後將其應用到現有的RDD(Row),較前一種方法

由樣例類或基本資料型別 (Int、String) 物件組成的RDD加過toDF ()直接隱式轉化為DataFrame不同，不僅需要根據需求、以及

資料結構構建Schema,而且需要將RDD[TI轉化為Row物件組成的RDD (RDD[Row]),這種方法雖然程式碼量一些，但也提供了更高

的自由度，更加靈活。

當case類不能提前定義時(例如資料集的結構資訊已包含在每一行中、一個文字資料集的事段對不同使用者來說需要被解析成不同

的欄位名)，這時就可以通過以下三部完成Dataframe的轉化

(1)根據需求從源RDD轉化成RDD of rows.

(2)建立由符合在驟1中建立的RDD中的Rows結構的StructType表示的模式。

(3)通過SparkSession提供的createDataFrame方法將模式應用於行的RDD.

然後：val peopleDF = spark.createDataFrame(rowRDD,schema)

Spark SQL中RDDs轉化為DataFrame（詳細全面）

除了呼叫SparkSesion.read().json/csv/orc/parqutjdbc 方法從各種外部結構化資料來源建立DataFrame物件外，Spark SQL還支援將已有的RDD轉化為DataFrame物件，但是需要注意的是，並不是由任意型別物件組成的RDD均

Spark SQL中 RDD 轉換到 DataFrame

pre ase replace 推斷 expr context 利用反射轉換 port 1.people.txtsoyo8, 35小周, 30小華, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射機制推斷RDD

react標籤屬性dangerouslySetInnerHTML將字串轉化為html（動態渲染）

根據需求，前端頁面有時需要動態展示後端返回的程式碼，但是此時的程式碼是字串型別，直接展示，頁面顯示的只是字串，這時就用到了react標籤屬性dangerouslySetInnerHtml屬性； dangerouslySetInnerHtml用法： dangerouslySetInnerH

Java如何將字串轉化為JSON（json-lib）

前言：關於如何轉換網上的文章已經很多了，我之所以還寫出來的主要目的是提供一下jar。很多博主只是提供json-lib包，其他依賴的包讓自己去下載，自己在這裡遇到一些坑就是，如果版本不一致會導致報錯。另外有些博主為了賺取積分，讓我這種學生黨有些無奈。因此就在這

sql中兩種情況判斷（if函式）、多種情況判斷（case .. when...)

原地址：https://segmentfault.com/a/1190000009676728 sum（if（actual_num>0, share_post，0））其中SUM的意思淺顯易懂，求和嘛。IF也十分清晰：判斷嘛。而且if的第一個引數很明顯就是條件，

T-SQL 中的CROSS JOIN用法（半翻譯）

突然發現個很吊的連結，我們來看看學習資料庫要做些什麼，膽小慎點：DBA工作內容！！！！今天來翻譯一篇關於T-SQL的文章，本文可供微軟認證70-461:QueryingMicrosoft SQL Server 2012的學習和練習之用。本文以翻譯為主，引出個人工作中的一些思

Spark SQL中Dataframe join操作含null值的列

dataframe util pre table log n-n dram blog between 當在Spark SQL中對兩個Dataframe使用join時，當作為連接的字段的值含有null值。由於null表示的含義是未知，既不知道有沒有，在SQL中null值與任何

SparkSQL把rdd轉化為DataFrame時，想要把整個陣列的值都放到Row中則麼辦?

在使用sparkSQL，有時想要把rdd中的資料轉換成DataFrame，RDD中的的資料可能時Array型別，或者是想要把陣列型別中的所有元素放到Row中，當陣列中的元素特別多時，可能就會變得更加麻煩，其實Row的Object中為我們提供了一個很好的方法，就是merge方法，話不多說，直接

三種數據庫日期轉字符串對照sql server、oracle、mysql（V4.11）

to_date 擴展 article zha ret lar span timestamp tracking 三種數據庫日期轉換對照： http://blog.csdn.net/zljjava/article/details/17552741 SQL類

SQL Server（MySql）中的聯合主鍵（聯合索引）索引分析

判斷 reat 系統 lap creat insert 結果問題 select 最近有人問到這個問題，之前也一直沒有深究聯合索引具體使用邏輯，查閱多篇文章，並經過測試，得出一些結論測試環境：SQL Server 2008 R2 測試結果與MySql聯合索引查詢機制類似，

SSM框架的sql中參數註入（#和$的區別）

沒有 result ddr 其他防止 date_time ${} ext post 1 <select id="findUsersByUserName2" resultType="java.util.Map" parameterType="Params">

android開發學習 ------- 【轉】 android中的單例模式（詳解）

lan post tail -- and 使用 href details android開發 https://blog.csdn.net/u011418943/article/details/60139644 這篇文章前因後果都說出來了，值得學習。 htt

【轉】在使用實體框架（Entity Framework）的應用中加入審計信息（Audit trail）跟蹤數據的變動

要求 date ted hang ng- tar () eat code 在一些比較重要的業務系統中，通常會要求系統跟蹤數據記錄的變動情況。系統要記錄什麽時間，什麽人，對那些信息進行了變動。比較簡單的實現方式是在每個表中加入兩個字段CreatedBy和CreatedA

SQL中的條件判斷語句（case when zhen if,ifnull）用法

簡介： case具有兩種格式。簡單case函式和case搜尋函式。這兩種方式，可以實現相同的功能。簡單case函式的寫法相對比較簡潔，但是和case搜尋函式相比，功能方面會有些限制，比如寫判定式。還有一個需要注重的問題，case函式只返回第一個符合條件的值，剩下的case部分將會被自動忽略。

如何將pyspark的rdd資料型別轉化為DataFrame

簡述　　在用pyspark進行開發的時候，經常會遇到如何將pyspark讀取的資料使用xgboost的模型進行訓練，當然，如果是使用scala，可以直接使用xgboost4j，這個庫裡面提供了可以讀取rdd的資料檔案的函式介面，通過scala可以很簡單的進行

Spark SQL中thriftserver和beeline的使用

使用的前提是你已經安裝好了spark,在這裡我使用的版本是spark-2.0.2-bin-hadoop2.7,建議使用該版本,因為試了幾個版本都不理想,最後找到了這個版本感覺挺好的,學習Spark SQL很方便. 1. 首先是啟動thriftserver服務端:

基於WebStorm(二)-----webstorm專案中pug轉化為html

總所周知,在開發過程中html介面最煩的就是'<>'與'<></>',有時候稍微不小心少打了個'>'專案就開始罷工,開始不跑;為了提高效率也為了減少不必要的錯誤影響開發心情,所以jade應運而生,jade在github

Spark SQL中使用StringIndexer和IndexToString來對字串資訊進行索引和反索引

簡介本篇部落格使用Kaggle上的AdultBase資料集：Machine-Learning-Databases 此資料集雖然歷史比較悠久，但是資料格式比較容易處理，而且資訊比較全面，適合資料處理入門。本篇部落格使用了Spark SQL的相關語句，實現了以下

python 用逗號分隔欄位但被三個引號括起來的欄位不被逗號分隔的檔案轉化為dataframe

請教一個問題： 0,"""哎，想當年來佘山的時候，類來,空了。""",-2,-2,-2,0,-2,-2,-2,1,-2,-2,-2,-2,-2,-2,-2,0,-2,-2,1,0 這種資料怎麼用pandas讀到dataframe中，"""括起來的是一個欄位，dataframe

【轉】azkaban的部署過程中遇到的一些坑（部署篇）

注：azkaban之前有個配置檔案預設要求6G以上可用記憶體的坑，解決完之後今天又遇到了程式碼寫死3G以上記憶體的坑，根據報錯資訊正巧搜到了這篇文章，另外作者的主頁https://my.oschina.net/u/2988360裡也有其他幾篇關於azkaban的文章，推薦

Spark SQL中RDDs轉化為DataFrame（詳細全面）

相關推薦