Spark中json字串和DataFrame相互轉換

阿新 • • 發佈：2019-02-04

本文介紹基於Spark（2.0+）的Json字串和DataFrame相互轉換。

json字串轉DataFrame

spark提供了將json字串解析為DF的介面，如果不指定生成的DF的schema，預設spark會先掃碼一遍給的json字串，然後推斷生成DF的schema：

若列資料全為null會用String型別
整數預設會用Long型別
浮點數預設會用Double型別

val json1 = """{"a":null, "b": 23.1, "c": 1}"""
val json2 = """{"a":null, "b": "hello", "d": 1.2}"""

val 
 ds = spark.createDataset(Seq(json1, json2))
val df = spark.read.json(ds)
df.show
df.printSchema

+----+-----+----+----+
|   a|    b|   c|   d|
+----+-----+----+----+
|null| 23.1|   1|null|
|null|hello|null| 1.2|
+----+-----+----+----+

root
 |-- a: string (nullable = true)
 |-- b: string (nullable = true 
)
 |-- c: long (nullable = true)
 |-- d: double (nullable = true)

若指定schema會按照schema生成DF：

schema中不存在的列會被忽略
可以用兩種方法指定schema，StructType和String，具體對應關係看後面
若資料無法匹配schema中型別：若schema中列允許為null會轉為null；若不允許為null會轉為相應型別的空值（如Double型別為0.0值），若無法轉換為值會丟擲異常

val schema = StructType(List(
        StructField("a", ByteType, true 
),
        StructField("b", FloatType, false),
        StructField("c", ShortType, true)
    ))
//或 val schema = "b float, c short"  
val df = spark.read.schema(schema).json(ds)
df.show
df.printSchema

+----+----+----+
|   a|   b|   c|
+----+----+----+
|null|23.1|   1|
|null|   0|null|
+----+----+----+

root
 |-- a: byte (nullable = true)
 |-- b: float (nullable = true)
 |-- c: short (nullable = true)

json解析相關配置引數

primitivesAsString (default false): 把所有列看作string型別
prefersDecimal(default false): 將小數看作decimal，如果不匹配decimal,就看做doubles.
allowComments (default false): 忽略json字串中Java/C++風格的註釋
allowUnquotedFieldNames (default false): 允許不加引號的列名
allowSingleQuotes (default true): 除雙引號外，還允許用單引號
allowNumericLeadingZeros (default false): 允許數字中額外的前導0（如0012）
allowBackslashEscapingAnyCharacter (default false): 允許反斜槓機制接受所有字元
allowUnquotedControlChars (default false): 允許JSON字串包含未加引號的控制字元（值小於32的ASCII字元，包括製表符和換行字元）。

mode (default PERMISSIVE): 允許在解析期間處理損壞記錄的模式。

PERMISSIVE :當遇到損壞的記錄時，將其他欄位設定為null，並將格式錯誤的字串放入由columnNameOfCorruptRecord配置的欄位中。若指定schema，在schema中設定名為columnNameOfCorruptRecord的字串型別欄位。如果schema中不具有該欄位，則會在分析過程中刪除損壞的記錄。若不指定schema（推斷模式），它會在輸出模式中隱式新增一個columnNameOfCorruptRecord欄位。
DROPMALFORMED : 忽略整條損害記錄
FAILFAST : 遇到損壞記錄throws an exception
columnNameOfCorruptRecord (預設值為spark.sql.columnNameOfCorruptRecord的值):允許PERMISSIVE mode新增的新欄位，會重寫spark.sql.columnNameOfCorruptRecord

dateFormat (default yyyy-MM-dd): 自定義日期格式，遵循java.text.SimpleDateFormat格式. 只有日期部分（無詳細時間）
timestampFormat (default yyyy-MM-dd’T’HH:mm:ss.SSSXXX): 自定義日期格式，遵循java.text.SimpleDateFormat格式. 可以有詳細時間部分（到微秒）
multiLine (default false): 解析一個記錄，該記錄可能跨越多行，每個檔案

以上引數可用option方法配置：

val stringDF = spark.read.option("primitivesAsString", "true").json(ds)
stringDF.show
stringDF.printSchema

+----+-----+----+----+
|   a|    b|   c|   d|
+----+-----+----+----+
|null| 23.1|   1|null|
|null|hello|null| 1.2|
+----+-----+----+----+

root
 |-- a: string (nullable = true)
 |-- b: string (nullable = true)
 |-- c: string (nullable = true)
 |-- d: string (nullable = true)

二進位制型別會自動用base64編碼方式表示

‘Man’（ascci） base64編碼後為：”TWFu”


val byteArr = Array('M'.toByte, 'a'.toByte, 'n'.toByte)
val binaryDs = spark.createDataset(Seq(byteArr))
val dsWithB64 = binaryDs.withColumn("b64", base64(col("value")))

dsWithB64.show(false)
dsWithB64.printSchema

+----------+----+
|value     |b64 |
+----------+----+
|[4D 61 6E]|TWFu|
+----------+----+

root
 |-- value: binary (nullable = true)
 |-- b64: string (nullable = true)

//=================================================

dsWithB64.toJSON.show(false)
+-----------------------------+
|value                        |
+-----------------------------+
|{"value":"TWFu","b64":"TWFu"}|
+-----------------------------+

//=================================================

val json = """{"value":"TWFu"}"""
val jsonDs = spark.createDataset(Seq(json))
val binaryDF = spark.read.schema("value binary").json(jsonDs )

binaryDF.show
binaryDF.printSchema

+----------+
|     value|
+----------+
|[4D 61 6E]|
+----------+

root
 |-- value: binary (nullable = true)

指定schema示例：

以下是Spark SQL支援的所有基本型別：

val json = """{"stringc":"abc", "shortc":1, "integerc":null, "longc":3, "floatc":4.5, "doublec":6.7, "decimalc":8.90, "booleanc":true, "bytec":23, "binaryc":"TWFu", "datec":"2010-01-01", "timestampc":"2012-12-12 11:22:22.123123"}"""
val ds = spark.createDataset(Seq(json))
val schema = "stringc string, shortc short, integerc int, longc long, floatc float, doublec double, decimalc decimal(10, 3), booleanc boolean, bytec byte, binaryc binary, datec date, timestampc timestamp"
val df = spark.read.schema(schema).json(ds)
df.show(false)
df.printSchema

+-------+------+--------+-----+------+-------+--------+--------+-----+----------+----------+-----------------------+
|stringc|shortc|integerc|longc|floatc|doublec|decimalc|booleanc|bytec|binaryc   |datec     |timestampc             |
+-------+------+--------+-----+------+-------+--------+--------+-----+----------+----------+-----------------------+
|abc    |1     |null    |3    |4.5   |6.7    |8.900   |true    |23   |[4D 61 6E]|2010-01-01|2012-12-12 11:22:22.123|
+-------+------+--------+-----+------+-------+--------+--------+-----+----------+----------+-----------------------+

root
 |-- stringc: string (nullable = true)
 |-- shortc: short (nullable = true)
 |-- integerc: integer (nullable = true)
 |-- longc: long (nullable = true)
 |-- floatc: float (nullable = true)
 |-- doublec: double (nullable = true)
 |-- decimalc: decimal(10,3) (nullable = true)
 |-- booleanc: boolean (nullable = true)
 |-- bytec: byte (nullable = true)
 |-- binaryc: binary (nullable = true)
 |-- datec: date (nullable = true)
 |-- timestampc: timestamp (nullable = true)

複合型別：

val json = """
{
  "arrayc" : [ 1, 2, 3 ],
  "structc" : {
    "strc" : "efg",
    "decimalc" : 1.1
  },
  "mapc" : {
    "key1" : 1.2,
    "key2" : 1.1
  }
}
"""
val ds = spark.createDataset(Seq(json))
val schema = "arrayc array<short>, structc struct<strc:string, decimalc:decimal>, mapc map<string, float>"
val df = spark.read.schema(schema).json(ds)
df.show(false)
df.printSchema

+---------+--------+--------------------------+
|arrayc   |structc |mapc                      |
+---------+--------+--------------------------+
|[1, 2, 3]|[efg, 1]|[key1 -> 1.2, key2 -> 1.1]|
+---------+--------+--------------------------+

root
 |-- arrayc: array (nullable = true)
 |    |-- element: short (containsNull = true)
 |-- structc: struct (nullable = true)
 |    |-- strc: string (nullable = true)
 |    |-- decimalc: decimal(10,0) (nullable = true)
 |-- mapc: map (nullable = true)
 |    |-- key: string
 |    |-- value: float (valueContainsNull = true)

SparkSQL資料型別

基本型別：

DataType	simpleString	typeName	sql	defaultSize	catalogString	json
StringType	string	string	STRING	20	string	“string”
ShortType	smallint	short	SMALLINT	2	smallint	“short”
IntegerType	int	integer	INT	4	int	“integer”
LongType	bigint	long	BIGINT	8	bigint	“long”
FloatType	float	float	FLOAT	4	float	“float”
DoubleType	double	double	DOUBLE	8	double	“double”
DecimalType(10,3)	decimal(10,3)	decimal(10,3)	DECIMAL(10,3)	8	decimal(10,3)	“decimal(10,3)”
BooleanType	boolean	boolean	BOOLEAN	1	boolean	“boolean”
ByteType	tinyint	byte	TINYINT	1	tinyint	“byte”
BinaryType	binary	binary	BINARY	100	binary	“binary”
DateType	date	date	DATE	4	date	“date”
TimestampType	timestamp	timestamp	TIMESTAMP	8	timestamp	“timestamp”

三個複合型別：

DataType	simpleString	typeName	sql	defaultSize	catalogString	json
ArrayType(IntegerType, true)	array<int>	array	ARRAY<INT>	4	array<int>	{“type”:”array”,”elementType”:”integer”,”containsNull”:true}
MapType(StringType, LongType, true)	map<string,bigint>	map	MAP<STRING, BIGINT>	28	map<string,bigint>	{“type”:”map”,”keyType”:”string”,”valueType”:”long”,”valueContainsNull”:true}
StructType(StructField(“sf”, DoubleType)::Nil)	struct<sf:double>	struct	STRUCT<`sf`: DOUBLE>	8	struct<sf:double>	{“type”:”struct”,”fields”:[{“name”:”sf”,”type”:”double”,”nullable”:true,”metadata”:{}}]}

Spark中json字串和DataFrame相互轉換

本文介紹基於Spark（2.0+）的Json字串和DataFrame相互轉換。 json字串轉DataFrame spark提供了將json字串解析為DF的介面，如果不指定生成的DF的schema，預設spark會先掃碼一遍給的json字串，然後推斷生成

C#中JSON字串和Dictionary字典型別的相互轉換

在開發過程中，往往會遇到資料型別轉換的情況，根據自己的業務，可能轉換型別有多種，下面就說一下json字串和字典型別的轉換。 public static class JsonUntity { /// <summary>

extjs4中json字串和json物件轉換

用extjs也有一段時間了，但有些東西就是記不住，就比如json字串和json物件的轉換，我還是把它記下來。將json字串轉為json物件 var str = '{ "name": "張三", "age": "23" }' var obj = JSON.parse(str); 將j

js中json字串和json物件轉換

準備： 1.json字串 var jsonString="{”name“:"張三","value":"13"}"; 2.json物件 var jsonObject={”name“:"張三","value":"13"}; 3.json陣列 var jsonArray=[{”

java中逗號分隔的字串和List相互轉換

1、將逗號分隔的字串轉換為ListString str = "a,b,c"; List<String> result = Arrays.asList(str.split(","));2、將List轉換為逗號分隔的字串（1）利用Guava的JoinerList&

javascript json字串與物件相互轉換

　在實際專案中，經常遇到字元格式的問題，記下來以便日後方便檢視。用到兩個函式：JSON.stringify() 和 JSON.parse()。　　使用ajax向後臺請求資料，後臺給前端返回資料，明明後端指令碼寫的是json函式處理後的json格式，但是前端接收資料時，卻時而是

C++字串和整數相互轉換

//將整數轉化為字串，並且不使用itoa函式 #include<stdio.h> void main() { int n = 12345; char temp[6] = {0}; i

c/c++字串拼接追加複製，字串和int相互轉換，sscanf的轉義

char s[100]="hello world"; //1.計算字串的長度 int lenth= strlen(s); printf("length=%d\n",le

spark中的Dataset和DataFrame

參考《Spark與Hadoop大資料分析》Venkat Ankam和官方文件。利用DataFrame進行分析建立DataFrame 從spark2.0及更高版本開始，SparkSession成為了關係型功能的入口點。當使用Hive時，Spark

JS中物件顯示和隱藏相互轉換

比如說現有一個複選框checkbox，勾選後顯示出另外的內容：有兩種實現方法： $(function(){ //頁面載入時設定上傳圖示列為隱藏 $('#上傳圖示列id').hide();

spark基礎之RDD和DataFrame的轉換方式

一通過定義Case Class,使用反射推斷Schema 定義Case Class，在RDD的轉換過程中使用Case Class可以隱式轉換成SchemaRDD,然後再註冊成表，然後就可以利用sql

js中字符串和json數組的相互轉換

pre json 就會 div scrip string json數組互轉 obj //示例 var a={"name":"tom","sex":"男","age":"24"}; //向數據庫存儲時傳參數a時，直接這樣傳會存為object //json數組轉化為字

JSON 字串和 JSON 物件之間的相互轉換

一、什麼是 JSON JSON 即 JavaScript Object Notation ，是一種輕量級的資料互動格式。易於人閱讀和編寫，同時也易於機器解析和生成。 JSON 完全獨立於語言之外，但語法上借鑑了 JavaScript。輕量級：相對於XML，JSON

js中json物件和字串的轉換

1.JSON.parse() : 字串–>json物件 var str = '{"name":"huangxiaojian","age":"23"}'//單引號寫在{}外，每個屬性名都必須用雙引號，否則會丟擲異常。 JSON.parse(str) 結果： Object age

利用Google Gson實現JSON字串和物件之間相互轉換

最近一個專案需要用到JSON，需要在JSON字串和物件之間相互轉換，在網上找了些資料，發現google的Gson還是比較不錯的。廢話不說，下面是簡單的例子：先上原始碼：下載（包含jar包） Person實體類 package com.hsun.json; /** * Pe

Robotframework中字典和JSON的區別，相互轉換方法

1、標準的Json格式如下： { "firstName":"Eddy" , "lastName":"Peng" } key和value都是採用雙引號的方式進行包裹。 2、但是Robotframework中建立的字典預設採用的是單引號進行包裹，所以並不能直接作為JSON使用

javascript中json 字典和字串轉換, Django中轉換

字典轉字串: JSON.stringify(args) 字串轉字典： JSON.parse(args) python django中json轉換 dic = {"name":"raylu","age":22} import json json.dump(d

如何優雅的實現pandas DataFrame 和spark dataFrame 相互轉換

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Created on Fri Jun 8 16:27:57 2018 @author: luoga

C++中GB2312字串和UTF-8之間的轉換-json中文亂碼問題

在程式設計過程中需要對字串進行不同的轉換，特別是Gb2312和Utf-8直接的轉換。在幾個開源的魔獸私服中，很多都是老外開發的，而暴雪為了能夠相容世界上的各個字符集也使用了UTF-8。在中國使用VS（VS2005以上版本）開發基本都是使用Gb2312的Unicode字符

fastjson json字串和JavaBean、List、Map及複雜集合型別的相互轉換。

本文主要示例兩部分內容： JavaBean、List、Map、複雜集合轉換成 json字串； json字串轉換成 JavaBean、List、Map、複雜集合；定義POJO： public class A { private Str

Spark中json字串和DataFrame相互轉換

本文介紹基於Spark（2.0+）的Json字串和DataFrame相互轉換。

json字串轉DataFrame

json解析相關配置引數

二進位制型別會自動用base64編碼方式表示

指定schema示例：

SparkSQL資料型別

相關推薦