【spark 讀寫資料】資料來源的讀寫操作

阿新 • • 發佈：2019-02-01

通用的 Load/Save 函式

在最簡單的方式下，預設的資料來源（parquet 除非另外配置通過spark.sql.sources.default）將會用於所有的操作。

Parquet 是一個列式儲存格式的檔案，被許多其他資料處理系統所支援。Spark SQL 支援對 Parquet 檔案的讀寫還可以自動的儲存源資料的模式


val usersDF = spark.read.load("examples/src/main/resources/users.parquet")
usersDF.select("name", "favorite_color").write.save("namesAndFavColors.parquet" 
)

手動指定選項

你也可以手動的指定資料來源，並且將與你想要傳遞給資料來源的任何額外選項一起使用。資料來源由其完全限定名指定（例如 : org.apache.spark.sql.parquet），不過對於內建資料來源你也可以使用它們的縮寫名（json, parquet, jdbc）。使用下面這個語法可以將從任意型別資料來源載入的DataFrames 轉換為其他型別。

val peopleDF = spark.read.format("json").load("examples/src/main/resources/people.json")
peopleDF.select("name", "age" 
).write.format("parquet").save("namesAndAges.parquet")

直接在檔案上執行 SQL

你也可以直接在檔案上執行 SQL 查詢來替代使用 API 將檔案載入到 DataFrame 再進行查詢。

val sqlDF = spark.sql("SELECT * FROM parquet.`examples/src/main/resources/users.parquet`")

儲存為持久化的表

import spark.implicits._
val peopleDF = spark.read.json("examples/src/main/resources/people.json" 
)
peopleDF.write.parquet("people.parquet")
val parquetFileDF = spark.read.parquet("people.parquet")
parquetFileDF.createOrReplaceTempView("parquetFile")
val namesDF = spark.sql("SELECT name FROM parquetFile WHERE age BETWEEN 13 AND 19")
namesDF.map(attributes => "Name: " + attributes(0)).show()
// +------------+
// | value|
// +------------+
// |Name: Justin|
// +------------+

【spark 讀寫資料】資料來源的讀寫操作

通用的 Load/Save 函式在最簡單的方式下，預設的資料來源（parquet 除非另外配置通過spark.sql.sources.default）將會用於所有的操作。 Parquet 是一個列式儲存格式的檔案，被許多其他資料處理系統所支援。Spark

14【華為HCIE-Storage】Cache讀寫鏡像&一高低水位&二寫盤&三讀寫策略&四讀機制

HCIE storage hostman ------------------------------------重要說明------------------------------------以下部分內容來網絡，部分自華為存儲官方教材具體教材內容請移步華為存儲官網進行教材下載網絡引用內容

【python技巧實用篇】python讀寫檔案、jieba自定義字典

import jieba from astropy.table.np_utils import join import os import sys import jieba.posseg as p

多執行緒讀寫資料方法之讀寫鎖方法與shared_ptr+互斥鎖方法的比較

對共享資源進行多執行緒讀寫操作有很多方法，本文舉出兩種方法並進行對比。一：讀寫鎖方法。執行緒進行讀操作時以讀的方式加鎖，執行緒進行寫操作時用寫的方式加鎖。二：另外一種比較新奇的方法是使用shared_ptr+互斥鎖。shared_ptr是一種用引用計數實現的智慧指標，當

【蟲師--系列14】最近讀的那些效能測試書

來自：http://www.cnblogs.com/fnng/archive/2012/09/25/2703133.html 作者：蟲師我所要介紹的這幾本書都是國內作者出的，沒辦法！主要是英語太挫，英語阻擋了我閱讀國外作品的道路。剛入測試就有幸接觸效能測試，j

【caffe學習筆記——mnist】mnist手寫資料集訓練和測試

http://blog.csdn.NET/liumaolincycle/article/details/47336921 本文主要來自Caffe作者Yangqing Jia網站給出的examples。 @article{jia2014caffe, Author = {Jia, Yangqing an

【spark 深入學習 03】Spark RDD的蠻荒世界

解釋不難特性 bsp resid 易懂優化方式序列 RDD真的是一個很晦澀的詞匯，他就是伯克利大學的博士們在論文中提出的一個概念，很抽象，很難懂；但是這是spark的核心概念，因此有必要spark rdd的知識點，用最簡單、淺顯易懂的詞匯描述。不想用學術話的語言來

【Spark 深入學習-08】說說Spark分區原理及優化方法

學習格式讀取文件 tmc 資料數值計算詳解 shc 存儲介質本節內容 ------------------ · Spark為什麽要分區 · Spark分區原則及方法 · Spark分區案例 · 參考

【Spark深入學習-11】Spark基本概念和運行模式

nmf 磁盤大數據平臺並不是鼠標 .cn 管理系統大型數據集 spa ----本節內容------- 1.大數據基礎 1.1大數據平臺基本框架 1.2學習大數據的基礎 1.3學習Spark的Hadoop基礎 2.Hadoop生態基本介紹 2.1

【Spark深入學習 -10】基於spark構建企業級流處理系統

變現大內存空間換時間 detail python 訪問量新版本 kafak 計算框架 ----本節內容------- 1.流式處理系統背景 1.1 技術背景 1.2 Spark技術很火 2.流式處理技術介紹 2.1流式處理技術概念 2.

【Spark深入學習 -16】官網學習SparkSQL

客戶 .com pmu 參考資料一行 uap lsa bmi orb ----本節內容-------1.概覽 1.1 Spark SQL 1.2 DatSets和DataFrame2.動手幹活 2.1 契入點：SparkSessi

【Spark深入學習 -12】Spark程序設計與企業級應用案例02

提升算子 lin count() roi println groupby 工作問題衍生 ----本節內容------- 1.遺留問題答疑 1.1 典型問題解答 1.2 知識點回顧 2.Spark編程基礎 2.1 Spark開發四部曲 2.2 RDD典型實例

【Spark深入學習 -14】Spark應用經驗與程序調優

aps 它的 stack 申請 vco 用戶統一 persist 資料 ----本節內容------- 1.遺留問題解答 2.Spark調優初體驗 2.1 利用WebUI分析程序瓶頸 2.2 設置合適的資源 2.3 調整任務的並發度

【Spark深入學習 -15】Spark Streaming前奏-Kafka初體驗

rod htm 新的 callback tails 包括 -c 舉例清理 ----本節內容------- 1.Kafka基礎概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知識 1.2.2.架構和原理 1.2.

【二分答案+二分資料】POJ - 3579 E - Median

E - Median POJ - 3579 Given N numbers, X1, X2, ... , XN, let us calculate the difference of every pair of

【前端-select2-顯示資料】

今天在使用select2 獲取json資料填充後無法選中下拉選項。原因如下：select2預設的資料屬性是id、text 假如主鍵為code 改為如下 var tmpObject = {};tmpObject.id = n.code;tmpObject.text

【手寫系列】純手寫實現一個高可用的RPC

前言在實際後臺服務開發中，比如訂單服務（開發者A負責）需要呼叫商品服務（開發者B負責），那麼開發者B會和A約定呼叫API，以介面的形式提供給A。通常都是B把API上傳到Maven私服，然後B開始寫API的實現，A只需要引入API依賴進行開發即可。訂單

# Apache Spark系列技術直播# 第五講【 Spark RDD程式設計入門】

內容提要：本次講座主要涵蓋Spark RDD程式設計入門基礎，包括： Spark、RDD簡介 RDD API簡介打包與spark-submit 效能分析與調優基礎主講人：王道遠(健身) 阿里巴巴計算平臺EMR技術專家直播時間：2018.12.13（本週四）19:00 - 20

【內附PDF資料】Python實現下載圖片並生產PDF檔案

pyspark之MLlib學習【載入和轉換資料】(1)

pyspark系列文章是本人根據《PySpark實戰指南》學習pyspark中學習筆記，這本書是一本譯文，有些地方感覺有點小問題，不過在本人的這些筆記中都是親自測試跑通後的小例子。僅作參考和學習。 1.概述 MLlib概括了單個核心機器學習功能：資料準備：特徵提取、變換

【spark 讀寫資料】資料來源的讀寫操作

相關推薦