【Spark】Spark2.x版的新特性

阿新 • • 發佈：2019-01-02

一、API

1. 出現新的上下文介面：SparkSession，統一了SQLContext和HiveContext，並且為SparkSession開發了新的流式呼叫的configuration API

2. 統一了DataFrame和DataSet。DataFrame相當於DataSet[Row]，以及DataSet的增強聚合API

3. 增強了累加器accumulator的功能，支援Web UI，便捷的API，效能更高

二、SQL

1. 支援SQL2003標準

2. 支援ansi-sql 和hive ql的sql parser(SQL解析器)

3. 支援DDL，支援子查詢（in/not in 、 exists/ not exists）

三、效能

1. 通過whole-stage-code generation（全流程程式碼生成）技術將SparkSQL和DataSet的效能提升了2~10倍。（在下一篇博文中會淺談全流程程式碼生成技術）

2. 通過vectorization(向量化)技術提升parquet檔案的掃描吞吐量

3. 提升orc檔案的讀寫效能

4. 提升catalyst查詢優化器的效能

5. 通過native實現方式提升視窗函式的效能

四、 Spark Streaming

1. Structured Streaming在Spark2.0中是測試版，2.0之後是released版，它基於SparkSQL和Catalyst引擎構建，支援DataFrame風格的API進行流式計算。

2. 基於DStream的API支援kafka0.10版本

五、Spark MLlib

1. 基於DataFrame的API支援持久化儲存、載入模型、Pipeline，支援更多的演算法，支援向量和矩陣使用效能更高的序列化機制。

2. Spark R支援MLlib演算法，包括線性迴歸、樸素貝葉斯等

3. 未來Spark MLlib將主要基於DataSet API來實現，基於RDD和API將轉為維護階段

六、Other

1. 支援csv檔案

2. 支援hive風格的bucket表

3. 支援快取和程式執行的堆外記憶體管理

4. 完全移除了對akka的依賴

5. 使用Scala2.11代替了Scala2.10，要求基於Scala2.11版本進行開發，而不是Scala2.10

6. Mesos粗粒度模式下，支援啟動多個Executor

【Spark】Spark2.x版的新特性

一、API 1. 出現新的上下文介面：SparkSession，統一了SQLContext和HiveContext，並且為SparkSession開發了新的流式呼叫的configuration API 2. 統一了DataFrame和DataSet。DataFra

【C++】11&14新特性

bsp con const 初始 strong ron 賦值和初始化 nbsp 常量 Linux下編譯： g++ main.cpp -std=c++11 　　　　　　 g++ mian.cpp -std=c++14 棄用： 1.字符串字面值常量賦值和初始化，用 const

【java】java各版本新特性總結

Java5: 1、泛型 Generics: 引用泛型之後，允許指定集合裡元素的型別，免去了強制型別轉換，並且能在編譯時刻進行型別檢查的好處。 &nb

【劉文彬】 EOS1.1版本新特性介紹

原文連結：醒者呆的部落格園，https://www.cnblogs.com/Evsward/p/9330057.html EOSIO/eos 目前在github的專案活躍度方面排名第一，release版本更新的速度讓人應接不暇。今天EOS的大版本1.1釋出，我也有幸參與了貢獻，本

【微信小程式+ES6新特性應用】字串模板：美元符號$+大括號{}變數的寫法

1、字串模板簡介 ES6新特性中的字串模板允許使用英文字元抑音符號`（提示：這裡我們不能將其理解為單引號）來建立字串，並且在該字串中可以包含都【美元符號+大括號】包裹的變數格式：console.lo

【Spark】DAGScheduler源代碼淺析

under 提交 title 作者 sem lis git lean access DAGScheduler DAGScheduler的主要任務是基於Stage構建DAG，決定每個任務的最佳位置記錄哪個RDD或者Stage輸出被物化

【Spark】RDD操作具體解釋4——Action算子

() sim comment cat zed ret form sdn order 本質上在Actions算子中通過SparkContext運行提交作業的runJob操作，觸發了RDD DAG的運行。依據Action算子的輸出空間將Action算子進

Spring版本功能變更&Spring4.x的新特性

sca 升級 5.7 content active 註釋驅動 not ssp 瀏覽器有朋友想知道Spring不同版本都有哪些功能變更，說直接在百度搜索找到的結果都不是想要的，其實還是關鍵詞不對，找Spring不同版本的新特性就能獲得更好的結果。其實在Spring工程git

【轉】ECharts3.x中的點擊事件與行為

sta tar consola aid 處理 mouseover ati utl rest 在ECharts中主要通過 on 方法添加事件處理函數，ECharts中的事件主要分為兩種，1）鼠標事件，在鼠標click or hove 時觸發鼠標事件； 2）另外一種是在EC

PHP+Redis 實例【二】頁面緩存新玩法

做了 urn 最好博客更新有一個返回致命傷什麽今天算是認識到博客園裏的審查團隊多內幕了，哈哈，貼個圖玩下。氣死寶寶了。進入主題！今天就不寫什麽功能性的了，換下口味說下關於頁面級的緩存，應該怎麽做。相信有很多小夥伴查了百度，甚至google，

【Spark】篇---Spark中yarn模式兩種提交任務方式

方式 div -s and clas client 命令 yarn 模式一、前述 Spark可以和Yarn整合，將Application提交到Yarn上運行，和StandAlone提交模式一樣，Yarn也有兩種提交任務的方式。二、具體 1、yarn

【bzoj4543】Hotel加強版（thr）

父親 https src 復雜 mes 是我一點連續變化 Portal --> bzoj4543 Solution ?　　一年前的題== 然而一年前我大概是在劃水qwq ??　　其實感覺好像關鍵是。。設一個好的狀態？然後。。你要用一種十分優秀的方式快樂轉移qwq

【BZOJ3551】Peaks加強版（Kruskal重構樹，主席樹）

www top return ostream https zoj 高度 ble lib 【BZOJ3551】Peaks加強版（Kruskal重構樹，主席樹）題面 BZOJ Description 在Bytemountains有N座山峰，每座山峰有他的高度h_i。有些山峰之

【spark】dataframe常見操作

all data 通過 sch 兩個執行計劃 min 內存就是 spark dataframe派生於RDD類，但是提供了非常強大的數據操作功能。當然主要對類SQL的支持。在實際工作中會遇到這樣的情況，主要是會進行兩個數據集的篩選、合並，重新入庫。首先加載數據

【Windows】Win10家庭版啟用組策略gpedit.msc

轉載請註明出處，原文連結：https://blog.csdn.net/u013642500/article/details/80138799 【前言】大家都認為，Windows 10家庭版中並不包含組策略，其實不然，它是有相關檔案的，只是不讓你使用而已。那麼我們讓系統允許你使用就

[轉]【集合】win10家庭版-開啟組策略-關閉WindowsDefender-關閉自動更新

win10家庭版開啟組策略轉自知乎 https://www.zhihu.com/question/53834660/answer/283651081 關閉WindowsDefender 轉 http://www.w10zj.com/Win10xy/Win10yh_4687.h

MT【248】$f(x)=\dfrac{1}{x-1}+\dfrac{1}{x-b}$的性質

探討函式$f(x)=\dfrac{1}{x-a}+\dfrac{1}{x-b}$其中$a<b$的幾個性質分析:對稱性:關於$(\dfrac{a+b}{2},0)$證明提示:$f(x)+f(a+b-x)=0$且定義域關於$(\dfrac{a+b}{2},0)$對稱單調性:單調遞減區間$(-\infty

MT【248】$f(x)=dfrac{1}{x-1}+dfrac{1}{x-b}$的性質

對稱性定義域 bsp http src its 圖. 函數定義探討函數$f(x)=\dfrac{1}{x-a}+\dfrac{1}{x-b}$其中$a<b$的幾個性質分析:對稱性:關於$(\dfrac{a+b}{2},0)$證明提示:$f(x)+f(a+b-

【轉】Appium 優化版

Appium 開源分享優化版之前分享過PageObject+Python+Appium 本版本是對上次版本較大改版,主要解決了：失敗重連一次（預設一次）可配置多次基於appium1.7.1 uiautomator2 解決uiautomator2

【數論】Codeforces1027G X-mouse in the Campus

分析：顯然，i->ix(mod m)連一條邊，則最終一定會形成若干個環，並且，環上每個點與m的gcd值必定相同。並且，gcd值相同的環大小也一定相同。所以，如果能算出對於所有數中，與m的gcd為d的個數

【Spark】Spark2.x版的新特性

一、API

二、SQL

三、效能

四、 Spark Streaming

五、Spark MLlib

六、Other

相關推薦