1. 程式人生 > >即將釋出的 Apache Spark 2.4 都有哪些新功能

即將釋出的 Apache Spark 2.4 都有哪些新功能

本文來自於2018年09月19日在 Adobe Systems Inc 舉行的 Apache Spark Meetup。

即將釋出的 Apache Spark 2.4 版本是 2.x 系列的第五個版本。 本文對 Apache Spark 2.4 的主要功能和增強功能進行了概述。

  • 新的排程模型(Barrier Scheduling),使使用者能夠將分散式深度學習訓練恰當地嵌入到 Spark 的 stage 中,以簡化分散式訓練工作流程。

  • 添加了35個高階函式,用於在 Spark SQL 中運算元組/map。

  • 新增一個新的基於 Databricks 的 spark-avro 模組的原生 AVRO 資料來源。

  • PySpark 還為教學和可除錯性的所有操作引入了熱切的評估模式(

    eager evaluation mode)。

  • Spark on K8S 支援 PySpark 和 R ,支援客戶端模式(client-mode)。

  • Structured Streaming 的各種增強功能。 例如,連續處理(continuous processing)中的有狀態操作符。

  • 內建資料來源的各種效能改進。 例如,Parquet 巢狀模式修剪(schema pruning)。

  • 支援 Scala 2.12。

關注 iteblog_hadoop 公眾號,並回復 spark24 獲取本文 PPT。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

猜你喜歡

歡迎關注本公眾號:iteblog_hadoop:

回覆 spark_summit_201806 下載 Spark Summit North America 201806 全部PPT

0、回覆 電子書獲取 本站所有可下載的電子書

11、更多大資料文章歡迎訪問https://www.iteblog.com及本公眾號(iteblog_hadoop)12、Flink中文文件:http://flink.iteblog.com13、Carbondata 中文文件http://carbondata.iteblog.com

640?wx_fmt=png