[Spark版本更新]--Spark-2.3.2釋出說明

阿新 • • 發佈：2018-11-09

2018-09-24 Apache spark又釋出新版本了，看看發行說明：

sub-task

[ SPARK-24976 ] - 允許十進位制型別轉換null（特定於PyArrow 0.9.0）

bug

[ SPARK-23243 ] - 在RDD上隨機廣播+重新分割槽可能導致錯誤答案
[ SPARK-23618 ] - 建立影象時，docker-image-tool.sh失敗
[ SPARK-23731 ] - FileSourceScanExec在子表示式消除中丟擲NullPointerException

[ SPARK-23732 ] - Spark Scala api Scaladoc中scala原始碼的斷開連結
[ SPARK-24216 ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
[ SPARK-24369 ] - 具有多個不同聚合時的錯誤
[ SPARK-24385 ] - Tridially -true EqualNullSafe應該像Dataset.join中的EqualTo一樣處理

[ SPARK-24415 ] - 故障時階段頁面聚合執行程式指標錯誤
[ SPARK-24452 ] - long = int * int或long = int + int可能導致記憶體溢位。
[ SPARK-24468 ] - 當比例為負時，DecimalType“adjustPrecisionScale”可能會失敗
[ SPARK-24495 ] - SortMergeJoin，重複鍵錯誤結果
[ SPARK-24506 ] - Spark.ui.filters未應用於/ sqlserver / url

[ SPARK-24530 ] - Sphinx無法正確呈現autodoc_docstring_signature（使用Python 2？）而pyspark.ml文件已被破壞
[ SPARK-24531 ] - 由於缺少2.2.0版本，HiveExternalCatalogVersionsSuite失敗
[ SPARK-24535 ] - 修復Windows上SparkR中的java版本解析
[ SPARK-24536 ] - 使用無意義的LIMIT查詢命中AssertionError
[ SPARK-24552 ] - 重試階段時重複使用任務嘗試次數
[ SPARK-24578 ] - 讀取遠端快取塊行為更改並導致超時問題
[ SPARK-24583 ] - InsertIntoDataSourceCommand中的架構型別錯誤
[ SPARK-24588 ] - StreamingSymmetricHashJoinExec應該要求兒童使用HashClusteredPartitioning
[ SPARK-24589 ] - OutputCommitCoordinator可能允許重複提交
[ SPARK-24603 ] - Typo評論
[ SPARK-24613 ] - 使用UDF的快取無法與後續的依賴快取匹配
[ SPARK-24704 ] - DAG圖表中的階段順序不正確
[ SPARK-24739 ] - PySpark不適用於Python 3.7.0
[ SPARK-24781 ] - 在過濾/排序中使用資料集中的引用可能不起作用。
[ SPARK- 24809] - 在執行程式中序列化LongHashedRelation可能會導致資料錯誤
[ SPARK-24813 ] - HiveExternalCatalogVersionsSuite仍然片狀; 迴歸Apache檔案
[ SPARK-24867 ] - 將AnalysisBarrier新增到DataFrameWriter
[ SPARK-24879 ] - 用於`partCol IN（NULL，....）的Hive分割槽過濾器下推中的NPE
[ SPARK-24889 ] - dataset.unpersist（）不更新儲存記憶體統計資訊
[ SPARK-24891 ] - 修復HandleNullInputsForUDF規則
[ SPARK-24908 ] - [R]刪除空格以使得快樂
[ SPARK-24909 ] - 當獲取失敗，執行程式丟失，丟失執行程式上的任務執行以及多個階段嘗試時，Spark排程程式可能會掛起
[ SPARK-24927 ] - hadoop提供的配置檔案與Snappy壓縮的Parquet檔案不相容
[ SPARK-24934 ] - 由於缺少上/下限情況，記憶體中分割槽修剪中的複雜型別和二進位制型別不起作用
[ SPARK-24948 ] - 由於許可權檢查，SHS錯誤地過濾了某些應用程式
[ SPARK-24950 ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失敗w / java 8 181-b13
[ SPARK-24957 ] - 使用codegen，十進位制算術可能導致錯誤的值
[ SPARK-24987 ] - Kafka快取的消費者洩漏檔案描述符
[ SPARK-25028 ] - 如果值為null，則AnalyzePartitionCommand因NPE失敗
[ SPARK-25051 ] - 資料集的where子句給出了AnalysisException
[ SPARK-25076 ] - 不應從已停止的SparkSession中檢索SQLConf
[ SPARK-25084 ] - 在多列上“分發”可能會導致程式碼問題
[ SPARK-25114 ] - 當兩個單詞之間的減法可被Integer.MAX_VALUE整除時，RecordBinaryComparator可能會返回錯誤的結果
[ SPARK-25124 ] - VectorSizeHint.size是錯誤的，打破了流媒體管道
[ SPARK-25144 ] - 由於檢測到託管記憶體洩漏，資料集上的不同導致異常
[ SPARK-25164 ] - Parquet閱讀器為每列構建一次完整的列列表
[ SPARK-25205 ] - spark.network.crypto.keyFactoryIteration中的拼寫錯誤
[ SPARK-25231 ] - 執行大型作業並進行猜測導致執行器心跳超時在驅動程式上
[ SPARK-25313 ] - 修復FileFormatWriter輸出模式中的迴歸
[ SPARK-25330 ] - 將hadoop版本升級到2.7.7後的許可權問題
[ SPARK-25357 ] - 向SparkPlanInfo新增元資料以將更多資訊（如檔案路徑）轉儲到事件日誌
[ SPARK-25368 ] - 不正確的約束推斷返回錯誤的結果
[ SPARK-25371 ] - 沒有輸入列的向量彙編程式導致不透明錯誤
[ SPARK-25402 ] - BooleanSimplification中的空值處理

new feature

[ SPARK-24542 ] - Hive UDF系列UDFXPathXXXX允許使用者通過精心設計的XML來訪問任意檔案

story

[ SPARK-25234 ] - SparkR ::: parallelize不能正確處理整數溢位

improvement

[ SPARK-24455 ] - 修復TaskSchedulerImpl評論中的拼寫錯誤
[ SPARK-24696 ] - ColumnPruning規則無法刪除額外的Project
[ SPARK-25400 ] - 在schedulerIntegrationSuite中增加超時

test

[ SPARK-24502 ] - 片狀測試：UnsafeRowSerializerSuite
[ SPARK-24521 ] - 修復CachedTableSuite中的無效測試
[ SPARK-24564 ] - 為RecordBinaryComparator新增測試套件

doc

[ SPARK-24507 ] - “Spark Streaming Programming Guide”中“資料接收中的並行度級別”部分中的描述與最近的Kafka直接應用程式無關
[ SPARK-25273 ] - 如何安裝testthat v1.0.2

參考：https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12343289

[Spark版本更新]--Spark-2.3.2釋出說明

2018-09-24 Apache spark又釋出新版本了，看看發行說明： sub-task [ SPARK-24976 ] - 允許十進位制型別轉換null（特定於PyArrow 0.9.0） bug [ SPARK-23243&nb

[Spark版本更新]--Spark-2.4.0 釋出說明

2018-11-02 Apache Spark 官方釋出了 2.4.0版本，以下是 Release Notes，供參考： Sub-task [ SPARK-6236 ] - 支援大於2G的快取塊 [ SPARK-6237 ] -

[Spark基礎]--Spark-2.3.2釋出說明

2018-09-24 Apache spark又釋出新版本了，看看發行說明： sub-task [ SPARK-24976 ] - 允許十進位制型別轉換null（特定於PyArrow 0.9.0）

Spark 2.3新版釋出，開始支援原生 Kubernetes_Kubernetes中文社群

開源社群越來越多人使用Kubernetes來進行資料處理、資料分析和處理機器學習計算，Kubernetes也增加了不少擴充功能，資源定製化、控制器定製化，以便對更深度整合這類專屬應用程式。現在熱門的大資料分析平臺Spark在2.3新版中，開始原生支援Kubernetes。可以直接在一個現成K

以yarn client和分散式叢集方式執行spark-2.3.2-bin-hadoop2.6

一以分散式叢集執行修改配置檔案/hadoop_opt/spark-2.3.2-bin-hadoop2.6/conf/spark-env.sh export HADOOP_CONF_DIR=/hadoop_opt/hadoop-2.6.1/etc/hadoop expo

spark-2.3.2-bin-hadoop2.6執行在yarn client上

修改配置檔案/hadoop_opt/spark-2.3.2-bin-hadoop2.6/conf/spark-env.sh export HADOOP_CONF_DIR=/hadoop_opt/hadoop-2.6.1/etc/hadoop export J

Spark專案之環境搭建（單機）三 scala-2.12.7+ spark-2.3.2-bin-hadoop2.7安裝

上傳scala和spark架包解壓然後重新命名 tar -zxf scala-2.12.7.tgz mv scala-2.12.7 scala tar -zxf spark-2.3.2-bin-hadoop2.7.tgz mv spark-2.3.

Spark 2.3.2原始碼編譯，支援hadoop-2.6.0-cdh5.15.0

前置準備&軟體安裝 spark2.3.2原始碼官方Apache下載地址： http://spark.apache.org/downloads.html 編譯spark原始碼的官方Apache參考文件 http://spark.apache.org/docs/2.3.2/b

CentOS 7搭建Spark 2.3.2叢集

一、伺服器叢集伺服器安裝內容 node-i scala-2.12.7; spark-2.3.2 node-ii scala-2.12.7; spark-2.3.2 node-iii scala-2.12.7; spark-2.3.2

EQueue 2.3.2版本釋出（支援高可用）

前言前段時間針對EQueue的完善終於告一段落了，實在值得慶祝，自己的付出和堅持總算有了成果。這次新版本主要為EQueue實現了叢集功能，基本實現了Broker的高可用。另外還增加了很多實用的功能，對效能也做了很多優化。總之，EQueue越來越成熟了。 EQueue最新版本資訊版本釋出說明

Spark Streaming 2.3.2整合Flume

導讀：在Spark Streaming整合Flume文件中，官方提供兩種方式，push和pull Flume是Spark Streaming的高階資料來源之一直達車 Spark Streaming整合Flume官方文件直達車如果你對Flume不熟悉，這裡是我記

Apache Bahir 2.3.2 釋出，分散式分析平臺覆蓋拓展

Apache Bahir 為多個分散式分析平臺（如 Apache Spark 和 Apache Flink ）提供擴充套件，通過各種流聯結器和 SQL 資料來源擴充套件其範圍。 Apache Bahir 2.3.2 為 A

Apache CouchDB 2.3.0 釋出，文件資料庫

Apache CouchDB 2.3.0 已釋出，Apache CouchDB 是一個面向文件的資料庫管理系統。它提供以 JSON 作為資料格式的 REST 介面來對其進行操作，並可以通過檢視來操縱文件的組織和呈現。CouchDB 是 Apache 基金會的頂級開源專案。

加速版本更新，Nacos 10 天釋出 3 個版本

繼9天前釋出0.6.0版本，支援 Dubbo 和 Docker 部署後，Nacos隨後又釋出了0.6.1和0.7.0版本，網友直呼：真是拼命，昨天看到的還是0.6.0，睡一覺醒來已經是0.7.0版本了。此次釋出的0.7.0，主要解決了以下 issue： [#461] 當

PearDownloader 2.3.6 釋出，多協議、多源、混合 P2P-CDN 的下載器

PearDownloader 2.3.6 釋出，更新如下：下載檔案正確性校驗機制加強。降低了資料重複下載率。修復了其他已知bug。點開以下連結體驗PearDownloader的下載加速效果： https://demo.webrtc.win/do

不同版本 2 3 2 4 2 5 3 0 的Servlet web xml 頭資訊

web.xml v2.3 Xml程式碼 <?xml version="1.0" encoding="ISO-8859-1"?> <!DO

GitHub 上 window版本的Redis-x64-3.2.100.zip 下載沒網速以及安裝

GitHub 上 window版本的Redis-x64-3.2.100.zip 下載沒網速，需要上外網，翻牆下載，也可以在百度連結上下載：https://pan.baidu.com/s/1dFJD217; 解壓後目錄如下： 1.redis 啟動開啟一個命令視窗，進入

Keras 2.3.0 釋出：支援TensorFlow 2.0

Keras主要關注tf.keras，同時繼續支援Theano/CNTK 此版本附帶了許多API更改，以使多後端Keras API

.NET Core 3.0 ，WTM 2.3.9釋出

.Net Core 3.0已經來了，WTM怎麼可以落後呢。最新發布的WTM2.3.9版本已經支援.Net Core 3.0啦，現在線上生成專案的時候可以選擇2.2和3.0兩個版本。小夥伴們快來體驗吧。 WTM 2.3.9另一個重大變化是增加了對多語言

Magicodes.IE 2.3重磅釋出——.NET Core開源匯入匯出庫

在2.3這一版本的更新中，我們迎來了眾多的使用者、貢獻者，在這個里程碑中我們也新增並修復了一些功能。對於新特點的功能我將在下面進行詳細的描述，當然也歡迎更多的人可以加入進來，再或者也很期待大家來提issues或者PR，您的一個issue或者PR將是我們前進的動力。公式匯出 #88 公式匯出目前已

[Spark版本更新]--Spark-2.3.2釋出說明

sub-task

bug

new feature

story

improvement

test

doc

相關推薦