1. 程式人生 > >[Spark版本更新]--Spark-2.3.2釋出說明

[Spark版本更新]--Spark-2.3.2釋出說明

2018-09-24 Apache spark又釋出新版本了,看看發行說明:

sub-task

  • SPARK-24976 ] - 允許十進位制型別轉換null(特定於PyArrow 0.9.0)

bug

  • SPARK-23243 ] - 在RDD上隨機廣播+重新分割槽可能導致錯誤答案
  • SPARK-23618 ] - 建立影象時,docker-image-tool.sh失敗
  • SPARK-23731 ] - FileSourceScanExec在子表示式消除中丟擲NullPointerException
  • SPARK-23732 ] - Spark Scala api Scaladoc中scala原始碼的斷開連結
  • SPARK-24216 ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
  • SPARK-24369 ] - 具有多個不同聚合時的錯誤
  • SPARK-24385 ] - Tridially -true EqualNullSafe應該像Dataset.join中的EqualTo一樣處理
  • SPARK-24415 ] - 故障時階段頁面聚合執行程式指標錯誤
  • SPARK-24452 ] - long = int * int或long = int + int可能導致記憶體溢位。
  • SPARK-24468 ] - 當比例為負時,DecimalType“adjustPrecisionScale”可能會失敗
  • SPARK-24495 ] - SortMergeJoin,重複鍵錯誤結果
  • SPARK-24506 ] - Spark.ui.filters未應用於/ sqlserver / url
  • SPARK-24530 ] - Sphinx無法正確呈現autodoc_docstring_signature(使用Python 2?)而pyspark.ml文件已被破壞
  • SPARK-24531 ] - 由於缺少2.2.0版本,HiveExternalCatalogVersionsSuite失敗
  • SPARK-24535 ] - 修復Windows上SparkR中的java版本解析
  • SPARK-24536 ] - 使用無意義的LIMIT查詢命中AssertionError
  • SPARK-24552 ] - 重試階段時重複使用任務嘗試次數
  • SPARK-24578 ] - 讀取遠端快取塊行為更改並導致超時問題
  • SPARK-24583 ] - InsertIntoDataSourceCommand中的架構型別錯誤
  • SPARK-24588 ] - StreamingSymmetricHashJoinExec應該要求兒童使用HashClusteredPartitioning
  • SPARK-24589 ] - OutputCommitCoordinator可能允許重複提交
  • SPARK-24603 ] - Typo評論
  • SPARK-24613 ] - 使用UDF的快取無法與後續的依賴快取匹配
  • SPARK-24704 ] - DAG圖表中的階段順序不正確
  • SPARK-24739 ] - PySpark不適用於Python 3.7.0
  • SPARK-24781 ] - 在過濾/排序中使用資料集中的引用可能不起作用。
  • SPARK- 24809] - 在執行程式中序列化LongHashedRelation可能會導致資料錯誤
  • SPARK-24813 ] - HiveExternalCatalogVersionsSuite仍然片狀; 迴歸Apache檔案
  • SPARK-24867 ] - 將AnalysisBarrier新增到DataFrameWriter
  • SPARK-24879 ] - 用於`partCol IN(NULL,....)的Hive分割槽過濾器下推中的NPE
  • SPARK-24889 ] - dataset.unpersist()不更新儲存記憶體統計資訊
  • SPARK-24891 ] - 修復HandleNullInputsForUDF規則
  • SPARK-24908 ] - [R]刪除空格以使得快樂
  • SPARK-24909 ] - 當獲取失敗,執行程式丟失,丟失執行程式上的任務執行以及多個階段嘗試時,Spark排程程式可能會掛起
  • SPARK-24927 ] - hadoop提供的配置檔案與Snappy壓縮的Parquet檔案不相容
  • SPARK-24934 ] - 由於缺少上/下限情況,記憶體中分割槽修剪中的複雜型別和二進位制型別不起作用
  • SPARK-24948 ] - 由於許可權檢查,SHS錯誤地過濾了某些應用程式
  • SPARK-24950 ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失敗w / java 8 181-b13
  • SPARK-24957 ] - 使用codegen,十進位制算術可能導致錯誤的值
  • SPARK-24987 ] - Kafka快取的消費者洩漏檔案描述符
  • SPARK-25028 ] - 如果值為null,則AnalyzePartitionCommand因NPE失敗
  • SPARK-25051 ] - 資料集的where子句給出了AnalysisException
  • SPARK-25076 ] - 不應從已停止的SparkSession中檢索SQLConf
  • SPARK-25084 ] - 在多列上“分發”可能會導致程式碼問題
  • SPARK-25114 ] - 當兩個單詞之間的減法可被Integer.MAX_VALUE整除時,RecordBinaryComparator可能會返回錯誤的結果
  • SPARK-25124 ] - VectorSizeHint.size是錯誤的,打破了流媒體管道
  • SPARK-25144 ] - 由於檢測到託管記憶體洩漏,資料集上的不同導致異常
  • SPARK-25164 ] - Parquet閱讀器為每列構建一次完整的列列表
  • SPARK-25205 ] - spark.network.crypto.keyFactoryIteration中的拼寫錯誤
  • SPARK-25231 ] - 執行大型作業並進行猜測導致執行器心跳超時在驅動程式上
  • SPARK-25313 ] - 修復FileFormatWriter輸出模式中的迴歸
  • SPARK-25330 ] - 將hadoop版本升級到2.7.7後的許可權問題
  • SPARK-25357 ] - 向SparkPlanInfo新增元資料以將更多資訊(如檔案路徑)轉儲到事件日誌
  • SPARK-25368 ] - 不正確的約束推斷返回錯誤的結果
  • SPARK-25371 ] - 沒有輸入列的向量彙編程式導致不透明錯誤
  • SPARK-25402 ] - BooleanSimplification中的空值處理

new feature

  • SPARK-24542 ] - Hive UDF系列UDFXPathXXXX允許使用者通過精心設計的XML來訪問任意檔案

story

  • SPARK-25234 ] - SparkR ::: parallelize不能正確處理整數溢位

improvement

  • SPARK-24455 ] - 修復TaskSchedulerImpl評論中的拼寫錯誤
  • SPARK-24696 ] - ColumnPruning規則無法刪除額外的Project
  • SPARK-25400 ] - 在schedulerIntegrationSuite中增加超時

test

  • SPARK-24502 ] - 片狀測試:UnsafeRowSerializerSuite
  • SPARK-24521 ] - 修復CachedTableSuite中的無效測試
  • SPARK-24564 ] - 為RecordBinaryComparator新增測試套件

doc

  • SPARK-24507 ] - “Spark Streaming Programming Guide”中“資料接收中的並行度級別”部分中的描述與最近的Kafka直接應用程式無關
  • SPARK-25273 ] - 如何安裝testthat v1.0.2

 

參考:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12343289