1. 程式人生 > >[Spark版本更新]--Spark-2.4.0 釋出說明

[Spark版本更新]--Spark-2.4.0 釋出說明

2018-11-02 Apache Spark 官方釋出了 2.4.0版本,以下是 Release Notes,供參考: 

Sub-task

  • SPARK-6236 ] - 支援大於2G的快取塊
  • SPARK-6237 ] - 支援上傳塊> 2GB作為流
  • SPARK-10884 ] - 支援針對迴歸和分類相關模型的單例項預測
  • SPARK-11239 ] - 用於ML線性迴歸的PMML匯出
  • SPARK-12850 ] - 支援桶修剪(對於分塊表的謂詞下推)
  • SPARK-14376 ] - 樹木的spark.ml奇偶校驗
  • SPARK-14540 ] - 在ClosureCleaner中支援Scala 2.12閉包和Java 8 lambda
  • SPARK-17091 ] - 將IN謂詞轉換為等效的Parquet過濾器
  • SPARK-19826 ] - 用於PIC的spark.ml Python API
  • SPARK-20114 ] - 用於順序模式挖掘的spark.ml奇偶校驗 - PrefixSpan
  • SPARK-
     21088] - CrossValidator,TrainValidationSplit應該在擬合時收集所有模型:Python API
  • SPARK-21898 ] - MLlib中KolmogorovSmirnovTest的特徵奇偶校驗
  • SPARK-22187 ] - 更新已儲存狀態的unsaferow格式,以便在state為null時設定超時
  • SPARK-22239 ] - 使用者定義的視窗函式,帶有pandas udf(無界視窗)
  • SPARK-22274 ] - 使用者定義的聚合函式與pandas udf
  • SPARK-22362 ] - 為視窗聚合函式新增單元測試
  • SPARK-22624 ] - 由SPARK- 22614引入的曝光範圍分割槽隨機播放
  • SPARK-23011 ] - 支援具有組聚合熊貓UDF的替代功能表單
  • SPARK-23030 ] - 使用箭頭使用toPandas()集合減少記憶體消耗
  • SPARK-23046 ] - RFormula包含VectorSizeHint管道
  • SPARK-23096 ] - 將速率源遷移到v2
  • SPARK-23097 ] - 將文字套接字源遷移到v2
  • SPARK-23099 ] - 遷移foreach接收器
  • SPARK-23120 ] - 向PySpark新增PMML管道匯出支援
  • SPARK-23203 ] - DataSourceV2應該使用不可變樹。
  • SPARK-23323 ] - DataSourceV2應使用輸出提交協調器。
  • SPARK-23325 ] - DataSourceV2讀者應始終生成InternalRow。
  • SPARK-23341 ] - DataSourceOptions應處理路徑和表名以避免混淆。
  • SPARK-23344 ] - 將KMeans distanceMeasure param新增到PySpark
  • SPARK-23352 ] - 在Pandas UDF中明確指定支援的類​​型
  • SPARK-23362 ] - 將Kafka 微量滴定源遷移至v2
  • SPARK-23380 ] - 使用Pandas DataFrame為toPandas / createDataFrame中的箭頭回退新增一個conf
  • SPARK-23401 ] - 改進所有支援型別和不支援型別的測試用例
  • SPARK-23418 ] - 如果沒有ReadSupportWithSchema,DataSourceV2不應允許userSpecifiedSchema
  • SPARK-23491 ] - 連續症狀
  • SPARK-23503 ] - 連續執行應該對提交的時期進行排序
  • SPARK-23555 ] - 在PySpark中為Arrow新增BinaryType支援
  • SPARK-23559 ] - 將epoch ID新增到資料編寫器工廠
  • SPARK-23577 ] - 支援文字資料來源的行分隔符
  • SPARK-23581 ] - 新增GenerateUnsafeProjection的解釋版本
  • SPARK-23582 ] - 將解釋執行新增到StaticInvoke表示式
  • SPARK-23583 ] - 將解釋執行新增到Invoke表示式
  • SPARK-23584 ] - 將解釋執行新增到NewInstance表示式
  • SPARK-23585 ] - 為UnwrapOption表示式新增解釋執行
  • SPARK-23586 ] - 為WrapOption表示式新增解釋執行
  • SPARK-23587 ] - 為MapObjects表示式新增解釋執行
  • SPARK-23588 ] - 為CatalystToExternalMap表示式新增解釋執行
  • SPARK-23589 ] - 為ExternalMapToCatalyst表示式新增解釋執行
  • SPARK-23590 ] - 為CreateExternalRow表示式新增解釋執行
  • SPARK-23591 ] - 為EncodeUsingSerializer表示式新增解釋執行
  • SPARK- 23592] - 為DecodeUsingSerializer表示式新增解釋執行
  • SPARK-23593 ] - 為InitializeJavaBean表示式新增解釋執行
  • SPARK-23594 ] - 為GetExternalRowField表示式新增解釋執行
  • SPARK-23595 ] - 為ValidateExternalType表示式新增解釋執行
  • SPARK-23596 ] - 修改資料集測試工具以包括解釋執行
  • SPARK-23597 ] - 針對非解釋表示式的Audit Spark SQL程式碼庫
  • SPARK-23611 ] - 擴充套件ExpressionEvalHelper線束以測試故障
  • SPARK-23615 ] - 將maxDF引數新增到Python CountVectorizer
  • SPARK-23633 ] - 在sql-programming-guide中更新Pandas UDFs部分
  • SPARK-23687 ] - 新增MemoryStream
  • SPARK-23688 ] - 重構測試遠離費率來源
  • SPARK-23690 ] - VectorAssembler應該有handleInvalid來處理具有空值的列
  • SPARK-23706 ] - spark.conf.get(value,default = None)應該在PySpark中產生None
  • SPARK-23711 ] - 向已解釋的執行邏輯添加回退
  • SPARK- 23713] - 清理UnsafeWriter類
  • SPARK-23723 ] - json資料來源的新編碼選項
  • SPARK-23724 ] - 不同於UTF-8的字符集中jsons的自定義記錄分隔符
  • SPARK-23727 ] - 支援DATE預測壓下鑲木地板
  • SPARK-23736 ] - 高階函式:concat(array1,array2,...,arrayN)→陣列
  • SPARK-23747 ] - 新增EpochCoordinator單元測試
  • SPARK-23748 ] - 支援從臨時表中選擇
  • SPARK-23762 ] - UTF8StringBuilder使用MemoryBlock
  • SPARK-23765 ] - 支援json資料來源的行分隔符
  • SPARK-23783 ] - 為ML管道新增新的通用匯出特性
  • SPARK-23807 ] - 新增Hadoop 3配置檔案以及相關的POM修復程式
  • SPARK-23821 ] - 高階函式:展平(x)→陣列
  • SPARK-23826 ] - TestHiveSparkSession應設定預設會話
  • SPARK-23847 ] - 將asc_nulls_first,asc_nulls_last新增到PySpark
  • SPARK-23859 ] - 儀表改進的初始PR:UUID和日誌記錄級別
  • SPARK-23864 ] - 將不安全*複製方法新增到UnsafeWriter
  • SPARK-23870 ] - 將RFormula handleInvalid Param轉發給VectorAssembler
  • SPARK-23871 ] - 為VectorAssembler handleInvalid新增python api
  • SPARK- 23900] - format_number udf應將使用者指定的格式作為引數
  • SPARK-23902 ] - 在UDF之間的months_中提供一個選項以禁用舍入
  • SPARK-23903 ] - 新增對日期提取的支援
  • SPARK-23905 ] - 工作日新增UDF
  • SPARK-23908 ] - 高階函式:transform(array <T>,function <T,U>)→array <U>
  • SPARK-23909 ] - 高階函式:filter(array <T>,function <T,boolean>)→array <T>
  • SPARK-23911 ] - 高階函式:aggregate(array <T>,initialState S,inputFunction <S,T,S>,outputFunction <S,R>)→R
  • SPARK-23912 ] - 高階函式:array_distinct(x)→陣列
  • SPARK-23913 ] - 高階函式:array_intersect(x,y)→陣列
  • SPARK-23914 ] - 高階函式:array_union(x,y)→陣列
  • SPARK-23915 ] - 高階函式:array_except(x,y)→陣列
  • SPARK-23916 ] - 高階函式:array_join(x,delimiter,null_replacement)→varchar
  • SPARK-23917 ] - 高階函式:array_max(x)→x
  • SPARK-23918 ] - 高階函式:array_min(x)→x
  • SPARK-23919 ] - 高階函式:array_position(x,element)→bigint
  • SPARK-23920 ] - 高階函式:array_remove(x,element)→陣列
  • SPARK-23921 ] - 高階函式:array_sort(x)→陣列
  • SPARK-23922 ] - 高階函式:arrays_overlap(x,y)→布林值
  • SPARK-23923 ] - 高階函式:基數(x)→bigint
  • SPARK-23924 ] - 高階函式:element_at
  • SPARK-23925 ] - 高階函式:重複(元素,計數)→陣列
  • SPARK-23926 ] - 高階函式:反向(x)→陣列
  • SPARK-23927 ] - 高階函式:序列
  • SPARK-23928 ] - 高階函式:shuffle(x)→陣列
  • SPARK-23930 ] - 高階函式:切片(x,開始,長度)→陣列
  • SPARK-23931 ] - 高階函式:array_zip(array1,array2 [,...])→陣列<row>
  • SPARK-23932 ] - 高階函式:zip_with(陣列<T>,陣列<U>,函式<T,U,R>)→陣列<R>
  • SPARK-23933 ] - 高階函式:map(陣列<K>,陣列<V>)→map <K,V>
  • SPARK-23934 ] - 高階函式:map_from_entries(array <row <K,V >>)→map <K,V>
  • SPARK-23936 ] - 高階函式:map_concat(map1 <K,V>,map2 <K,V>,...,mapN <K,V>)→map <K,V>
  • SPARK-23942 ] - PySpark的collect不會觸發QueryExecutionListener
  • SPARK-23990 ] - 儀器記錄改進 - ML迴歸包
  • SPARK-24026 ] - 用於PIC的spark.ml Scala / Java API
  • SPARK-24038 ] - 重構連續寫exec到自己的類
  • SPARK-24039 ] - 刪除重啟迭代器hack
  • SPARK-24040 ] - 支援單分割槽聚合
  • SPARK-24054 ] - 新增array_position函式/ element_at函式
  • SPARK-24069 ] - 新增array_max / array_min函式
  • SPARK-24070 ] - 用於Parquet 1.10.0升級的TPC-DS效能測試
  • SPARK-24071 ] - 木地板過濾器下推的微觀基準
  • SPARK-24073 ] - DataSourceV2:將DataReaderFactory重新命名為InputPartition。
  • SPARK-24115 ] - 改進spark.ml.tuning的儀器
  • SPARK-24119 ] - 將解釋執行新增到SortPrefix表示式
  • SPARK-24132 ] - 用於分類的儀表改進
  • SPARK-24146 ] - 用於順序模式挖掘的spark.ml奇偶校驗 - PrefixSpan:Python API
  • SPARK-24155 ] - 用於聚類的儀表改進
  • SPARK-24157 ] - 為流聚合和重複資料刪除啟用無資料微批
  • SPARK-24158 ] - 為流連線啟用無資料微批量
  • SPARK-24159 ] - 為流式傳輸mapGroupswithState啟用無資料微批量
  • SPARK-24185 ] - 增加拼合功能
  • SPARK-24186 ] - 新增array_reverse和concat
  • SPARK-24187 ] - 新增array_join
  • SPARK-24197 ] - 新增array_sort函式
  • SPARK-24198 ] - 新增切片功能
  • SPARK-24234 ] - 使用行緩衝區建立任務底部RDD
  • SPARK-24235 ] - 建立任務頂級RDD,將行傳送到遠端緩衝區
  • SPARK-24251 ] - DataSourceV2:新增AppendData邏輯運算
  • SPARK-24290 ] - 檢測改進:使用陣列型別新增logNamedValue
  • SPARK-24296 ] - 支援複製大於2 GB的塊
  • SPARK-24297 ] - 將spark.maxRemoteBlockSizeFetchToMem的預設值更改為<2GB
  • SPARK-24307 ] - 支援從記憶體傳送超過2GB的訊息
  • SPARK-24310 ] - 頻繁模式挖掘的儀器
  • SPARK-24324 ] - Pandas Grouped Map UserDefinedFunction混合列標籤
  • SPARK-24325 ] - 測試Hadoop的LinesReader
  • SPARK-24331 ] - 新增arrays_overlap / array_repeat / map_entries
  • SPARK-24334 ] - ArrowPythonRunner中的競爭條件導致Arrow記憶體分配器的不正常關閉
  • SPARK-24386 ] - 實施連續加工合併(1)
  • SPARK-24418 ] - 升級到Scala 2.11.12
  • SPARK-24419 ] - 使用Scala 2.10.7將SBT升級到0.13.17
  • SPARK-24420 ] - 將ASM升級到6.x以支援JDK9 +
  • SPARK-24439 ] - 將距離測量新增到PySpark中的BisectingKMeans
  • SPARK-24478 ] - DataSourceV2應在物理計劃轉換時推送過濾器和投影
  • SPARK-24537 ] - 新增array_remove / array_zip / map_from_arrays / array_distinct
  • SPARK-24549 ] - 支援DecimalType下推到鑲木地板資料來源
  • SPARK-24624 ] - 無法混合向量化和非向量化UDF
  • SPARK-24638 ] - StringStartsWith支援下推
  • SPARK-24706 ] - 支援ByteType和ShortType下推到鑲木地板
  • SPARK-24716 ] - 重構ParquetFilters
  • SPARK-24718 ] - 時間戳支援下推到鑲木地板資料來源
  • SPARK-24771 ] - 將AVRO版本從1.7.7升級到1.8.2
  • SPARK-24772 ] - 支援讀取AVRO邏輯型別 - 日期
  • SPARK-24773 ] - 支援讀取AVRO邏輯型別 - 具有不同精度的時間戳
  • SPARK-24774 ] - 支援讀取AVRO邏輯型別 - 十進位制
  • SPARK-24776 ] - AVRO單元測試:使用SQLTestUtils和Replace棄用方法
  • SPARK-24777 ] - 為AVRO新增寫入基準
  • SPARK-24800 ] - 重構Avro序列器和解串器
  • SPARK-24805 ] - 預設情況下,不要忽略沒有.avro副檔名的檔案
  • SPARK-24810 ] - 修復AvroSuite中資原始檔的路徑
  • SPARK- 24811] - 新增函式`from_avro`和`to_avro`
  • SPARK-24836 ] - 新選項 - ignoreExtension
  • SPARK-24854 ] - 將所有選項收集到AvroOptions中
  • SPARK-24876 ] - 簡化架構序列化
  • SPARK-24881 ] - 新選項 - 壓縮和壓縮級別
  • SPARK-24883 ] - 刪除隱式類AvroDataFrameWriter / AvroDataFrameReader
  • SPARK-24887 ] - 在Spark util中使用SerializableConfiguration
  • SPARK-24924 ] - 為內建Avro資料來源新增對映
  • SPARK-24967 ] - 使用internal.Logging代替記錄
  • SPARK-24971 ] - 刪除SupportsDeprecatedScanRow
  • SPARK-24976 ] - 允許十進位制型別轉換無(特定於PyArrow 0.9.0)
  • SPARK-24990 ] - 合併ReadSupport和ReadSupportWithSchema
  • SPARK-24991 ] - 在DataSourceWriter中使用InternalRow
  • SPARK-25002 ] - Avro:修改輸出記錄名稱空間
  • SPARK-25007 ] - 將array_intersect / array_except / array_union / array_shuffle新增到SparkR
  • SPARK-25029 ] - Scala 2.12問題:TaskNotSerializable和Janino“兩個非抽象方法......”錯誤
  • SPARK-25044 ] - 在Scala 2.12中將LMF閉包原語args的地址轉換為Object
  • SPARK-25047 ] - 在BucketedRandomProjectionLSHModel的反序列化中無法將SerializedLambda分配給scala.Function1
  • SPARK-25068 ] - 高階函式:存在(陣列<T>,函式<T,布林值>)→布林值
  • SPARK-25099 ] - 在測試套件中生成Avro二進位制檔案
  • SPARK-25104 ] - 驗證使用者指定的輸出模式
  • SPARK-25127 ] - DataSourceV2:刪除SupportsPushDownCatalystFilters
  • SPARK-25133 ] - Documentaion:AVRO資料來源指南
  • SPARK-25160 ] - 刪除sql配置spark.sql.avro.outputTimestampType
  • SPARK-25179 ] - 記錄需要Pyarrow 0.10的功能
  • SPARK-25207 ] - 讀取Parquet時濾波器下推的不區分大小寫欄位解析度
  • SPARK-25256 ] - 計劃2.12中Hive測試中的不匹配錯誤
  • SPARK-25298 ] - Scala 2.12的spark-tools構建失敗
  • SPARK-25304 ] - 為Scala 2.12啟用HiveSparkSubmitSuite SPARK-8489測試
  • SPARK-25320 ] - ML,圖2.4 QA:API:二進位制不相容的更改
  • SPARK-25321 ] - ML,圖2.4 QA:API:新的Scala API,docs
  • SPARK-25324 ] - ML 2.4 QA:API:Java相容性,文件
  • SPARK-25328 ] - 新增一個示例,將兩列作為組聚合pandas UDF中的分組鍵
  • SPARK-25337 ] - HiveExternalCatalogVersionsSuite + Scala 2.12 = NoSuchMethodError:org.apache.spark.sql.execution.datasources.FileFormat。$ init $(Lorg / apache / spark / sql / execution / datasources / FileFormat;)
  • SPARK-25460 ] - DataSourceV2:結構化流媒體不尊重SessionConfigSupport
  • SPARK-25601 ] - 為SQL語句註冊Grouped聚合UDF向量化UDF
  • SPARK-25690 ] - 分析器規則“HandleNullInputsForUDF”不穩定,可以無限應用
  • SPARK-25718 ] - 檢測Avro架構中的遞迴引用並丟擲異常
  • SPARK-25842 ] - 棄用SPARK-21608中引入的API

Bug

  • SPARK-6951 ] - 如果事件日誌目錄很大,則歷史伺服器啟動緩慢
  • SPARK-10878 ] - 通過Ivy解決Maven座標時的競爭條件
  • SPARK-15125 ] - CSV資料來源將輸入中的空引用字串識別為空。
  • SPARK-15750 ] - 在pyspark中未指定numPartitions時,構造FPGrowth失敗
  • SPARK-16451 ] - 當“SaslException:GSS啟動失敗”被擊中時,Spark-shell / pyspark應該正常完成
  • SPARK-17088 ] - 當sharesHadoopClasses為false時,IsolatedClientLoader無法載入Hive客戶端
  • SPARK-17147 ] - Spark Streaming Kafka 0.10 Consumer無法處理非連續偏移(即Log Compaction)
  • SPARK-17166 ] - 轉換為資料來源表後,CTAS丟失了表屬性。
  • SPARK-17756 ] - 使用帶有DStream.transform的笛卡兒時的java.lang.ClassCastException
  • SPARK-17916 ] - 無論nullValue選項是什麼,CSV資料來源都將空字串視為空
  • SPARK-18371 ] - Spark Streaming backpressure bug - 生成一個包含大量記錄的批處理
  • SPARK-18630 ] - PySpark ML記憶體洩漏
  • SPARK-19181 ] - 當average executorDeserializeTime太短時,SparkListenerSuite.local指標失敗。
  • SPARK-19185 ] - 視窗化時與CachedKafkaConsumers的ConcurrentModificationExceptions
  • SPARK-19613 ] - 片狀測試:StateStoreRDDSuite
  • SPARK-20947 ] - PySpark管道實現中的編碼/解碼問題
  • SPARK-21168 ] - KafkaRDD應該始終設定kafka clientId。
  • SPARK-21402 ] - 修復結構反序列化的java陣列
  • SPARK-21479 ] - 當條件位於其中一個連線列上時,外部連線過濾器下推空值提供表
  • SPARK-21525 ] - ReceiverSupervisorImpl在寫入WAL時似乎忽略了錯誤程式碼
  • SPARK-21673 ] - 未正確設定Spark本地目錄
  • SPARK-21685 ] - 在pyspark中由_setDefault觸發的scala變換器中的Params設定
  • SPARK-21743 ] - 最高限制不應導致記憶體洩漏
  • SPARK-21811 ] - 查詢DateType,StringType和NumericType組合的最廣泛常見型別時的不一致
  • SPARK-21896 ] - 當視窗函式巢狀在聚合函式內時,Stack Overflow
  • SPARK-21945 ] - pyspark --py-files在紗線客戶端模式下不起作用
  • SPARK-22151 ] - 未正確從spark.yarn.appMasterEnv中拾取PYTHONPATH
  • SPARK-22279 ] - 預設開啟spark.sql.hive.convertMetastoreOrc
  • SPARK-22297 ] - Flaky測試:BlockManagerSuite“Shuffle registration timeout和maxAttempts conf”
  • SPARK-22357 ] - SparkContext.binaryFiles忽略minPartitions引數
  • SPARK-22371 ] - dag-scheduler-event-loop執行緒因錯誤而停止嘗試訪問垃圾回收累加器5605982
  • SPARK-22384 ] - 在Cast中包含屬性時優化分割槽修剪
  • SPARK-22430 ] - 使用Roxygen 6.0.1構建R docs時出現未知標記警告
  • SPARK-22577 ] - 執行程式頁面黑名單狀態應使用TaskSet級別黑名單進行更新
  • SPARK-22676 ] - 當spark.sql.hive.verifyPartitionPath = true時,避免迭代所有分割槽路徑
  • SPARK-22713 ] - 由TaskMemoryManager中的記憶體爭用和記憶體洩漏引起的OOM
  • SPARK-22809 ] - pyspark對帶點的進口很敏感
  • SPARK-22949 ] - 降低TrainValidationSplit的記憶體要求
  • SPARK-22968 ] - java.lang.IllegalStateException:沒有分割槽kssh-2的當前分配
  • SPARK-22974 ] - CountVectorModel不會將屬性附加到輸出列
  • SPARK-23004 ] - 結構化流引發“llegalStateException:在已經提交或中止後無法刪除”
  • SPARK-23007 ] - 為基於檔案的資料來源新增模式演化測試套件
  • SPARK-23020 ] - 重新啟用Flaky Test:org.apache.spark.launcher.SparkLauncherSuite.testInProcessLauncher
  • SPARK-23028 ] - 將主分支版本轉換為2.4.0-SNAPSHOT
  • SPARK-23038 ] - 更新docker / spark-test(JDK / OS)
  • SPARK-23042 ] - 使用OneHotEncoderModel對MultilayerPerceptronClassifier中的標籤進行編碼
  • SPARK-23044 ] - 合併指令碼在將jiras分配給非貢獻者時有錯誤
  • SPARK-23059 ] - 使用與檢視相關的方法用法糾正一些不當行為
  • SPARK-23088 ] - 歷史記錄伺服器未顯示不完整/正在執行的應用程式
  • SPARK-23094 ] - 當存在錯誤記錄並且失敗時,Json讀者選擇錯誤的編碼
  • SPARK-23152 ] - org.apache.spark.ml.classification.Classifier中的保護條件無效
  • SPARK- 23173] - from_json可以為標記為不可為空的欄位生成空值
  • SPARK-23189 ] - 反映執行者選項卡上的階段級別黑名單
  • SPARK-23200 ] - 從檢查點重新啟動時重置配置
  • SPARK- 23240] - 當pyspark.daemon產生偽造的stdout時,PythonWorkerFactory發出無用的訊息
  • SPARK-23243 ] - 在RDD上隨機播放+重新分割槽可能導致錯誤答案
  • SPARK-23271 ] - 空白DataFrame儲存後,Parquet輸出僅包含“_SUCCESS”檔案
  • SPARK-23288 ] - 結構化流式傳輸中寫入記錄的數量不正確
  • SPARK-23291 ] - SparkR:substr:在SparkR資料幀中,當位置大於1時,“substr”中的起始和結束位置引數給出錯誤的結果
  • SPARK-23306 ] - TaskMemoryManager中的競爭條件
  • SPARK-23340 ] - 將Apache ORC升級到1.4.3
  • SPARK-23355 ] - convertMetastore不應忽略表屬性
  • SPARK-23361 ] - 如果在應用提交後7天內發生驅動程式重啟失敗
  • SPARK-23365 ] - 在落後任務中失敗的DynamicAllocation可能導致掛起的火花作業
  • SPARK-23377 ] - Bucketizer具有多列永續性錯誤
  • SPARK-23394 ] - 儲存資訊的快取分割槽不考慮複製(但sc.getRDDStorageInfo確實如此)
  • SPARK-23405 ] - 當一張小桌子半連線一張大桌子時,任務將結束通話
  • SPARK-23406 ] - 流媒體自連線不起作用
  • SPARK-23408 ] - 片狀測試:StreamingOuterJoinSuite.left外部早期狀態排除在右側
  • SPARK-23415 ] - BufferHolderSparkSubmitSuite是片狀的
  • SPARK-23416 ] - Flaky測試:KafkaSourceStressForDontFailOnDataLossSuite.stress測試failOnDataLoss = false
  • SPARK-23417 ] - pyspark測試給出錯誤的sbt指令
  • SPARK-23425 ] - 使用萬用字元使用的hdfs檔案路徑的載入資料無法正常工作
  • SPARK-23433 ] - java.lang.IllegalStateException:階段的多個活動taskSet
  • SPARK-23434 ] - Spark不應警告“元資料目錄”以獲取HDFS檔案路徑
  • SPARK-23436 ] - 不正確的日期列分割槽發現中的推斷
  • SPARK-23438 ] - 當驅動程式崩潰時,DStreams可能會在啟用WAL時丟失塊
  • SPARK-23449 ] - 在Docker上下文中,額外的java選項會丟失順序
  • SPARK-23457 ] - 首先為ParquetFileFormat註冊任務完成偵聽器
  • SPARK-23459 ] - 在分割槽列中指定未知列時改進錯誤訊息
  • SPARK-23461 ] - 小插曲應包括某些ML模型的模型預測
  • SPARK-23462 ] - 改進`StructType`中的錯誤訊息
  • SPARK-23476 ] - Spark無法在本地模式下啟動並啟用身份驗證
  • SPARK-23486 ] - LookupFunctions不應多次檢查相同的函式名稱
  • SPARK-23489 ] - 片狀測試:HiveExternalCatalogVersionsSuite
  • SPARK-23490 ] - 使用CreateTable中的現有表檢查storage.locationUri
  • SPARK-23496 ] - 合併分割槽的位置可能會因輸入分割槽的順序而嚴重偏斜
  • SPARK- 23508] - BlockManagerId中的blockManagerIdCache可能會導致oom
  • SPARK-23514 ] - 用spark.sessionState.newHadoopConf()替換spark.sparkContext.hadoopConfiguration
  • SPARK-23522 ] - pyspark應該始終使用sys.exit而不是退出
  • SPARK-23523 ] - 規則OptimizeMetadataOnlyQuery導致的結果不正確
  • SPARK-23524 ] - 不應檢查大型本地隨機塊是否存在損壞。
  • SPARK-23525 ] - ALTER TABLE CHANGE COLUMN不適用於外部蜂巢表
  • SPARK-23547 ] - 在Hive會話關閉時清除.pipeout檔案
  • SPARK-23549 ] - 將timestamp與日期進行比較時,Spark SQL意外行為
  • SPARK-23551 ] - 從`orc-mapreduce中排除`hadoop-mapreduce-client-core`依賴項
  • SPARK-23569 ] - pandas_udf不適用於帶型別註釋的python函式
  • SPARK-23570 ] - 在HiveExternalCatalogVersionsSuite中新增Spark-2.3
  • SPARK-23574 ] - 資料來源V2掃描中的SinglePartition
  • SPARK- 23598] - WholeStageCodegen可能導致IllegalAccessError呼叫追加HashAggregateExec
  • SPARK-23599 ] - UUID()表示式過於不確定
  • SPARK- 23602] - PrintToStderr在解釋模式下的行為應相同
  • SPARK-23608 ] - SHS需要attachSparkUI和detachSparkUI函式之間的同步
  • SPARK-23614 ] - 使用快取時,Union會產生不正確的結果
  • SPARK-23618 ] - 建立影象時,docker-image-tool.sh失敗
  • SPARK-23620 ] - 使用br標籤拆分執行緒轉儲線
  • SPARK-23623 ] - 避免在CachedKafkaConsumer中同時使用快取的KafkaConsumer(kafka-0-10-sql)
  • SPARK-23630 ] - Spark-on-YARN缺少hadoop配置的使用者自定義
  • SPARK-23635 ] - Spark執行器env變數被同名AM env變數覆蓋
  • SPARK-23637 ] - 如果同一個執行者被多次殺死,紗線可能會分配更多資源。
  • SPARK-23639 ] - 使用代理使用者時,SparkSQL CLI無法與Kerberized Metastore通訊
  • SPARK-23640 ] - Hadoop配置可能會覆蓋spark配置
  • SPARK-23649 ] - 某些UTF-8字元上的CSV架構推斷失敗
  • SPARK-23658 ] - InProcessAppHandle在getLogger中使用了錯誤的類
  • SPARK-23660 ] - 當應用程式很小時,Yarn在群集模式下丟擲異常
  • SPARK-23666 ] - 帶有UDF的不確定列名
  • SPARK-23670 ] - sparkUI中SparkPlanGraphWrapper的記憶體洩漏
  • SPARK-23671 ] - SHS忽略了重播執行緒的數量
  • SPARK-23679 ] - 在YARN上執行時,uiWebUrl顯示不正確的URL
  • SPARK-23680 ] - entrypoint.sh不接受任意UID,作為錯誤返回
  • SPARK-23697 ] - Spark 1.x的累加器不再適用於Spark 2.x.
  • SPARK-23698 ] - Spark程式碼在Python 3中包含許多未定義的名稱
  • SPARK-23729 ] - 全域性解析會破壞檔案/檔案的遠端命名
  • SPARK-23731 ] - FileSourceScanExec在子表示式消除中丟擲NullPointerException
  • SPARK-23732 ] - Spark Scala api Scaladoc中scala原始碼的斷開連結
  • SPARK-23743 ] - IsolatedClientLoader.isSharedClass對`slf4j`關鍵字返回一個未縮排的結果
  • SPARK-23754 ] - Python UDF中的StopIterator異常導致部分結果
  • SPARK-23759 ] - 無法將Spark UI繫結到特定主機名/ IP
  • SPARK-23760 ] - CodegenContext.withSubExprEliminationExprs應正確儲存/恢復CSE狀態
  • SPARK-23775 ] - Flaky測試:DataFrameRangeSuite
  • SPARK-23778 ] - SparkContext.emptyRDD混淆了SparkContext.union
  • SPARK-23780 ] - 無法將googleVis庫與新SparkR一起使用
  • SPARK-23785 ] - LauncherBackend在設定狀態之前不檢查連線狀態
  • SPARK-23786 ] - CSV架構驗證 - 不檢查列名稱
  • SPARK-23787 ] - SparkSubmitSuite ::“如果紗線不支援則下載遠端資源”在Hadoop 2.9上失敗
  • SPARK-23788 ] - StreamingQuerySuite中的競爭條件
  • SPARK-23794 ] - UUID()應該是有狀態的
  • SPARK-23799 ] - [CBO] FilterEstimation.evaluateInSet在空表的情況下產生零除數,並帶有分析的統計資料
  • SPARK-23802 ] - PropagateEmptyRelation可以使查詢計劃處於未解決狀態
  • SPARK-23806 ] - 廣播。與動態分配一起使用時,unpersist可能會導致致命異常
  • SPARK-23808 ] - 測試火花會話應設定預設會話
  • SPARK-23809 ] - 應該通過getOrCreate設定Active SparkSession
  • SPARK-23815 ] - Spark編寫器動態分割槽覆蓋模式無法在多級分割槽上寫入輸出
  • SPARK-23816 ] - 殺死推測任務時的FetchFailedException
  • SPARK-23823 ] - ResolveReferences失去了正確的來源
  • SPARK-23825 ] - [K8s] Spark pod應該請求記憶體+ memoryOverhead作為資源
  • SPARK-23827 ] - StreamingJoinExec應確保輸入資料被分割槽為特定數量的分割槽
  • SPARK-23834 ] - Flaky測試:LauncherServerSuite.testAppHandleDisconnect
  • SPARK-23835 ] - 當Dataset.as將列從可空型別轉換為非可空型別時,null雙打將以靜默方式轉換為-1
  • SPARK-23850 ] - 預設情況下,我們不應該從UI編輯使用者名稱|使用者| url
  • SPARK-23852 ] - Parquet MR錯誤可導致錯誤的SQL結果
  • SPARK-23853 ] - 跳過需要在PySpark中構建的hive支援的doctests
  • SPARK-23857 ] - 在mesos叢集模式下,spark submit要求keytab在本地檔案系統上可用。
  • SPARK-23868 ] - 修復literals.sql.out中的scala.MatchError
  • SPARK-23882 ] - 是否支援UTF8StringSuite.writeToOutputStreamUnderflow()?
  • SPARK-23888 ] - 推測任務不應該在已經執行另一次嘗試的給定主機上執行
  • SPARK-23893 ] - long = int * int可能溢位
  • SPARK-23941 ] - 特定火花應用名稱上的Mesos任務失敗
  • SPARK-23951 ] - 使用ExprValue中的java分類並簡化一堆內容
  • SPARK-23971 ] - 不應在測試套件中洩漏Spark會話
  • SPARK-23975 ] - 允許群集將雙陣列作為輸入要素
  • SPARK-23976 ] - UTF8String.concat()或ByteArray.concat()可能會分配更短的結構。
  • SPARK-23986 ] - 加入後使用過多avg聚合時出現CompileException
  • SPARK-23989 ] - 使用`SortShuffleWrit