[Spark版本更新]--Spark-2.4.0 釋出說明

阿新 • • 發佈：2018-11-09

2018-11-02 Apache Spark 官方釋出了 2.4.0版本，以下是 Release Notes，供參考：

Sub-task

[ SPARK-6236 ] - 支援大於2G的快取塊
[ SPARK-6237 ] - 支援上傳塊> 2GB作為流
[ SPARK-10884 ] - 支援針對迴歸和分類相關模型的單例項預測
[ SPARK-11239 ] - 用於ML線性迴歸的PMML匯出
[ SPARK-12850 ] - 支援桶修剪（對於分塊表的謂詞下推）

[ SPARK-14376 ] - 樹木的spark.ml奇偶校驗
[ SPARK-14540 ] - 在ClosureCleaner中支援Scala 2.12閉包和Java 8 lambda
[ SPARK-17091 ] - 將IN謂詞轉換為等效的Parquet過濾器
[ SPARK-19826 ] - 用於PIC的spark.ml Python API
[ SPARK-20114 ] - 用於順序模式挖掘的spark.ml奇偶校驗 - PrefixSpan
[

SPARK- 21088] - CrossValidator，TrainValidationSplit應該在擬合時收集所有模型：Python API
[ SPARK-21898 ] - MLlib中KolmogorovSmirnovTest的特徵奇偶校驗
[ SPARK-22187 ] - 更新已儲存狀態的unsaferow格式，以便在state為null時設定超時
[ SPARK-22239 ] - 使用者定義的視窗函式，帶有pandas udf（無界視窗）
[ SPARK-22274 ] - 使用者定義的聚合函式與pandas udf

[ SPARK-22362 ] - 為視窗聚合函式新增單元測試
[ SPARK-22624 ] - 由SPARK- 22614引入的曝光範圍分割槽隨機播放
[ SPARK-23011 ] - 支援具有組聚合熊貓UDF的替代功能表單
[ SPARK-23030 ] - 使用箭頭使用toPandas（）集合減少記憶體消耗
[ SPARK-23046 ] - RFormula包含VectorSizeHint管道
[ SPARK-23096 ] - 將速率源遷移到v2
[ SPARK-23097 ] - 將文字套接字源遷移到v2
[ SPARK-23099 ] - 遷移foreach接收器
[ SPARK-23120 ] - 向PySpark新增PMML管道匯出支援
[ SPARK-23203 ] - DataSourceV2應該使用不可變樹。
[ SPARK-23323 ] - DataSourceV2應使用輸出提交協調器。
[ SPARK-23325 ] - DataSourceV2讀者應始終生成InternalRow。
[ SPARK-23341 ] - DataSourceOptions應處理路徑和表名以避免混淆。
[ SPARK-23344 ] - 將KMeans distanceMeasure param新增到PySpark
[ SPARK-23352 ] - 在Pandas UDF中明確指定支援的類型
[ SPARK-23362 ] - 將Kafka 微量滴定源遷移至v2
[ SPARK-23380 ] - 使用Pandas DataFrame為toPandas / createDataFrame中的箭頭回退新增一個conf
[ SPARK-23401 ] - 改進所有支援型別和不支援型別的測試用例
[ SPARK-23418 ] - 如果沒有ReadSupportWithSchema，DataSourceV2不應允許userSpecifiedSchema
[ SPARK-23491 ] - 連續症狀
[ SPARK-23503 ] - 連續執行應該對提交的時期進行排序
[ SPARK-23555 ] - 在PySpark中為Arrow新增BinaryType支援
[ SPARK-23559 ] - 將epoch ID新增到資料編寫器工廠
[ SPARK-23577 ] - 支援文字資料來源的行分隔符
[ SPARK-23581 ] - 新增GenerateUnsafeProjection的解釋版本
[ SPARK-23582 ] - 將解釋執行新增到StaticInvoke表示式
[ SPARK-23583 ] - 將解釋執行新增到Invoke表示式
[ SPARK-23584 ] - 將解釋執行新增到NewInstance表示式
[ SPARK-23585 ] - 為UnwrapOption表示式新增解釋執行
[ SPARK-23586 ] - 為WrapOption表示式新增解釋執行
[ SPARK-23587 ] - 為MapObjects表示式新增解釋執行
[ SPARK-23588 ] - 為CatalystToExternalMap表示式新增解釋執行
[ SPARK-23589 ] - 為ExternalMapToCatalyst表示式新增解釋執行
[ SPARK-23590 ] - 為CreateExternalRow表示式新增解釋執行
[ SPARK-23591 ] - 為EncodeUsingSerializer表示式新增解釋執行
[ SPARK- 23592] - 為DecodeUsingSerializer表示式新增解釋執行
[ SPARK-23593 ] - 為InitializeJavaBean表示式新增解釋執行
[ SPARK-23594 ] - 為GetExternalRowField表示式新增解釋執行
[ SPARK-23595 ] - 為ValidateExternalType表示式新增解釋執行
[ SPARK-23596 ] - 修改資料集測試工具以包括解釋執行
[ SPARK-23597 ] - 針對非解釋表示式的Audit Spark SQL程式碼庫
[ SPARK-23611 ] - 擴充套件ExpressionEvalHelper線束以測試故障
[ SPARK-23615 ] - 將maxDF引數新增到Python CountVectorizer
[ SPARK-23633 ] - 在sql-programming-guide中更新Pandas UDFs部分
[ SPARK-23687 ] - 新增MemoryStream
[ SPARK-23688 ] - 重構測試遠離費率來源
[ SPARK-23690 ] - VectorAssembler應該有handleInvalid來處理具有空值的列
[ SPARK-23706 ] - spark.conf.get（value，default = None）應該在PySpark中產生None
[ SPARK-23711 ] - 向已解釋的執行邏輯添加回退
[ SPARK- 23713] - 清理UnsafeWriter類
[ SPARK-23723 ] - json資料來源的新編碼選項
[ SPARK-23724 ] - 不同於UTF-8的字符集中jsons的自定義記錄分隔符
[ SPARK-23727 ] - 支援DATE預測壓下鑲木地板
[ SPARK-23736 ] - 高階函式：concat（array1，array2，...，arrayN）→陣列
[ SPARK-23747 ] - 新增EpochCoordinator單元測試
[ SPARK-23748 ] - 支援從臨時表中選擇
[ SPARK-23762 ] - UTF8StringBuilder使用MemoryBlock
[ SPARK-23765 ] - 支援json資料來源的行分隔符
[ SPARK-23783 ] - 為ML管道新增新的通用匯出特性
[ SPARK-23807 ] - 新增Hadoop 3配置檔案以及相關的POM修復程式
[ SPARK-23821 ] - 高階函式：展平（x）→陣列
[ SPARK-23826 ] - TestHiveSparkSession應設定預設會話
[ SPARK-23847 ] - 將asc_nulls_first，asc_nulls_last新增到PySpark
[ SPARK-23859 ] - 儀表改進的初始PR：UUID和日誌記錄級別
[ SPARK-23864 ] - 將不安全*複製方法新增到UnsafeWriter
[ SPARK-23870 ] - 將RFormula handleInvalid Param轉發給VectorAssembler
[ SPARK-23871 ] - 為VectorAssembler handleInvalid新增python api
[ SPARK- 23900] - format_number udf應將使用者指定的格式作為引數
[ SPARK-23902 ] - 在UDF之間的months_中提供一個選項以禁用舍入
[ SPARK-23903 ] - 新增對日期提取的支援
[ SPARK-23905 ] - 工作日新增UDF
[ SPARK-23908 ] - 高階函式：transform（array <T>，function <T，U>）→array <U>
[ SPARK-23909 ] - 高階函式：filter（array <T>，function <T，boolean>）→array <T>
[ SPARK-23911 ] - 高階函式：aggregate（array <T>，initialState S，inputFunction <S，T，S>，outputFunction <S，R>）→R
[ SPARK-23912 ] - 高階函式：array_distinct（x）→陣列
[ SPARK-23913 ] - 高階函式：array_intersect（x，y）→陣列
[ SPARK-23914 ] - 高階函式：array_union（x，y）→陣列
[ SPARK-23915 ] - 高階函式：array_except（x，y）→陣列
[ SPARK-23916 ] - 高階函式：array_join（x，delimiter，null_replacement）→varchar
[ SPARK-23917 ] - 高階函式：array_max（x）→x
[ SPARK-23918 ] - 高階函式：array_min（x）→x
[ SPARK-23919 ] - 高階函式：array_position（x，element）→bigint
[ SPARK-23920 ] - 高階函式：array_remove（x，element）→陣列
[ SPARK-23921 ] - 高階函式：array_sort（x）→陣列
[ SPARK-23922 ] - 高階函式：arrays_overlap（x，y）→布林值
[ SPARK-23923 ] - 高階函式：基數（x）→bigint
[ SPARK-23924 ] - 高階函式：element_at
[ SPARK-23925 ] - 高階函式：重複（元素，計數）→陣列
[ SPARK-23926 ] - 高階函式：反向（x）→陣列
[ SPARK-23927 ] - 高階函式：序列
[ SPARK-23928 ] - 高階函式：shuffle（x）→陣列
[ SPARK-23930 ] - 高階函式：切片（x，開始，長度）→陣列
[ SPARK-23931 ] - 高階函式：array_zip（array1，array2 [，...]）→陣列<row>
[ SPARK-23932 ] - 高階函式：zip_with（陣列<T>，陣列<U>，函式<T，U，R>）→陣列<R>
[ SPARK-23933 ] - 高階函式：map（陣列<K>，陣列<V>）→map <K，V>
[ SPARK-23934 ] - 高階函式：map_from_entries（array <row <K，V >>）→map <K，V>
[ SPARK-23936 ] - 高階函式：map_concat（map1 <K，V>，map2 <K，V>，...，mapN <K，V>）→map <K，V>
[ SPARK-23942 ] - PySpark的collect不會觸發QueryExecutionListener
[ SPARK-23990 ] - 儀器記錄改進 - ML迴歸包
[ SPARK-24026 ] - 用於PIC的spark.ml Scala / Java API
[ SPARK-24038 ] - 重構連續寫exec到自己的類
[ SPARK-24039 ] - 刪除重啟迭代器hack
[ SPARK-24040 ] - 支援單分割槽聚合
[ SPARK-24054 ] - 新增array_position函式/ element_at函式
[ SPARK-24069 ] - 新增array_max / array_min函式
[ SPARK-24070 ] - 用於Parquet 1.10.0升級的TPC-DS效能測試
[ SPARK-24071 ] - 木地板過濾器下推的微觀基準
[ SPARK-24073 ] - DataSourceV2：將DataReaderFactory重新命名為InputPartition。
[ SPARK-24115 ] - 改進spark.ml.tuning的儀器
[ SPARK-24119 ] - 將解釋執行新增到SortPrefix表示式
[ SPARK-24132 ] - 用於分類的儀表改進
[ SPARK-24146 ] - 用於順序模式挖掘的spark.ml奇偶校驗 - PrefixSpan：Python API
[ SPARK-24155 ] - 用於聚類的儀表改進
[ SPARK-24157 ] - 為流聚合和重複資料刪除啟用無資料微批
[ SPARK-24158 ] - 為流連線啟用無資料微批量
[ SPARK-24159 ] - 為流式傳輸mapGroupswithState啟用無資料微批量
[ SPARK-24185 ] - 增加拼合功能
[ SPARK-24186 ] - 新增array_reverse和concat
[ SPARK-24187 ] - 新增array_join
[ SPARK-24197 ] - 新增array_sort函式
[ SPARK-24198 ] - 新增切片功能
[ SPARK-24234 ] - 使用行緩衝區建立任務底部RDD
[ SPARK-24235 ] - 建立任務頂級RDD，將行傳送到遠端緩衝區
[ SPARK-24251 ] - DataSourceV2：新增AppendData邏輯運算
[ SPARK-24290 ] - 檢測改進：使用陣列型別新增logNamedValue
[ SPARK-24296 ] - 支援複製大於2 GB的塊
[ SPARK-24297 ] - 將spark.maxRemoteBlockSizeFetchToMem的預設值更改為<2GB
[ SPARK-24307 ] - 支援從記憶體傳送超過2GB的訊息
[ SPARK-24310 ] - 頻繁模式挖掘的儀器
[ SPARK-24324 ] - Pandas Grouped Map UserDefinedFunction混合列標籤
[ SPARK-24325 ] - 測試Hadoop的LinesReader
[ SPARK-24331 ] - 新增arrays_overlap / array_repeat / map_entries
[ SPARK-24334 ] - ArrowPythonRunner中的競爭條件導致Arrow記憶體分配器的不正常關閉
[ SPARK-24386 ] - 實施連續加工合併（1）
[ SPARK-24418 ] - 升級到Scala 2.11.12
[ SPARK-24419 ] - 使用Scala 2.10.7將SBT升級到0.13.17
[ SPARK-24420 ] - 將ASM升級到6.x以支援JDK9 +
[ SPARK-24439 ] - 將距離測量新增到PySpark中的BisectingKMeans
[ SPARK-24478 ] - DataSourceV2應在物理計劃轉換時推送過濾器和投影
[ SPARK-24537 ] - 新增array_remove / array_zip / map_from_arrays / array_distinct
[ SPARK-24549 ] - 支援DecimalType下推到鑲木地板資料來源
[ SPARK-24624 ] - 無法混合向量化和非向量化UDF
[ SPARK-24638 ] - StringStartsWith支援下推
[ SPARK-24706 ] - 支援ByteType和ShortType下推到鑲木地板
[ SPARK-24716 ] - 重構ParquetFilters
[ SPARK-24718 ] - 時間戳支援下推到鑲木地板資料來源
[ SPARK-24771 ] - 將AVRO版本從1.7.7升級到1.8.2
[ SPARK-24772 ] - 支援讀取AVRO邏輯型別 - 日期
[ SPARK-24773 ] - 支援讀取AVRO邏輯型別 - 具有不同精度的時間戳
[ SPARK-24774 ] - 支援讀取AVRO邏輯型別 - 十進位制
[ SPARK-24776 ] - AVRO單元測試：使用SQLTestUtils和Replace棄用方法
[ SPARK-24777 ] - 為AVRO新增寫入基準
[ SPARK-24800 ] - 重構Avro序列器和解串器
[ SPARK-24805 ] - 預設情況下，不要忽略沒有.avro副檔名的檔案
[ SPARK-24810 ] - 修復AvroSuite中資原始檔的路徑
[ SPARK- 24811] - 新增函式`from_avro`和`to_avro`
[ SPARK-24836 ] - 新選項 - ignoreExtension
[ SPARK-24854 ] - 將所有選項收集到AvroOptions中
[ SPARK-24876 ] - 簡化架構序列化
[ SPARK-24881 ] - 新選項 - 壓縮和壓縮級別
[ SPARK-24883 ] - 刪除隱式類AvroDataFrameWriter / AvroDataFrameReader
[ SPARK-24887 ] - 在Spark util中使用SerializableConfiguration
[ SPARK-24924 ] - 為內建Avro資料來源新增對映
[ SPARK-24967 ] - 使用internal.Logging代替記錄
[ SPARK-24971 ] - 刪除SupportsDeprecatedScanRow
[ SPARK-24976 ] - 允許十進位制型別轉換無（特定於PyArrow 0.9.0）
[ SPARK-24990 ] - 合併ReadSupport和ReadSupportWithSchema
[ SPARK-24991 ] - 在DataSourceWriter中使用InternalRow
[ SPARK-25002 ] - Avro：修改輸出記錄名稱空間
[ SPARK-25007 ] - 將array_intersect / array_except / array_union / array_shuffle新增到SparkR
[ SPARK-25029 ] - Scala 2.12問題：TaskNotSerializable和Janino“兩個非抽象方法......”錯誤
[ SPARK-25044 ] - 在Scala 2.12中將LMF閉包原語args的地址轉換為Object
[ SPARK-25047 ] - 在BucketedRandomProjectionLSHModel的反序列化中無法將SerializedLambda分配給scala.Function1
[ SPARK-25068 ] - 高階函式：存在（陣列<T>，函式<T，布林值>）→布林值
[ SPARK-25099 ] - 在測試套件中生成Avro二進位制檔案
[ SPARK-25104 ] - 驗證使用者指定的輸出模式
[ SPARK-25127 ] - DataSourceV2：刪除SupportsPushDownCatalystFilters
[ SPARK-25133 ] - Documentaion：AVRO資料來源指南
[ SPARK-25160 ] - 刪除sql配置spark.sql.avro.outputTimestampType
[ SPARK-25179 ] - 記錄需要Pyarrow 0.10的功能
[ SPARK-25207 ] - 讀取Parquet時濾波器下推的不區分大小寫欄位解析度
[ SPARK-25256 ] - 計劃2.12中Hive測試中的不匹配錯誤
[ SPARK-25298 ] - Scala 2.12的spark-tools構建失敗
[ SPARK-25304 ] - 為Scala 2.12啟用HiveSparkSubmitSuite SPARK-8489測試
[ SPARK-25320 ] - ML，圖2.4 QA：API：二進位制不相容的更改
[ SPARK-25321 ] - ML，圖2.4 QA：API：新的Scala API，docs
[ SPARK-25324 ] - ML 2.4 QA：API：Java相容性，文件
[ SPARK-25328 ] - 新增一個示例，將兩列作為組聚合pandas UDF中的分組鍵
[ SPARK-25337 ] - HiveExternalCatalogVersionsSuite + Scala 2.12 = NoSuchMethodError：org.apache.spark.sql.execution.datasources.FileFormat。$ init $（Lorg / apache / spark / sql / execution / datasources / FileFormat;）
[ SPARK-25460 ] - DataSourceV2：結構化流媒體不尊重SessionConfigSupport
[ SPARK-25601 ] - 為SQL語句註冊Grouped聚合UDF向量化UDF
[ SPARK-25690 ] - 分析器規則“HandleNullInputsForUDF”不穩定，可以無限應用
[ SPARK-25718 ] - 檢測Avro架構中的遞迴引用並丟擲異常
[ SPARK-25842 ] - 棄用SPARK-21608中引入的API

Bug

[ SPARK-6951 ] - 如果事件日誌目錄很大，則歷史伺服器啟動緩慢
[ SPARK-10878 ] - 通過Ivy解決Maven座標時的競爭條件
[ SPARK-15125 ] - CSV資料來源將輸入中的空引用字串識別為空。
[ SPARK-15750 ] - 在pyspark中未指定numPartitions時，構造FPGrowth失敗
[ SPARK-16451 ] - 當“SaslException：GSS啟動失敗”被擊中時，Spark-shell / pyspark應該正常完成
[ SPARK-17088 ] - 當sharesHadoopClasses為false時，IsolatedClientLoader無法載入Hive客戶端
[ SPARK-17147 ] - Spark Streaming Kafka 0.10 Consumer無法處理非連續偏移（即Log Compaction）
[ SPARK-17166 ] - 轉換為資料來源表後，CTAS丟失了表屬性。
[ SPARK-17756 ] - 使用帶有DStream.transform的笛卡兒時的java.lang.ClassCastException
[ SPARK-17916 ] - 無論nullValue選項是什麼，CSV資料來源都將空字串視為空
[ SPARK-18371 ] - Spark Streaming backpressure bug - 生成一個包含大量記錄的批處理
[ SPARK-18630 ] - PySpark ML記憶體洩漏
[ SPARK-19181 ] - 當average executorDeserializeTime太短時，SparkListenerSuite.local指標失敗。
[ SPARK-19185 ] - 視窗化時與CachedKafkaConsumers的ConcurrentModificationExceptions
[ SPARK-19613 ] - 片狀測試：StateStoreRDDSuite
[ SPARK-20947 ] - PySpark管道實現中的編碼/解碼問題
[ SPARK-21168 ] - KafkaRDD應該始終設定kafka clientId。
[ SPARK-21402 ] - 修復結構反序列化的java陣列
[ SPARK-21479 ] - 當條件位於其中一個連線列上時，外部連線過濾器下推空值提供表
[ SPARK-21525 ] - ReceiverSupervisorImpl在寫入WAL時似乎忽略了錯誤程式碼
[ SPARK-21673 ] - 未正確設定Spark本地目錄
[ SPARK-21685 ] - 在pyspark中由_setDefault觸發的scala變換器中的Params設定
[ SPARK-21743 ] - 最高限制不應導致記憶體洩漏
[ SPARK-21811 ] - 查詢DateType，StringType和NumericType組合的最廣泛常見型別時的不一致
[ SPARK-21896 ] - 當視窗函式巢狀在聚合函式內時，Stack Overflow
[ SPARK-21945 ] - pyspark --py-files在紗線客戶端模式下不起作用
[ SPARK-22151 ] - 未正確從spark.yarn.appMasterEnv中拾取PYTHONPATH
[ SPARK-22279 ] - 預設開啟spark.sql.hive.convertMetastoreOrc
[ SPARK-22297 ] - Flaky測試：BlockManagerSuite“Shuffle registration timeout和maxAttempts conf”
[ SPARK-22357 ] - SparkContext.binaryFiles忽略minPartitions引數
[ SPARK-22371 ] - dag-scheduler-event-loop執行緒因錯誤而停止嘗試訪問垃圾回收累加器5605982
[ SPARK-22384 ] - 在Cast中包含屬性時優化分割槽修剪
[ SPARK-22430 ] - 使用Roxygen 6.0.1構建R docs時出現未知標記警告
[ SPARK-22577 ] - 執行程式頁面黑名單狀態應使用TaskSet級別黑名單進行更新
[ SPARK-22676 ] - 當spark.sql.hive.verifyPartitionPath = true時，避免迭代所有分割槽路徑
[ SPARK-22713 ] - 由TaskMemoryManager中的記憶體爭用和記憶體洩漏引起的OOM
[ SPARK-22809 ] - pyspark對帶點的進口很敏感
[ SPARK-22949 ] - 降低TrainValidationSplit的記憶體要求
[ SPARK-22968 ] - java.lang.IllegalStateException：沒有分割槽kssh-2的當前分配
[ SPARK-22974 ] - CountVectorModel不會將屬性附加到輸出列
[ SPARK-23004 ] - 結構化流引發“llegalStateException：在已經提交或中止後無法刪除”
[ SPARK-23007 ] - 為基於檔案的資料來源新增模式演化測試套件
[ SPARK-23020 ] - 重新啟用Flaky Test：org.apache.spark.launcher.SparkLauncherSuite.testInProcessLauncher
[ SPARK-23028 ] - 將主分支版本轉換為2.4.0-SNAPSHOT
[ SPARK-23038 ] - 更新docker / spark-test（JDK / OS）
[ SPARK-23042 ] - 使用OneHotEncoderModel對MultilayerPerceptronClassifier中的標籤進行編碼
[ SPARK-23044 ] - 合併指令碼在將jiras分配給非貢獻者時有錯誤
[ SPARK-23059 ] - 使用與檢視相關的方法用法糾正一些不當行為
[ SPARK-23088 ] - 歷史記錄伺服器未顯示不完整/正在執行的應用程式
[ SPARK-23094 ] - 當存在錯誤記錄並且失敗時，Json讀者選擇錯誤的編碼
[ SPARK-23152 ] - org.apache.spark.ml.classification.Classifier中的保護條件無效
[ SPARK- 23173] - from_json可以為標記為不可為空的欄位生成空值
[ SPARK-23189 ] - 反映執行者選項卡上的階段級別黑名單
[ SPARK-23200 ] - 從檢查點重新啟動時重置配置
[ SPARK- 23240] - 當pyspark.daemon產生偽造的stdout時，PythonWorkerFactory發出無用的訊息
[ SPARK-23243 ] - 在RDD上隨機播放+重新分割槽可能導致錯誤答案
[ SPARK-23271 ] - 空白DataFrame儲存後，Parquet輸出僅包含“_SUCCESS”檔案
[ SPARK-23288 ] - 結構化流式傳輸中寫入記錄的數量不正確
[ SPARK-23291 ] - SparkR：substr：在SparkR資料幀中，當位置大於1時，“substr”中的起始和結束位置引數給出錯誤的結果
[ SPARK-23306 ] - TaskMemoryManager中的競爭條件
[ SPARK-23340 ] - 將Apache ORC升級到1.4.3
[ SPARK-23355 ] - convertMetastore不應忽略表屬性
[ SPARK-23361 ] - 如果在應用提交後7天內發生驅動程式重啟失敗
[ SPARK-23365 ] - 在落後任務中失敗的DynamicAllocation可能導致掛起的火花作業
[ SPARK-23377 ] - Bucketizer具有多列永續性錯誤
[ SPARK-23394 ] - 儲存資訊的快取分割槽不考慮複製（但sc.getRDDStorageInfo確實如此）
[ SPARK-23405 ] - 當一張小桌子半連線一張大桌子時，任務將結束通話
[ SPARK-23406 ] - 流媒體自連線不起作用
[ SPARK-23408 ] - 片狀測試：StreamingOuterJoinSuite.left外部早期狀態排除在右側
[ SPARK-23415 ] - BufferHolderSparkSubmitSuite是片狀的
[ SPARK-23416 ] - Flaky測試：KafkaSourceStressForDontFailOnDataLossSuite.stress測試failOnDataLoss = false
[ SPARK-23417 ] - pyspark測試給出錯誤的sbt指令
[ SPARK-23425 ] - 使用萬用字元使用的hdfs檔案路徑的載入資料無法正常工作
[ SPARK-23433 ] - java.lang.IllegalStateException：階段的多個活動taskSet
[ SPARK-23434 ] - Spark不應警告“元資料目錄”以獲取HDFS檔案路徑
[ SPARK-23436 ] - 不正確的日期列分割槽發現中的推斷
[ SPARK-23438 ] - 當驅動程式崩潰時，DStreams可能會在啟用WAL時丟失塊
[ SPARK-23449 ] - 在Docker上下文中，額外的java選項會丟失順序
[ SPARK-23457 ] - 首先為ParquetFileFormat註冊任務完成偵聽器
[ SPARK-23459 ] - 在分割槽列中指定未知列時改進錯誤訊息
[ SPARK-23461 ] - 小插曲應包括某些ML模型的模型預測
[ SPARK-23462 ] - 改進`StructType`中的錯誤訊息
[ SPARK-23476 ] - Spark無法在本地模式下啟動並啟用身份驗證
[ SPARK-23486 ] - LookupFunctions不應多次檢查相同的函式名稱
[ SPARK-23489 ] - 片狀測試：HiveExternalCatalogVersionsSuite
[ SPARK-23490 ] - 使用CreateTable中的現有表檢查storage.locationUri
[ SPARK-23496 ] - 合併分割槽的位置可能會因輸入分割槽的順序而嚴重偏斜
[ SPARK- 23508] - BlockManagerId中的blockManagerIdCache可能會導致oom
[ SPARK-23514 ] - 用spark.sessionState.newHadoopConf（）替換spark.sparkContext.hadoopConfiguration
[ SPARK-23522 ] - pyspark應該始終使用sys.exit而不是退出
[ SPARK-23523 ] - 規則OptimizeMetadataOnlyQuery導致的結果不正確
[ SPARK-23524 ] - 不應檢查大型本地隨機塊是否存在損壞。
[ SPARK-23525 ] - ALTER TABLE CHANGE COLUMN不適用於外部蜂巢表
[ SPARK-23547 ] - 在Hive會話關閉時清除.pipeout檔案
[ SPARK-23549 ] - 將timestamp與日期進行比較時，Spark SQL意外行為
[ SPARK-23551 ] - 從`orc-mapreduce中排除`hadoop-mapreduce-client-core`依賴項
[ SPARK-23569 ] - pandas_udf不適用於帶型別註釋的python函式
[ SPARK-23570 ] - 在HiveExternalCatalogVersionsSuite中新增Spark-2.3
[ SPARK-23574 ] - 資料來源V2掃描中的SinglePartition
[ SPARK- 23598] - WholeStageCodegen可能導致IllegalAccessError呼叫追加HashAggregateExec
[ SPARK-23599 ] - UUID（）表示式過於不確定
[ SPARK- 23602] - PrintToStderr在解釋模式下的行為應相同
[ SPARK-23608 ] - SHS需要attachSparkUI和detachSparkUI函式之間的同步
[ SPARK-23614 ] - 使用快取時，Union會產生不正確的結果
[ SPARK-23618 ] - 建立影象時，docker-image-tool.sh失敗
[ SPARK-23620 ] - 使用br標籤拆分執行緒轉儲線
[ SPARK-23623 ] - 避免在CachedKafkaConsumer中同時使用快取的KafkaConsumer（kafka-0-10-sql）
[ SPARK-23630 ] - Spark-on-YARN缺少hadoop配置的使用者自定義
[ SPARK-23635 ] - Spark執行器env變數被同名AM env變數覆蓋
[ SPARK-23637 ] - 如果同一個執行者被多次殺死，紗線可能會分配更多資源。
[ SPARK-23639 ] - 使用代理使用者時，SparkSQL CLI無法與Kerberized Metastore通訊
[ SPARK-23640 ] - Hadoop配置可能會覆蓋spark配置
[ SPARK-23649 ] - 某些UTF-8字元上的CSV架構推斷失敗
[ SPARK-23658 ] - InProcessAppHandle在getLogger中使用了錯誤的類
[ SPARK-23660 ] - 當應用程式很小時，Yarn在群集模式下丟擲異常
[ SPARK-23666 ] - 帶有UDF的不確定列名
[ SPARK-23670 ] - sparkUI中SparkPlanGraphWrapper的記憶體洩漏
[ SPARK-23671 ] - SHS忽略了重播執行緒的數量
[ SPARK-23679 ] - 在YARN上執行時，uiWebUrl顯示不正確的URL
[ SPARK-23680 ] - entrypoint.sh不接受任意UID，作為錯誤返回
[ SPARK-23697 ] - Spark 1.x的累加器不再適用於Spark 2.x.
[ SPARK-23698 ] - Spark程式碼在Python 3中包含許多未定義的名稱
[ SPARK-23729 ] - 全域性解析會破壞檔案/檔案的遠端命名
[ SPARK-23731 ] - FileSourceScanExec在子表示式消除中丟擲NullPointerException
[ SPARK-23732 ] - Spark Scala api Scaladoc中scala原始碼的斷開連結
[ SPARK-23743 ] - IsolatedClientLoader.isSharedClass對`slf4j`關鍵字返回一個未縮排的結果
[ SPARK-23754 ] - Python UDF中的StopIterator異常導致部分結果
[ SPARK-23759 ] - 無法將Spark UI繫結到特定主機名/ IP
[ SPARK-23760 ] - CodegenContext.withSubExprEliminationExprs應正確儲存/恢復CSE狀態
[ SPARK-23775 ] - Flaky測試：DataFrameRangeSuite
[ SPARK-23778 ] - SparkContext.emptyRDD混淆了SparkContext.union
[ SPARK-23780 ] - 無法將googleVis庫與新SparkR一起使用
[ SPARK-23785 ] - LauncherBackend在設定狀態之前不檢查連線狀態
[ SPARK-23786 ] - CSV架構驗證 - 不檢查列名稱
[ SPARK-23787 ] - SparkSubmitSuite ::“如果紗線不支援則下載遠端資源”在Hadoop 2.9上失敗
[ SPARK-23788 ] - StreamingQuerySuite中的競爭條件
[ SPARK-23794 ] - UUID（）應該是有狀態的
[ SPARK-23799 ] - [CBO] FilterEstimation.evaluateInSet在空表的情況下產生零除數，並帶有分析的統計資料
[ SPARK-23802 ] - PropagateEmptyRelation可以使查詢計劃處於未解決狀態
[ SPARK-23806 ] - 廣播。與動態分配一起使用時，unpersist可能會導致致命異常
[ SPARK-23808 ] - 測試火花會話應設定預設會話
[ SPARK-23809 ] - 應該通過getOrCreate設定Active SparkSession
[ SPARK-23815 ] - Spark編寫器動態分割槽覆蓋模式無法在多級分割槽上寫入輸出
[ SPARK-23816 ] - 殺死推測任務時的FetchFailedException
[ SPARK-23823 ] - ResolveReferences失去了正確的來源
[ SPARK-23825 ] - [K8s] Spark pod應該請求記憶體+ memoryOverhead作為資源
[ SPARK-23827 ] - StreamingJoinExec應確保輸入資料被分割槽為特定數量的分割槽
[ SPARK-23834 ] - Flaky測試：LauncherServerSuite.testAppHandleDisconnect
[ SPARK-23835 ] - 當Dataset.as將列從可空型別轉換為非可空型別時，null雙打將以靜默方式轉換為-1
[ SPARK-23850 ] - 預設情況下，我們不應該從UI編輯使用者名稱|使用者| url
[ SPARK-23852 ] - Parquet MR錯誤可導致錯誤的SQL結果
[ SPARK-23853 ] - 跳過需要在PySpark中構建的hive支援的doctests
[ SPARK-23857 ] - 在mesos叢集模式下，spark submit要求keytab在本地檔案系統上可用。
[ SPARK-23868 ] - 修復literals.sql.out中的scala.MatchError
[ SPARK-23882 ] - 是否支援UTF8StringSuite.writeToOutputStreamUnderflow（）？
[ SPARK-23888 ] - 推測任務不應該在已經執行另一次嘗試的給定主機上執行
[ SPARK-23893 ] - long = int * int可能溢位
[ SPARK-23941 ] - 特定火花應用名稱上的Mesos任務失敗
[ SPARK-23951 ] - 使用ExprValue中的java分類並簡化一堆內容
[ SPARK-23971 ] - 不應在測試套件中洩漏Spark會話
[ SPARK-23975 ] - 允許群集將雙陣列作為輸入要素
[ SPARK-23976 ] - UTF8String.concat（）或ByteArray.concat（）可能會分配更短的結構。
[ SPARK-23986 ] - 加入後使用過多avg聚合時出現CompileException
[ SPARK-23989 ] - 使用`SortShuffleWrit

[Spark版本更新]--Spark-2.4.0 釋出說明

2018-11-02 Apache Spark 官方釋出了 2.4.0版本，以下是 Release Notes，供參考： Sub-task [ SPARK-6236 ] - 支援大於2G的快取塊 [ SPARK-6237 ] -

[Spark版本更新]--Spark-2.3.2釋出說明

2018-09-24 Apache spark又釋出新版本了，看看發行說明： sub-task [ SPARK-24976 ] - 允許十進位制型別轉換null（特定於PyArrow 0.9.0） bug [ SPARK-23243&nb

iView Admin 2.4.0 釋出，後臺整合解決方案

iView Admin 2.4.0 已釋出，更新如下：新增組織結構樹頁面 e78f77f 新增可拖動抽屜元件 DragDrawer 11209b0 iView admin 是基於 Vue.js ，搭配使用 iView UI

Spring Boot 2.4.0 釋出，配置檔案重大調整，不要亂升級！！

前段時間 [Spring Boot 2.4.0](https://mp.weixin.qq.com/s/Fff2EsSxraefIUJ8HpQXFg) 釋出了，棧長作了一個新特性全盤解讀，其中介紹了一個很重要的變革，那就是配置檔案。配置檔案可是每個框架的核心，不得不搞清楚，所以，這篇棧長就帶大家深入實戰了

PhalApi 2.4.0 版本釋出，PHP 開源介面框架

PhalApi 2.4.0 [主要更新] 1、線上文件，樣式優化，並新增介面搜尋功能，方便查詢 [輔助更新] 1、新增CORS跨域擴充套件，由@吞吞小猴提供 2、2.x文件完善，豐富資料庫操作的說明及示例 [BUG修復] 1、分表策略下預設預設表名再次獲取時，因快取擊中而最終出現表

spark-2.4.0-hadoop2.7-安裝部署

1. 主機規劃主機名稱 IP地址作業系統部署軟體執行程序備註 mini01 172.16.1.11【內網】 10.0.0.11 【外網】

spark-2.4.0-hadoop2.7-高可用(HA)安裝部署

1. 主機規劃主機名稱 IP地址作業系統部署軟體執行程序備註 mini01 172.16.1.11【內網】 10.0.0.11 【外網】

spark-2.4.0-hadoop2.7-簡單操作

1. 說明本文基於：spark-2.4.0-hadoop2.7-高可用(HA)安裝部署 2. 啟動Spark Shell 　　在任意一臺有spark的機器上執行 1 # --master spark://mini02:7077 連線spark

Spark 2.4.0程式設計指南--Spark DataSources

Spark 2.4.0程式設計指南–Spark DataSources 更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 視訊 Spark 2.4.0程式設計指

Spark 2.4.0 整合Hive 1.2.1

Spark 2.4.0 整合Hive 1.2.1 更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 apache-hive-1.2.1-bin 安裝: https://gith

Spark 2.4.0程式設計指南--Spark SQL UDF和UDAF

Spark 2.4.0程式設計指南–Spark SQL UDF和UDAF 更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 視訊 Spark 2.4.0程

Spark 2.4.0程式設計指南--spark dataSet action

Spark 2.4.0程式設計指南–spark dataSet action 更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 視訊 Spark 2.4.

Spark 2.4.0 程式設計指南--快速入門

Spark 2.4.0 程式設計指南–快速入門更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 視訊 Spark 2.4.0 程式設計指南–快速入門(b

Spark 2.4.0 standalone 模式安裝

Spark 2.4.0 standalone 模式安裝更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 官網文件 https://spark.apache.o

Apache Spark 2.4 正式釋出，重要功能詳細介紹

本文中文原文：https://www.iteblog.com/archives/2448.htm

Spark 2.4 正式釋出，重要功能詳細介紹

美國時間 2018年11月08日正式釋出了。一如既往，為了繼續實現 Spark 更快，更輕鬆，更智慧的目標，Spark 2.4帶來了許多新功能，如下：新增一種支援屏障模式（barrier mode）的排程器，以便與基於MPI的程式更好地整合，例如，分散式深度學

Spark-2.4.0原始碼：sparkContext

　　在看sparkContext之前，先回顧一下Scala的語法。Scala建構函式分主構造和輔建構函式，輔建構函式是關鍵字def+this定義的，而類中不在方法體也不在輔建構函式中的程式碼就是主建構函式，例項化物件的時候主建構函式都會被執行，例：　　 class person(name Strin

es學習-java操作 2.4.0版本

不同 package req twitter imp rep header comm earch package esjava;import org.elasticsearch.action.bulk.*;import org.elasticsearch.action.de

使用Hbase協作器(Coprocessor)同步資料到ElasticSearch（hbase 版本 1.2.0-cdh5.8.0, es 2.4.0 版本）

參考 https://gitee.com/eminem89/Hbase-Observer-ElasticSearch 上面的程式碼，但是由於我的es版本是2.4.0 和作者的版本不對應導致功能無法正常使用，所以特此記錄修改成能參考程式碼如

DBCP連線池引數詳解-2.4.0版本

BasicDataSource 配置引數這些配置均在dbcp原始碼的BasicDataSource類的createPoolableConnectionFactory方法中使用和初始化。具體程式碼如下： protected PoolableConnectionFactory createPo

[Spark版本更新]--Spark-2.4.0 釋出說明

Bug

相關推薦