1. 程式人生 > >Apache Hudi 0.5.1版本重磅釋出

Apache Hudi 0.5.1版本重磅釋出

歷經大約3個月時間,Apache Hudi 社群終於釋出了0.5.1版本,這是Apache Hudi釋出的第二個Apache版本,該版本中一些關鍵點如下

  • 版本升級
    • 將Spark版本從2.1.0升級到2.4.4
    • 將Avro版本從1.7.7升級到1.8.2
    • 將Parquet版本從1.8.1升級到1.10.1
    • 將Kafka版本從0.8.2.1升級到2.0.0,這是由於將spark-streaming-kafka artifact從0.8_2.11升級到0.10_2.11/2.12間接升級

重要:Hudi 0.5.1版本需要將spark的版本升級到2.4+

  • Hudi現在支援Scala 2.11和2.12,可以參考Scala 2.12構建來使用Scala 2.12來構建Hudi,另外, hudi-spark, hudi-utilities, hudi-spark-bundle and hudi-utilities-bundle包名現已經對應變更為 hudi-spark_{scala_version}, hudi-spark_{scala_version}, hudi-utilities_{scala_version}, hudi-spark-bundle_{scala_version}和 hudi-utilities-bundle_{scala_version}. 注意這裡的scala_version為2.11或2.12。

  • 在0.5.1版本中,對於timeline元資料的操作不再使用重新命名方式,這個特性在建立Hudi表時預設是開啟的。對於已存在的表,這個特性預設是關閉的,在已存在表開啟這個特性之前,請參考這部分(https://hudi.apache.org/docs/deployment.html#upgrading)。若開啟新的Hudi timeline佈局方式(layout),即避免重新命名,可設定寫配置項hoodie.timeline.layout.version=1。當然,你也可以在CLI中使用repair overwrite-hoodie-props命令來新增hoodie.timeline.layout.version=1

    至hoodie.properties檔案。注意,無論使用哪種方式,在升級Writer之前請先升級Hudi Reader(查詢引擎)版本至0.5.1版本。

  • CLI支援repair overwrite-hoodie-props來指定檔案來重寫表的hoodie.properties檔案,可以使用此命令來的更新表名或者使用新的timeline佈局方式。注意當寫hoodie.properties檔案時(毫秒),一些查詢將會暫時失敗,失敗後重新執行即可。

  • DeltaStreamer用來指定表型別的引數從--storage-type變更為了--table-type,可以參考wiki來了解更多的最新變化的術語。

  • 配置Kafka Reset Offset策略的值變化了。列舉值從LARGEST變更為LATEST,SMALLEST變更為EARLIEST,對應DeltaStreamer中的配置項為auto.offset.reset

  • 當使用spark-shell來了解Hudi時,需要提供額外的--packages org.apache.spark:spark-avro_2.11:2.4.4,可以參考quickstart瞭解更多細節。

  • Key generator(鍵生成器)移動到了單獨的包下org.apache.hudi.keygen,如果你使用過載鍵生成器類(對應配置項:hoodie.datasource.write.keygenerator.class),請確保類的全路徑名也對應進行變更。

  • Hive同步工具將會為MOR註冊帶有_ro字尾的RO表,所以查詢也請帶_ro字尾,你可以使用--skip-ro-suffix配置項來保持舊的表名,即同步時不新增_ro字尾。

  • 0.5.1版本中,供presto/hive查詢引擎使用的hudi-hadoop-mr-bundle包shaded了avro包,以便支援real time queries(實時查詢)。Hudi支援可插拔的記錄合併邏輯,使用者只需自定義實現HoodieRecordPayload。如果你使用這個特性,你需要在你的程式碼中relocate avro依賴,這樣可以確保你程式碼的行為和Hudi保持一致,你可以使用如下方式來relocation。

    <relocation>
      <pattern>org.apache.avro.</pattern>
      <shadedPattern>org.apache.hudi.org.apache.avro.</shadedPattern>
    </relocation>
  • DeltaStreamer更好的支援Delete,可參考blog瞭解更多細節。

  • DeltaStreamer支援AWS Database Migration Service(DMS) ,可參考blog瞭解更多細節。

  • 支援DynamicBloomFilter(動態布隆過濾器),預設是關閉的,可以使用索引配置項hoodie.bloom.index.filter.type=DYNAMIC_V0來開啟。

  • HDFSParquetImporter支援bulkinsert,可配置--commandbulkinsert

  • 支援AWS WASB和 WASBS雲端儲存。

相關推薦

Apache Hudi 0.5.1版本重磅釋出

歷經大約3個月時間,Apache Hudi 社群終於釋出了0.5.1版本,這是Apache Hudi釋出的第二個Apache版本,該版本中一些關鍵點如下 版本升級 將Spark版本從2.1.0升級到2.4.4 將Avro版本從1.7.7升級到1.8.2 將Parquet版本從1.8.1升級到1.10.1

特性速覽| Apache Hudi 0.5.3版本正式釋出

### 1. 下載連線 * 原始碼下載:[Apache Hudi 0.5.3 Source Release](https://downloads.apache.org/hudi/0.5.3/hudi-0.5.3.src.tgz) ([asc](https://downloads.apache.org/hud

Apache Hudi 0.6.0版本重磅釋出

## 1. 下載資訊 * 原始碼:[Apache Hudi 0.6.0 Source Release](https://downloads.apache.org/hudi/0.6.0/hudi-0.6.0.src.tgz) ([asc](https://downloads.apache.org/hudi/0

MySQL 4.1/5.0/5.1/5.5/5.6各版本的主要區別

5.6 同步 一個表 bin ger err 各版本 擴展性 sed MySQL 4.1/5.0/5.1/5.5/5.6各版本的主要區別 一、5.0 增加了Stored procedures、Views、Cursors、Triggers、XA transactions的支持

Apache Hivemall 0.5.2 釋出,可擴充套件的機器學習庫

   Apache Hivemall 0.5.2 釋出了,Apache Hivemall 基於 Hive UDF/UDAF/UDTF,是一個可擴充套件的機器學習庫,執行基於 Hadoop 的資料處理框架,特別是 Apache Hive、Apache Spark 和 A

Kubernetes 1.8.0 RC.1 版本釋出_Kubernetes中文社群

Kubernetes 1.8.0 RC第一個版本釋出,此版本開始將不會增加新功能,在Kubernetes 1.8.0-beta.1版本基礎上相應修復完善了大概43處,簡要如下: 使用cluster/kube-up.sh建立新的GCE或GKE叢集,預設禁止ABAC模式。(#51367,@cj

Kubernetes 1.9.0 alpha.1 版本釋出_Kubernetes中文社群

在2天前,Kubernetes社群同時釋出了兩個版本的kubernetes,1.8.0 rc.1版本和 1.9.0-alpha.1 版本,k8s 1.9.0 也是首次釋出,從 v1.8.0-alpha.3 版本以來更新完善了眾多功能,共提交了279次。相關更新如下: 使用cluster/k

win64bit安裝oracle 10g版本檢查未通過解決 提示要求的結果: 5.0,5.1,5.2,6.0 之一 實際結果: 6.1

在WIN7上安裝oracle 10g時,提示如下資訊: 正在檢查作業系統要求...  要求的結果: 5.0,5.1,5.2,6.0 之一  實際結果: 6.1  檢查完成。此次檢查的總體結果為: 失敗 <<<<  問題: Oracle Databas

MySQL 4.1/5.0/5.1/5.5/5.6/5.7各版本的主要區別

mysql的50版本和51版本的區別: 一、5.0 增加了Stored procedures、Views、Cursors、Triggers、XA transactions的支援,增加了INFORATION_SCHEMA系統資料庫。 二、5.1 增加了Event sched

(解決)android不同版本的【沉浸式狀態列】(4.4/5.0/5.1/6.0

介紹: 各個版本有略微的區別,下面我就根據自己的測試和除錯寫出對應的方法: 4.4以上(API>=19)的前提下,任選以下方法: 1.法1:只要呼叫一個方法,setContentView前: getWindow().addFlags(Win

OpenCV3.0 3.1版本號的改進

應用 接口 make 基礎 isa pan tell 模式 text ?? 摘要 OpenCV如今更新到了3.1版本號,相對OpenCV2有了非常大改進,當中對於硬件加速,移動開發(IOS,android)的支持成為亮點。 新版的OpenCV採用

安裝Apache-storm-0.9.1-incubating圖解教程

zmq eee src x86 cdc 14. 安裝 處理 adc 安裝步驟 安裝Zookeeper集群,可以參考前一篇文章,本文已安裝完畢。 安裝及配置Storm yum install -y gcc-c++.x86_64 yum install -y uuid-de

MySQL 5.1版本安裝失敗解決方案

  MySQL 5.1版本安裝失敗解決方案 1.首先解除安裝已經安裝過的MySQL,解除安裝最好在系統自帶的解除安裝中進行,具體方法如下:     1)點選“開始選單”---“控制面板”---“程式”,點選“程式”中的“解除安裝程式”;

在Ubuntu 16.04下安裝 virtualbox 5.0/5.1

不知道為什麼,下載好官方的安裝包之後安裝總是儲存。我放棄了官方的安裝包,想辦法從其他地方安裝。軟體商店試過,一直在安裝,似乎卡住了,最後是通過添加了一個源的方式才裝上的~ 這裡放上安裝的過程 sudo sh -c 'echo "deb http://download.virtua

Hibernate ORM 5.1.17.Final 釋出,資料持久層框架

Hibernate ORM 5.1.17.Final 已釋出,這是 5.1 系列的最終版本。後續想要繼續接收更新的,請遷移到 5.3 或更高版本。 此版本不支援 Java 6 和 7 ,最低要求 Java 8。 有關詳細資訊,請參閱 HHH-13126 。 發行說明: http:/

在LInux/ubuntu上安裝特定版本的 Pytorch ,例如 0.3.1版本

指令 conda install pytorch=0.3.1 torchvision cuda90 -c pytorch 注意事項: 1   pytorch=0.3.1  (0.3.1 改為你要安裝的pytorch版本)  檢視pytorch版本號點我 2   cud

Cloudera CDH 5.1版本的Hive與LDAP-2.4.44整合

1.安裝LDAP-2.4.44 [[email protected] openldap]# vim /etc/openldap/slapd.d/cn=config/olcDatabase\

Cloudera CDH 5.1版本的HUE整合Hive

配置Hive 配置HUE連線hive的hiveserver2的地址 首先看配置,下面兩個配置指定hiveserver2的連線地址和埠,hive-site.xm檔案沒有的話,預設為localhost,

Win10 安裝Oracle資料庫出現報錯異常——正在檢查作業系統要求...要求結果:5.0,5.1,5.2.....實際結果:6.2

出現的問題: 我前後兩次在win10系統下安裝oracle 10g 時,都出現這個異常:  正在檢查作業系統要求…  要求的結果: 5.0,5.1,5.2,6.0,6.1 之一  實際結果: 6.2  檢查完成。此次檢查的總體結果為: 失敗 <<<&

最簡單的android studio2.3安裝 ButterKnife 8.5.1版本方法,解放雙手

Android ButterKnife Zelezny是個很好用的工具,經常會用到,開發的時候經常會做一些搬運工的事,這個工具就是可以一鍵幫我們搬了!最近android studio 升級到了2.3,我就升級到了Android Studio 2.3正式版,畢竟作為一名IT