1. 程式人生 > >Apache Tika 1.20 釋出,內容抽取工具集合

Apache Tika 1.20 釋出,內容抽取工具集合

  

Apache Tika 1.20 已釋出,Tika 是一個內容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,並且為文字抽取工作提供了一個統一的介面。其次,Tika 也提供了便利的擴充套件 API,用來豐富其對第三方檔案格式的支援。

Apache Tika 1.20 包含一系列修復和改進,部分如下:

  • POI 升級至 4.0.1

  • PDFBox 升級至 2.0.13

  • 批量升級依賴項

  • 更新 jaxb-runtime 和 javax.activation

  • 刪除 PPT 側邊的重複備註

  • ……

完整更新內容可查閱更新日誌

下載地址:

http://tika.apache.org/download.html