1. 程式人生 > >讀取Word文件的各種複雜表格內容

讀取Word文件的各種複雜表格內容

工作上遇到如何讀取Word文件中的表格內容,表格是有業務資料意義的,而且有一定規則的,因此不能直接讀取表格文字,而是遍歷表格單元格進行一行一列讀取。

表格規則:

(1)表格可以有表頭,表頭也有業務意思

(2)一行為一個業務資料,可能會跨行

(3)列可能會有跨列、跨行

(4)單元格中圖片、數學公式、巢狀表格、檔案等

比如,以下表格


具體程式碼:https://github.com/suncht/wordtable-read

目前功能如下:

  1. 目前只支援讀取2007以上Word文件表格單元格的文字,支援讀取圖片、數學公式。
  2. 支援一般性的有規則的複雜表格。
  3. 暫不支援2007以下的Doc型別文件,因為POI中暫未找到關於表格單元格定位的API。
  4. 為了相容2007以下的Doc型別文件,利用jodconverter3.0 + LibreOffice 5.3,“先將Doc型別文件轉換為Docx型別文件,再進行讀取表格內容”。 注意:LibreOffice直接支援Docx型別文件,而OpenOffice不能直接支援Docx型別文件,需要AccessODF外掛