1. 程式人生 > >C#儀器數據文件解析-Word文件(doc、docx)

C#儀器數據文件解析-Word文件(doc、docx)

new read ffi 數據文件 word 不同 軟件 情況下 如果

不少儀器數據報告輸出為Word格式文件,同Excel文件,Word文件doc和docx的存儲格式是不同的,相應的解析Word文件的方式也類似,主要有以下方式:

1.通過MS Word應用程序的DCOM接口;

2.WPS Word應用程序的DCOM接口,其他Office應用程序,例如Open Office等;

3.NPOI庫;

4.MS Open XML;

5.Spire.Doc庫;

實際操作中,MS與Open Office等不同廠家對Word(或泛指Office中的字處理軟件文檔)的格式定義標準有差別,因此存在兼容性的問題;

即使MS的docx格式文件,2007、2010、2013等不同版本雖然都使用XML格式定義,但仍然不同,也存在兼容性問題。

因此,多數客戶終端使用MS Office的情況下,如果使用Open Office等其他應用程序來處理Word文檔,則會出現很多問題。

能夠很好處理MS Word文檔的應用程序,好用的應用程序就是MS Office Word、WPS,好用的組件庫就是Spire.Doc,NPOI(僅docx)。

使用組件庫的好處是不需要安裝應用程序,部署簡單,另外通過.Net Framework調用也優於DCOM接口。

由於Spire.Doc為收費組件,所以建議使用NPOI解析Word,當然僅限於Word 2007+。

以下為關鍵代碼,供參考:

FileStream fileStream = new FileStream(fileName, FileMode.Open, FileAccess.Read);
xwpfDocument = new XWPFDocument((Stream)fileStream);
foreach (XWPFParagraph xwpfParagraph in (IEnumerable<XWPFParagraph>)xwpfDocument.Paragraphs)
                stringBuilder.AppendLine(xwpfParagraph.ParagraphText);

  

C#儀器數據文件解析-Word文件(doc、docx)