C#儀器數據文件解析-Word文件(doc、docx)
阿新 • • 發佈:2017-10-17
new read ffi 數據文件 word 不同 軟件 情況下 如果
不少儀器數據報告輸出為Word格式文件,同Excel文件,Word文件doc和docx的存儲格式是不同的,相應的解析Word文件的方式也類似,主要有以下方式:
1.通過MS Word應用程序的DCOM接口;
2.WPS Word應用程序的DCOM接口,其他Office應用程序,例如Open Office等;
3.NPOI庫;
4.MS Open XML;
5.Spire.Doc庫;
實際操作中,MS與Open Office等不同廠家對Word(或泛指Office中的字處理軟件文檔)的格式定義標準有差別,因此存在兼容性的問題;
即使MS的docx格式文件,2007、2010、2013等不同版本雖然都使用XML格式定義,但仍然不同,也存在兼容性問題。
因此,多數客戶終端使用MS Office的情況下,如果使用Open Office等其他應用程序來處理Word文檔,則會出現很多問題。
能夠很好處理MS Word文檔的應用程序,好用的應用程序就是MS Office Word、WPS,好用的組件庫就是Spire.Doc,NPOI(僅docx)。
使用組件庫的好處是不需要安裝應用程序,部署簡單,另外通過.Net Framework調用也優於DCOM接口。
由於Spire.Doc為收費組件,所以建議使用NPOI解析Word,當然僅限於Word 2007+。
以下為關鍵代碼,供參考:
FileStream fileStream = new FileStream(fileName, FileMode.Open, FileAccess.Read); xwpfDocument = new XWPFDocument((Stream)fileStream); foreach (XWPFParagraph xwpfParagraph in (IEnumerable<XWPFParagraph>)xwpfDocument.Paragraphs) stringBuilder.AppendLine(xwpfParagraph.ParagraphText);
C#儀器數據文件解析-Word文件(doc、docx)