1. 程式人生 > >Python學習筆記(28)-Python讀取word文字

Python學習筆記(28)-Python讀取word文字

一,簡介

Python可以利用python-docx模組處理word文件,處理方式是面向物件的。也就是說python-docx模組會把word文件,文件中的段落、文字、字型等都看做物件,對物件進行處理就是對word文件的內容處理。

二,相關概念

如果需要讀取word文件中的文字(一般來說,程式也只需要認識word文件中的文字資訊),需要先了解python-docx模組的幾個概念。

1,Document物件,表示一個word文件。
2,Paragraph物件,表示word文件中的一個段落
3,Paragraph物件的text屬性,表示段落中的文字內容。

三,模組的安裝和匯入

需要注意,python-docx模組安裝需要在cmd命令列中輸入pip install python-docx

,如下圖表示安裝成功(最後那句英文Successfully installed,成功地安裝完成,十分考驗英文水平。)

這裡寫圖片描述

注意在匯入模組時,用的是import docx

也真是奇了怪了,怎麼安裝和匯入模組時,很多都不用一個名字,看來是很有必要出一個python版本的模組管理程式python-maven了,本段純屬PS。

四,讀取word文字

在瞭解了上面的資訊之後,就很簡單了,下面先建立一個D:\temp\word.docx檔案,並在其中輸入如下內容。

這裡寫圖片描述

然後寫一段程式,程式碼及輸出結果如下:

#讀取docx中的文字程式碼示例
import docx
#獲取文件物件
file
=docx.Document("D:\\temp\\word.docx") print("段落數:"+str(len(file.paragraphs)))#段落數為13,每個回車隔離一段 #輸出每一段的內容 for para in file.paragraphs: print(para.text) #輸出段落編號及段落內容 for i in range(len(file.paragraphs)): print("第"+str(i)+"段的內容是:"+file.paragraphs[i].text)

執行結果:

================ RESTART: F:/
360data/重要資料/桌面/學習筆記/readWord.py ================
段落數:13 啊 我看見一座山 雄偉的大山 真高啊 啊 這座山是! 真的很高! 第0段的內容是:啊 第1段的內容是: 第2段的內容是:我看見一座山 第3段的內容是: 第4段的內容是:雄偉的大山 第5段的內容是: 第6段的內容是:真高啊 第7段的內容是: 第8段的內容是:啊 第9段的內容是: 第10段的內容是:這座山是! 第11段的內容是: 第12段的內容是:真的很高! >>>