1. 程式人生 > >python獲取docx文件的內容(文字)

python獲取docx文件的內容(文字)

首先下載第三方庫python-docx: pip install python-docx(在py檔案裡面匯入的時候是import docx)

簡單的說,docx裡面的每一個段落都是一個paragraph物件,段落中文字如果有不同的樣式(加粗,斜體)就會有不同的run物件,而且paragraph和run物件都有一個text屬性,表示的是他包含的文字

import docx

def     getText(filename):

        doc = docx.Document(filename)
        fullText = []
        for i in doc.paragraphs:#迭代docx文件裡面的每一個段落
fullText.append(i.text)#儲存每一個段落的文字 return '\n'.join(fullText) def main(): print getText('reviews.docx')#reviews.docx是我自己建立的一個文件,注意要和你的py檔案一個目錄下 if __name__=="__main__": main()

這裡寫圖片描述