python獲取docx文件的內容(文字)
阿新 • • 發佈:2019-02-05
首先下載第三方庫python-docx: pip install python-docx(在py檔案裡面匯入的時候是import docx)
簡單的說,docx裡面的每一個段落都是一個paragraph物件,段落中文字如果有不同的樣式(加粗,斜體)就會有不同的run物件,而且paragraph和run物件都有一個text屬性,表示的是他包含的文字
import docx
def getText(filename):
doc = docx.Document(filename)
fullText = []
for i in doc.paragraphs:#迭代docx文件裡面的每一個段落
fullText.append(i.text)#儲存每一個段落的文字
return '\n'.join(fullText)
def main():
print getText('reviews.docx')#reviews.docx是我自己建立的一個文件,注意要和你的py檔案一個目錄下
if __name__=="__main__":
main()