Ubuntu下使用python讀取doc和docx文件的內容
阿新 • • 發佈:2019-01-05
讀取docx文件
使用的包是python-docx 1. 安裝python-docx包sudo pip install python-docx
2. 使用python-docx包讀取資料
#encoding:utf8
import docx
doc = docx.Document('test.docx')
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs])
#print(docText)
python-docx這個包是不能處理doc文件的,要讀取doc文件內容的話需要使用antiword這個工具。
讀取doc文件
#encoding:utf8
import subprocess
word = 'test.doc'
output = subprocess.check_output(['antiword',word])
print(output)