1. 程式人生 > >Ubuntu下使用python讀取doc和docx文件的內容

Ubuntu下使用python讀取doc和docx文件的內容

讀取docx文件

使用的包是python-docx 1. 安裝python-docx包
sudo pip install python-docx
2. 使用python-docx包讀取資料
#encoding:utf8
import docx
doc = docx.Document('test.docx')
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs])
#print(docText)

python-docx這個包是不能處理doc文件的,要讀取doc文件內容的話需要使用antiword這個工具。

讀取doc文件

1. 到網站下載antiword。 2. 下載完畢之後解壓,在解壓得到的資料夾中依次執行make和make install命令。 3. 使用antiword讀取doc文件內容
#encoding:utf8
import subprocess
word = 'test.doc'
output = subprocess.check_output(['antiword',word])
print(output)