1. 程式人生 > >python解析word文件首、尾頁

python解析word文件首、尾頁

1.docx 不能解析.doc文件,只能解析.docx文件

2.如何將doc轉換為docx (window 裡有開啟後另存為)

3.docx文件有沒有page的概念?如何使用分頁符?如何取得第一頁和最後一頁


1.如何使doc文件,將其轉換為docx文件

    def dosaveas(self,path):
        word = wc.Dispatch('word.application')
        #doc 目標路徑下的檔案
        doc = word.Documents.Open(path)
        #換換為docx後的目標檔案
        doc.SaveAs(self.file_path, 12, False, "", True, "", False, False, False, False)
        doc.Close()
        word.Quit()

2.解析docx文件的首、尾頁,返回字串內容

  def parsedocin(self,path):
        result = []
        if path.endswith(".doc"):  #doc檔案需要轉為docx檔案
            self.dosaveas(path)
            #獲取文件物件
            file = docx.Document(self.file_path)
        else:
            file = docx.Document(path)

        #獲取文件段落數
        paragraphs_len = len(file.paragraphs)
        #輸出每一段的內容
        #for para in file.paragraphs: 
        #    print(para.text)
        paragraphs_list=[]
        if paragraphs_len > parseDoc.PAGE_LINES:
            for i in range(0,parseDoc.PAGE_LINES):
                paragraphs_list.append(file.paragraphs[i])
            for j in range((paragraphs_len - parseDoc.PAGE_LINES),paragraphs_len):
                paragraphs_list.append(file.paragraphs[j])
        else:
            for i in range(0,parseDoc.PAGE_LINES):
                paragraphs_list.append(file.paragraphs[i])

        #每一次迴圈顯示一行文字內容
        for para in paragraphs_list:
            #print(para.text)
            result.append(para.text)

return result