1. 程式人生 > >如何提取pdf中的文字並將其轉換為TXT文件

如何提取pdf中的文字並將其轉換為TXT文件

對於畢業論文以及一些學術論文,公文,可能會涉及到較多的文字,較長的篇幅,較泛跟較精細的內容。所以很多朋友會選擇通過部分引用的方式來增加自己文章論點論據的說服力。

但是現在很多學術文章為了保護自己的著作權,會選擇將文章文件轉換為PDF文件之後再加以上傳。但是這樣並不能防止他人直接從PDF文件直接獲取文字內容。

如果你在寫作的時候需要從PDF上獲取大量的文字,手打肯定是一件麻煩的事情,要切換介面還要打字,效率實在很低。所以直接將PDF檔案的文字提取出來,才是最簡便的方式。

如果PDF檔案的大小不會超過2M,那麼通過將PDF轉換為TXT文字就可以輕鬆解決這個問題了。

為什麼是PDF轉換成TXT不是轉Word,因為Word文件的文字預設會有格式,所以如果從一個Word文件貼上到另外一個文件,還需要去調整格式。

將PDF文件上傳到轉換平臺上,設定為轉換每一頁。

轉換完成之後,介面會顯示轉換出來的文字,如果篇幅不大,我們可以直接在介面當中複製貼上。

當然也可選擇將檔案下載到本地,如果你的PDF檔案的文字內容比較多的話。比較有意思的一點就是轉換器轉換出來的文字會PDF原先的段落進行分段,不用擔心文字混淆的問題。

如果你在之前的操作中將PDF轉換成了Word文件,那麼在複製貼上的時候可能會出現上面提到的把原文件的文字格式也貼上下去的問題,如果你想要不保留格式的貼上,可以這樣操作。點選office按鈕→選擇Word選項

在高階當中,將同一文件內貼上以及從其他程式貼上的選項修改成僅保留文字即可。

以上便是PDF檔案提取文字的方法,給大家參考學習。