1. 程式人生 > >Pandoc一個好用的格式轉換工具

Pandoc一個好用的格式轉換工具

前幾天吃過格式轉換方面的虧,在從pdf轉成doc檔案方面。實際上pdf是由LATEX生成的。最後花費了我2天將pdf中的內容轉換成doc,手工來做這種轉換,效率之低下實在是讓人難以忍受。所在,在自己的日常工作、學習中特別留意格式轉換方面的工具。最終,我發現了pandoc這樣一個優秀的格式轉換工具,用了之後感覺好,心中立刻感覺到:這是一個遲到的工具。

1 介紹

也許上幾天我在網上瘋狂找格式轉換工具的時候,已經遇到pandoc了,但是沒有留意,而最後選擇了Adobe Acrobat軟體。這不,今天使用Ipython notebook的時候,在將當前的筆記轉換為pdf下載的時候,提示我沒有安裝pandoc,我才知道並注意它。搗鼓了一番將其安裝在電腦上面,在user guide的幫助下發現很好用。立刻就忍不住寫了本部落格。

你可以從這個地方下載:點選下載

pandoc支援的輸入為:

markdown, CommonMark, and (subsets of ) Textile, reStructuredText, HTML, LaTeX, MediaWiki markup, TWiki markup, Haddock markup, OPML, Emacs Org-mode, DocBook, txt2tags, EPUB wand Word docx

它支援的輸出為:

Markdown, reStructuredText, XHTML, HTML5, LaTeX (including beamer slide shows), ConTeXt, RTF, OPML, DocBook, Open-Document, ODT, Word docx, GNU Texinfo, MediaWiki markup, DokuWiki markup, Haddock markup, EPUB, FictionBook2, Textile, groff man pages, Emacs Org-Mode, AsciiDoc, InDesign ICML, and Slidy, Slideous, DZSlides, reveal.js or S5 HTML slide shows.

一個很好的介紹,請參見:1.

2 一個例子

使用下面的命令為將一個latex檔案轉換成docx檔案:

pandoc -f latex -t docx -o main.docx main.tex

轉換後的結果讓人可以接受,雖然圖片和數學公式沒有轉換過來。

3 總結

pandoc的格式轉換將pdf忽略了,它產生的pdf文件實際上是由你電腦上安裝的LATEX引擎產生的。看來,由pdf直接轉換成docx或者doc這個問題還是一個難題。在這個問題上面,Adobe Acrobat做的相對不錯。

  1. John macFarlance. Pandoc User’s Guide. 2015.