1. 程式人生 > >解壓了PDF 的stream部分,卻不想繼續分析了

解壓了PDF 的stream部分,卻不想繼續分析了

PDF stream 和endstream之間的部分需要解壓縮。 折騰了有一些日子才解壓成功。

用System.IO.Compression 空間下的GZipStream或DeflateStream(.net 2005 對應的.Net Framework還沒有,又裝了2008才有;有很多人說是.Net Framework2.0就有了, 沒細研究怎麼回事)

對我很有用,雖然答案在這個帖子裡還不明確。就是“stream之間的資料是二進位制,開啟檔案讀取的時候一定要以二進位制方式開啟”;我的做法是把pdf讀入byte[],然後找到/content 物件(我暫時還管不到image物件)的起始位置及長度然後將這部分byte[]傳入DeflateStream.

可是從文字流解壓出來的文字還是很複雜;滿眼的/tc /tw /tj /font...搞得我快沒信心了。在網上又瞎搜了一通, 很多人推薦pdfsharp,這個我之前下載過,現在再下新的版本,看看會不會有驚喜。