1. 程式人生 > >(轉)獲取HTML頁面內容後格式化顯示的辦法

(轉)獲取HTML頁面內容後格式化顯示的辦法

獲取html頁面內容的方法有很多了,一般都是連線上以後取得頁面的內容,然後進行分析。一般用JDK裡面提供的  URL和URLConnection 類,就可以實現;當然,也可以用其他工具來實現,比如 httpunit(用這個有時候會有問題,如果頁面裡面有反盜鏈的設定或者其他一些有問題的程式碼,很可能就連線不上了)。 如果單純只是想得到頁面的內容,用JDK裡面提供的類就足夠。

得到了頁面內容以後,怎麼顯示在我們自己的頁面上面呢?特別是要顯示在TEXTAREA這樣的區域裡面就會有點點麻煩。

因為我們獲得的內容裡面有html標記和javascript標記,或者css標記。

如果直接把這些內容打印出來,或者直接放到TEXTAREA裡面,就會報錯。。怎麼來解決?

一般大家都會想到用字串來替換,比如 把"<"替換成"[" 等等,或者用正則表示式,來過濾這些標記。

其實有一直很簡單方法,就是把得到的頁面內容放在<div></div>中間,例如:

<div id="content" style="display:none;">
.........
</div>

然後用javascript來取content,

function show()
{
 form1.content.value = document.getElementById("content").innerText;
}

這樣就自動過濾了那些煩人的標記了哦!!