1. 程式人生 > >爬蟲-----HTML解析

爬蟲-----HTML解析

一個 設備 數據 asc 避免 移動 title 裏的 自己

對HTML的解析:

  在解析復雜的HTML的頁面時,需要避免一些問題,好讓爬蟲工作變得得心應手。

  

  ? 尋找“打印此頁”的鏈接,或者看看網站有沒有HTML樣式更友好的移動版(把自己 的請求頭設置成處於移動設備的狀態,然後接收網站移動版)。

  ? 尋找隱藏在JavaScript文件裏的信息。要實現這一點,可能需要查看網頁加載的 JavaScript 文件。雖然網頁標題經常會用到,但是這個信息也許可以從網頁的URL鏈接裏獲取。

  • 如果要找的信息只存在於一個網站上,別處沒有,那確實是運氣不佳。如果不只限於這個網站,那麽可以找找其他數據源。有沒有其他網站也顯示了同樣的數據? 網站上顯示的數據是不是從其他網站上抓取後攢出來的?

爬蟲-----HTML解析