網頁資料抓取--爬蟲

阿新 • • 發佈：2018-12-31

資料抓取其實從字面意思就知道它是抓取資料的，在網際網路世界中，資料量是一個非常大的。。有時候靠人為去獲取資料這是一個非常不明智的。尤其是你需要的資料來自很多不同的地方。

網路爬蟲是是一種按照一定的規則，自動地抓取網際網路資訊的程式或者指令碼。它主要抓取形式有兩種：1種是抓取網頁連結，通過url連結得到這個html頁面中指定的連結，把這些連結儲存起來，再依次以這些連結為源，再次爬取連結指向html頁面中的連結。

基本原理是：由關鍵字指定的url把所有相關的html頁面全抓下來（html即為字串），然後解析html文字（通常是正則表示式或者現成工具包如jsoup）

很多大型搜尋引擎，能夠獲取到那麼多你想要的資訊，大概就是通過這一方法。從不同的源頭，爬取到資料，然後根據演算法分析，將結果呈現給使用者。

下面介紹幾種我知道的工具，不是很熟悉，但是如果有用的到的話，可以來看看。。

爬蟲相關工具：

爬蟲工具：Ex-Crawler、Heritrix、heyDr、webmagic。。。。

HTTP工具：fiddler、charles

例子：

對於微博，通常情況下是必須登入才能看到微博資訊資料（比如騰訊微博），但是有的微博有搜尋機制，在非登入的情況下可以直接通過搜尋話題來查詢相關資訊（如新浪微博、網易微博）。考慮到某些反爬蟲機制，如果一個賬號總是爬取資訊可能會有些影響（比如被封號）。

例如：有的公司為分析某些理財產品的基本資訊，如利率、期限。就會將幾個公司不同的理財產品進行爬取，然後進行分析。。

例如：你想貸款買車，貸款公司可以通過在淘寶京東，這些大型的購物消費網站中，有的使用者購買習慣，消費水平，購買信譽等資訊，都是非常重要的。就會有公司通過分析這些使用者是否有資格進行貸款，或者貸款的利率該是多少。。（當然他們的評估手段還有很多）

網路爬蟲就是有這麼大的能力，讓你在網際網路中的行為，變成資料。。

從網頁抓取資訊是一個複雜的過程，需要應對的問題也很多，比如過濾無關內容、反爬、提高效率等