1. 程式人生 > >網頁資料抓取--爬蟲

網頁資料抓取--爬蟲

       資料抓取其實從字面意思就知道它是抓取資料的,在網際網路世界中,資料量是一個非常大的。。有時候靠人為去獲取資料這是一個非常不明智的。尤其是你需要的資料來自很多不同的地方。

        網路爬蟲是是一種按照一定的規則,自動地抓取網際網路資訊的程式或者指令碼。它主要抓取形式有兩種:1種是抓取網頁連結,通過url連結得到這個html頁面中指定的連結,把這些連結儲存起來,再依次以這些連結為源,再次爬取連結指向html頁面中的連結。

基本原理是:由關鍵字指定的url把所有相關的html頁面全抓下來(html即為字串),然後解析html文字(通常是正則表示式或者現成工具包如jsoup)


很多大型搜尋引擎,能夠獲取到那麼多你想要的資訊,大概就是通過這一方法。從不同的源頭,爬取到資料,然後根據演算法分析,將結果呈現給使用者。

下面介紹幾種我知道的工具,不是很熟悉,但是如果有用的到的話,可以來看看。。

爬蟲相關工具:

        爬蟲工具:Ex-Crawler、Heritrix、heyDr、webmagic。。。。

        HTTP工具:fiddler、charles

例子:

對於微博,通常情況下是必須登入才能看到微博資訊資料(比如騰訊微博),但是有的微博有搜尋機制,在非登入的情況下可以直接通過搜尋話題來查詢相關資訊(如新浪微博、網易微博)。考慮到某些反爬蟲機制,如果一個賬號總是爬取資訊可能會有些影響(比如被封號)。

例如:有的公司為分析某些理財產品的基本資訊,如利率、期限。就會將幾個公司不同的理財產品進行爬取,然後進行分析。。

例如:你想貸款買車,貸款公司可以通過在淘寶京東,這些大型的購物消費網站中,有的使用者購買習慣,消費水平,購買信譽等資訊,都是非常重要的。就會有公司通過分析這些使用者是否有資格進行貸款,或者貸款的利率該是多少。。(當然他們的評估手段還有很多)

網路爬蟲就是有這麼大的能力,讓你在網際網路中的行為,變成資料。。

從網頁抓取資訊是一個複雜的過程,需要應對的問題也很多,比如過濾無關內容、反爬、提高效率等