1. 程式人生 > >學習爬蟲看著篇(基礎篇)

學習爬蟲看著篇(基礎篇)

src robots 利潤 請求響應 網絡數據 不能 聚焦 海量 音樂

1.爬蟲的定義

網絡爬蟲(又稱網絡蜘蛛)模擬客戶端發送網絡請求,接收請求響應,自動的進行抓取網絡數據的程度。

註意: 網絡爬蟲在進行抓取數據的時候並不能進行辨別信息真偽(比如某直播平臺直播房間顯示在線觀看人數100w,在這個數量上會有一些是運營商加上去的數據,比如真正在線人數80w運營商再加上去20w,網絡爬蟲抓取的就是100w和用戶在瀏覽器中看到的一樣)網絡爬蟲僅僅是可以爬到用戶在瀏覽器可以看到的。

2.爬蟲的目的

1.建立網站 進行數據展示 (某新聞網)

? 某新聞網,並不是做新聞的公司,用戶點擊新聞會跳轉到其他真正的新聞網站,那麽該網站就是通過抓取其他網站上的信息進行在自己的網站上進行展示。

技術分享圖片

2.建立音樂播放器(主要為了推送廣告)

如果我們後續想要做一個和網易雲音樂類似的音樂網站會先在免費的網站上(如:You Tube等)通過抓取音樂信息或者視頻信息(只提取音樂部分)放在自己的播放器上進行播放,然後通過投放廣告賺取商業利潤。

技術分享圖片

3.進行數據分析 (為大數據和人工智能做準備)

? 通過在網上抓取海量數據,進行數據分析,挖掘出想得到的特定的目的。

3.爬蟲的分類

網站排名影響因素:PageRank算法、點擊量、相關度、引用量(像文獻的影響因子)

通用爬蟲(流程)

技術分享圖片

聚焦爬蟲(流程)

? URL循環為了拿到響應數據的詳情頁 或者多頁爬蟲的時候

技術分享圖片

4.爬蟲的內容

URL地址請求的響應 (不包括HTML、 js、 css、 圖片等)

5.Robots協議

Robots協議:網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是道德層面上的約束。

技術分享圖片

上圖是一個網站的robots協議,道德層面的協議,同一個網站對不同的搜索引擎具有不同的協議要求(競爭力、準備進入相關市場)。

學習爬蟲看著篇(基礎篇)