1. 程式人生 > >簡易資料分析 04 | Web Scraper 初嘗--抓取豆瓣高分電影

簡易資料分析 04 | Web Scraper 初嘗--抓取豆瓣高分電影

這是簡易資料分析系列的第 4 篇文章。

今天我們開始資料抓取的第一課,完成我們的第一個爬蟲。因為是剛剛開始,操作我會講的非常詳細,可能會有些囉嗦,希望各位不要嫌棄啊:)

有人之前可能學過一些爬蟲知識,總覺得這是個複雜的東西,什麼 HTTP、HTML、IP 池,在這裡我們都不考慮這些東西。一是小的資料量根本不需要考慮,二是這些亂七八糟的東西根本沒有說到爬蟲的本質。

爬蟲的本質是什麼?其實就是找規律。

而且爬蟲的找規律難度,大部分都是小學三年級的數學題水平。

我們下面拿個例子說明一下,下圖歷史文章的一個截圖,我們可以很清晰的看到,每一條推文可以分為三大部分:標題、圖片和作者,我們只要找到這個規律,就可以批量的抓取這類資料。

好了,理論的地方我們講完了,下面我們開始進行實操。

但凡做爬蟲練手,第一個爬取的網站一般都是豆瓣電影 TOP 250,網址連結是 https://movie.douban.com/top250?start=0&filter=。第一次上手,我們爬取的內容儘量簡單,所以我們只爬取第一頁的電影標題。

瀏覽器按 F12 開啟控制檯,並把控制檯放在網頁的下方(具體操作可以看上一篇文章),然後找到 Web Scraper 這個 Tab,點進去就來到了 Web Scraper 的控制頁面。

進入 Web Scraper 的控制頁面後,我們按照 Create new sitemap -> Create Sitemap

的操作路徑,建立一個新的爬蟲,sitemap 是啥意思並不重要,你就當他是個爬蟲的別名就好了。

我們在接下來出現的輸入框裡依次輸入爬蟲名和要爬取的連結。

爬蟲名可能會有字元型別的限制,我們看一下規則規避就好了,最後點選 Create Sitemap 這個按鈕,建立我們的第一個爬蟲。

這時候會跳到一個新的操作面板,不要管別的,我們直接點選 Add new selector 這個藍底白字的按鈕,顧名思義,建立一個選擇器,用來選擇我們想要抓取的元素。

這時候就要開始正式的資料抓取環節了!我們先觀察一下這個面板有些什麼東西:

1.首先有個 Id,這個就是給我們要爬取的內容標註一個 id,因為我們要抓取電影的名字,簡單起見就取個 name 吧;

2.電影名字很明顯是一段文字,所以 Type 型別肯定是 Text,在這個爬蟲工具裡,預設 Type 型別就是 Text,這次的爬取工作就不需要改動了;

3.我們把多選按鈕 Multiple 勾選上,因為我們要抓的是批量的資料,不勾選的話只能抓取一個;

4.最後我們點選黃色圓圈裡的 Select,開始在網頁上勾選電影名字;

當你把滑鼠移動到網頁時,會發現網頁上出現了綠色的方塊兒,這些方塊就是網頁的構成元素,當我們點選滑鼠時,綠色的方塊兒就會變為紅色,表示這個元素被選中了:

這時候我們就可以進行我們的抓取工作了。

我們先選擇「肖生克的救贖」這個標題,然後再選擇「霸王別姬」這個標題(注意:想達到多選的效果,一定要手動選取兩個以上的內容)

選完這兩個標題後,向下拉動網頁,你就會發現所有的電影名字都被選中了:

拉動網頁檢查一遍,發現所有的電影標題都被選中後,我們就可以點選 Done selecting!這個按鈕,表示選擇完畢;

點選按鈕後你會發現下圖的紅框位置會出現了一些字元,一般出現這個就表示選取成功了:

我們點選 Data preview 這個按鈕,就可以預覽我們的抓取效果了:

沒什麼問題的話,關閉 Data Preview 彈窗,翻到面板的最下面,有個 Save selector 的藍色按鈕,點選後我們會回退到上一個面板。

這時候你會發現多了一行資料,其實就是我們剛剛的操作內容被記錄下來了。

在頂部的 tab 欄,有一個 Sitemap top250 的 tab,這個就是我們剛剛建立的爬蟲。點選它,再點選下拉選單裡的 Scrape 按鈕,開始我們的資料抓取。

這時候你會跳到另一個面板,裡面有兩個輸入框,先別管他們是什麼,全部輸入 2000 就好了。

點選 Start scraping 藍色按鈕後,會跳出一個新的網頁,Web Scraper 外掛會在這裡進行資料抓取:

一般彈出的網頁自動關閉就代表著資料抓取結束了,我們點選面板上的 refresh 藍色按鈕,就可以看到我們抓取的資料了!

在這個預覽面板上,第一列是 web scraper 自動新增的編號,沒啥意義;第二列是抓取的連結,第三列就是我們抓取的資料了。

這個資料會儲存在我們的瀏覽器裡,我們也可以點選 Sitemap top250 下的 Export data as CSV,這樣就可以匯出成 .csv 格式的資料,這種格式可以用 Excel 開啟,我們可以用 Excel 做一些資料格式化的操作。

今天我們爬取了豆瓣電影TOP250 的第 1 頁資料(也就是排名最高的 25 部電影),下一篇我們講講,如何抓取所有的電影名。




推薦閱讀:

簡易資料分析 03 | 瀏覽器中那些不為人知的使用技巧

簡易資料分析 02 | Web Scraper 的下載與安裝

簡易資料分析 01 | 為什麼我們要學習資料分析?


相關推薦

簡易資料分析 04 | Web Scraper --豆瓣高分電影

這是簡易資料分析系列的第 4 篇文章。 今天我們開始資料抓取的第一課,完成我們的第一個爬蟲。因為是剛剛開始,操作我會講的非常詳細,可能會有些囉嗦,希望各位不要嫌棄啊:) 有人之前可能學過一些爬蟲知識,總覺得這是個複雜的東西,什麼 HTTP、HTML、IP 池,在這裡我們都不考慮這些東西。一是小的資料量根本

簡易資料分析 09 | Web Scraper 自動控制數量 & Web Scraper 父子選擇器

這是簡易資料分析系列的第 9 篇文章。 今天我們說說 Web Scraper 的一些小功能:自動控制 Web Scraper 抓取數量和 Web Scraper 的父子選擇器。 如何只抓取前 100 條資料? 如果跟著上篇教程一步一步做下來,你會發現這個爬蟲會一直運作,根本停不下來。網頁有 1000 條資

簡易資料分析 10 | Web Scraper 翻頁——「滾動載入」型別網頁

這是簡易資料分析系列的第 10 篇文章。 友情提示:這一篇文章的內容較多,資訊量比較大,希望大家學習的時候多看幾遍。 我們在刷朋友圈刷微博的時候,總會強調一個『刷』字,因為看動態的時候,當把內容拉到螢幕末尾的時候,APP 就會自動載入下一頁的資料,從體驗上來看,資料會源源不斷的加載出來,永遠沒有盡頭。

簡易資料分析 12 | Web Scraper 翻頁——分頁器翻頁的網頁

這是簡易資料分析系列的第 12 篇文章。 前面幾篇文章我們介紹了 Web Scraper 應對各種翻頁的解決方法,比如說修改網頁連結載入資料、點選“更多按鈕“載入資料和下拉自動載入資料。今天我們說說一種更常見的翻頁型別——分頁器。 本來想解釋一下啥叫分頁器,翻了一堆定義覺得很繁瑣,大家也不是第一年上網了,

簡易資料分析 13 | Web Scraper 高階用法——二級頁面

這是簡易資料分析系列的第 13 篇文章。 不知不覺,web scraper 系列教程我已經寫了 10 篇了,這 10 篇內容,基本上覆蓋了 Web Scraper 大部分功能。今天的內容算這個系列的最後一篇文章了,下一章節我會開一個新坑,說說如何利用 Excel 對收集到的資料做一些格式化的處理和分析。

簡易資料分析 02 | Web Scraper 的下載與安裝

這是簡易資料分析系列的第 2 篇文章。 上篇說了資料分析在生活中的重要性,從這篇開始,我們就要進入分析的實戰內容了。資料分析資料分析,沒有資料怎麼分析?所以我們首先要學會採集資料。 我調研了很多采集資料的軟體,綜合評定下來發現最好用的還是 Web Scraper,這是一款 Chrome 瀏覽器外掛。

簡易資料分析 07 | Web Scraper 多條內容

這是簡易資料分析系列的第 7 篇文章。 在第 4 篇文章裡,我講解了如何抓取單個網頁裡的單類資訊; 在第 5 篇文章裡,我講解了如何抓取多個網頁裡的單類資訊; 今天我們要講的是,如何抓取多個網頁裡的多類資訊。 這次的抓取是在簡易資料分析 05的基礎上進行的,所以我們一開始就解決了抓取多個網頁的問題,下面全

簡易資料分析 08 | Web Scraper 翻頁——點選「更多按鈕」翻頁

這是簡易資料分析系列的第 8 篇文章。 我們在Web Scraper 翻頁——控制連結批量抓取資料一文中,介紹了控制網頁連結批量抓取資料的辦法。 但是你在預覽一些網站時,會發現隨著網頁的下拉,你需要點選類似於「載入更多」的按鈕去獲取資料,而網頁連結一直沒有變化。 所以控制連結批量抓去資料的方案失效了,所以

簡易資料分析 11 | Web Scraper 表格資料

這是簡易資料分析系列的第 11 篇文章。 今天我們講講如何抓取網頁表格裡的資料。首先我們分析一下,網頁裡的經典表格是怎麼構成的。 First Name 所在的行比較特殊,是一個表格的表頭,表示資訊分類 2-5 行是表格的主體,展示分類內容 經典表格就這些知識點,沒了。下面我們寫個簡單的表格 Web

Web Scraper 高階用法——屬性資訊 | 簡易資料分析 16

這是簡易資料分析系列的第 16 篇文章。 這期課程我們講一個用的較少的 Web Scraper 功能——抓取屬性資訊。 網頁在展示資訊的時候,除了我們看到的內容,其實還有很多隱藏的資訊。我們拿豆瓣電影250舉個例子: 電影圖片正常顯示的時候是這個樣子: 如果網路異常,圖片載入失敗,就會顯示圖片的預設文

Web Scraper 翻頁——利用 Link 選擇器翻頁 | 簡易資料分析 14

這是簡易資料分析系列的第 14 篇文章。 今天我們還來聊聊 Web Scraper 翻頁的技巧。 這次的更新是受一位讀者啟發的,他當時想用 Web scraper 爬取一個分頁器分頁的網頁,卻發現我之前介紹的分頁器翻頁方法不管用。我研究了一下才發現我漏講了一種很常見的翻頁場景。 在 web scraper

Web Scraper 高階用法——利用正則表示式篩選文字資訊 | 簡易資料分析 17

![](https://image-1255652541.cos.ap-shanghai.myqcloud.com/images/20200317225112.png) 這是簡易資料分析系列的**第 17 篇**文章。 學習了這麼多課,我想大家已經發現了,web scraper 主要是用來爬取**

cgmodel簡易資料分析

      CG模型網(www.cgmodel.com / www.cgmodel.cn)是一個以3D模型為主,針對所有CG設計行業使用者的互動、展示平臺。2006年6月創立於湖南長沙,現有註冊設計師/藝術家120萬,網站秉承“分享”的理念,通過整合優質的模型資源,

資料分析04

4.最值 max/min:返回一個數組中最大/最小元素 argmax/argmin:返回一個數組中最大/最小元素的下標 maximum/minimum:將兩個同維陣列中對應元素中最大/最小元素構成一個新的陣列 ptp:返回一個數組中最大值和最小值之差 程式碼: # -*-

資料分析web後端選哪個?

WEB開發中“前端”和“後端”的區別如下:  一、Web前端:  1)精通HTML,能夠書寫語義合理,結構清晰,易維護的HTML結構。  2)精通CSS,能夠還原視覺設計,併兼容業界承認的主流瀏覽器。  3)熟悉JavaScript,瞭解ECMAScript基

簡易采集】美團數據方法 八爪魚

方法 IT 情況下 根據 規則 內置 教程 關鍵詞 查看 【簡易采集】美團數據抓取方法 最近學習了 一下 如何爬取數據 然後就接觸了 八爪魚 數據分析 這個軟件 詳細信息訪問這個:http://www.bazhuayu.com/tutorial/hottutoria

python實踐2——利用爬蟲豆瓣電影TOP250資料及存入資料到MySQL資料庫

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式,並將爬取到的資料(排名、電影名和電影海報網址)存入MySQL資料庫中。下面是完整程式碼:Ps:在執行程式前,先在MySQL中建立一個數據庫"pachong"。import pymysql import requests imp

“我插入MongoDB的資料都去哪了?”——明明到了資料,為啥不見了?

是因為抓取速度太頻繁被封了IP嘛? 不應該呀,明明設定了10幾秒的睡眠時間的呀 是因為資料大小超過了一定的大小嘛?聽說MongoDB要求單個Document要小於16Mb 最

用Scrapy豆瓣小組資料(一)

最近在coursera.org(線上學習平臺)上學SNA(Social Network Analysis,社交網路分析)。有興趣的同學可以去看一眼:https://class.coursera.org/sna-002/,課程講的很有意思,等回頭我上完全部課程打算再寫下

資料探勘_多執行緒

在這一篇文章中,我們主要來介紹多執行緒抓取資料。 多執行緒是以併發的方式執行的,在這裡要注意,Python的多執行緒程式只能執行在一個單核上以併發的方式執行,即便是多核的機器,所以說,使用多執行緒抓取可以極大地提高抓取效率下面我們以requests為例介紹多執行緒抓取,然後在