Python爬蟲入門教程 19-100 51CTO學院IT技術課程抓取

阿新 • • 發佈：2019-01-07

寫在前面

從今天開始的幾篇文章，我將就國內目前比較主流的一些線上學習平臺數據進行抓取，如果時間充足的情況下，會對他們進行一些簡單的分析，好了，平臺大概有51CTO學院，CSDN學院，網易雲課堂，慕課網等平臺，資料統一抓取到mongodb裡面，如果對上述平臺造成了困擾，請見諒，畢竟我就抓取那麼一小會的時間，不會對伺服器有任何影響的。

1. 目標網站

今天的目標網站是 http://edu.51cto.com/courselist/index.html?edunav 資料量大概在1W+，還不錯
在這裡插入圖片描述

2. 分析頁面需要的資訊

下圖標註的框框，就是我們需要的資訊了
在這裡插入圖片描述

如果檢視原始碼，我們還能得到其他有價值的隱藏資訊，也同時的抓取到，另外，今天的主題不是下載圖片，所以針對課程縮圖，我只保留一個圖片連結到mongodb

裡面，就不做單獨的處理了。

在開發者工具中，繼續檢索有用資訊。發現一個獨家 這個資訊看似有用唉，可以做保留。

在這裡插入圖片描述

3. 分析爬取方式

分析完畢就是要爬取操作了，看一下這個網站是否是ajax動態載入的，如果不是，那麼就採用最笨的辦法爬取。
查閱網站原始碼之後，發現沒有非同步資料。
採用URL拼接的方式爬取即可。

URL規律如下，因為資料相對變化不大，末尾的頁碼是417，所以URL直接生成就可以了。

http://edu.51cto.com/courselist/index-p2.html
http://edu.51cto.com/courselist/index-p3.html
http://edu.51cto.com/courselist/index-p4.html
http://edu.51cto.com/courselist/index-p5.html
...
http://edu.51cto.com/courselist/index-p417.html

今天主要使用requests-html這個庫
github地址 : https://github.com/kennethreitz/requests-html 依舊是大神開發的，非常6。

我們拿51cto學院 完整的練個手

from requests_html import HTMLSession

BASE_URL = "http://edu.51cto.com/courselist/index.html"
def get_content():
    session = HTMLSession()
    r = session.get(BASE_URL)
    print(r.html)

if __name__ == '__main__':
    get_content()

使用上面的程式碼，就能快速的獲取到一個請求的響應了。
繼續編寫下面幾行程式碼之後，你不得不驚歎，我去~，資料都獲取到了！

    print(r.html)
    print(r.html.links)
    print(r.html.absolute_links)   # 獲取所有的絕對地址
    print(r.html.find('.cList',first=True))  # 獲取class=cList的第一個標籤
    c_list = r.html.find('.cList',first=True)
    print(c_list.text)

在這裡插入圖片描述
當然這些對咱來說還是遠遠不夠的，畢竟我們要把他寫入mongodb裡面

上面的只是叫你對這個庫有一個基本的認知，更多的資料你可以去他的教程網站查閱

http://html.python-requests.org/

4. 分析爬取方式

看一下非同步方式，非同步的出現可以為我們的爬蟲加速

在這裡插入圖片描述

這個地方有一個你一定要注意的，我寫這篇文章的時候，requests-html 是從github下載之後，更新的本次，你如果之前使用pip進行安裝，那麼非同步應該是沒有更新上去的。

好了，接下來我們實現一下非同步，可能由於作者認為非同步目前不是很穩定，所以我查閱了一下他的原始碼，然後實現瞭如下程式碼，寫的不好，請見諒~
下面的程式碼，注意看模組的區別，以及核心的非同步函式

async def get_html():
    for i in range(1,3):
        r =  await asession.get(BASE_URL.format(i))   # 非同步等待
        get_item(r.html)
if __name__ == '__main__':
    result = asession.run(get_html)

from requests_html import AsyncHTMLSession   # 匯入非同步模組

asession = AsyncHTMLSession()

BASE_URL = "http://edu.51cto.com/courselist/index-p{}.html"

async def get_html():
    for i in range(1,3):
        r =  await asession.get(BASE_URL.format(i))   # 非同步等待
        get_item(r.html)

def get_item(html):
    c_list = html.find('.cList',first=True)
    if c_list:
        items = c_list.find('.cList_Item')
        for item in items:
            title = item.find("h3",first=True).text # 課程名稱
            href = item.find('h3>a',first=True).attrs["href"]  # 課程的連結地址
            class_time = item.find("div.course_infos>p:eq(0)",first=True).text
            study_nums = item.find("div.course_infos>p:eq(1)", first=True).text
            stars = item.find("div.course_infos>div", first=True).text
            course_target = item.find(".main>.course_target", first=True).text
            price = item.find(".main>.course_payinfo h4", first=True).text
            dict = {
                "title":title,
                "href":href,
                "class_time":class_time,
                "study_nums":study_nums,
                "stars":stars,
                "course_target":course_target,
                "price":price
            }
            print(dict)

    else:
        print("資料解析失敗")

if __name__ == '__main__':
    result = asession.run(get_html)

程式碼執行之後，控制檯就會輸出相應的內容，上述程式碼中有個地方用到了大量的解析HTML，這個你搜索一下官方文件就可以看明白，不進行過多的解釋。
在這裡插入圖片描述

5. 寫入到mongodb裡面

這部分程式碼就非常非常簡單了
結果如下
在這裡插入圖片描述

實際的爬取過程中，也沒有發現反爬蟲的一些限制，不過咱畢竟是為了研究一下requests-html的用法，所以只能對51CTO網站說一句多有得罪，罪過罪過。

程式碼上面除了mongodb部分，基本是完整的，自己拷貝一下使用吧。

Python爬蟲入門教程 19-100 51CTO學院IT技術課程抓取

寫在前面從今天開始的幾篇文章，我將就國內目前比較主流的一些線上學習平臺數據進行抓取，如果時間充足的情況下，會對他們進行一些簡單的分析，好了，平臺大概有51CTO學院，CSDN學院，網易雲課堂，慕課網等平臺，資料統一抓取到mongodb裡面，如果對上述平臺造成了困擾，請見諒，畢竟我就抓取那麼一小會的時間，不

Python爬蟲入門教程 20-100 慕課網免費課程抓取

寫在前面美好的一天又開始了，今天咱繼續爬取IT線上教育類網站，慕課網，這個平臺的資料量並不是很多，所以爬取起來還是比較簡單的準備爬取開啟我們要爬取的頁面，尋找分頁點和檢視是否是非同步載入的資料。進行了一些相應的分析，發現並沒有非同步資料，只需要模擬翻頁就，在進行HTML的解析就可以獲取資料

Python爬蟲入門教程 18-100 煎蛋網XXOO圖片抓取

寫在前面很高興我這系列的文章寫道第18篇了，今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網http://jandan.net/ooxx，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用selenium在揍他一波

Python爬蟲入門教程 31-100 36氪(36kr)數據抓取 scrapy

published views lse format 後臺 get 速度 allow response 1. 36氪(36kr)數據----寫在前面今天抓取一個新聞媒體，36kr的文章內容，也是為後面的數據分析做相應的準備的，預計在12月底，爬蟲大概寫到50篇案例的時刻，

Python爬蟲入門教程 22-100 CSDN學院課程資料抓取

1. CSDN學院課程資料-寫在前面今天又要抓取一個網站了，選擇恐懼症使得我不知道該拿誰下手，找來找去，算了，還是抓取CSDN學院吧，CSDN學院的網站為 https://edu.csdn.net/courses 我看了一下這個網址，課程數量也不是很多，大概有 6000+ 門課程，資料量不大，用單執行緒其

Python爬蟲入門教程 3-100 美空網數據爬取

個數 exception 意思消費時間模塊 intel insert -o switch 簡介從今天開始，我們嘗試用2篇博客的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址

Python爬蟲入門教程 15-100 石家莊政民互動資料爬取

寫在前面今天，咱抓取一個網站，這個網站呢，涉及的內容就是網友留言和回覆，特別簡單，但是網站是gov的。網址為 http://www.sjz.gov.cn/col/1490066682000/index.html 首先宣告，為了學習，絕無惡意抓取資訊，不管

Python爬蟲入門教程 12-100 半次元COS圖爬取

寫在前面今天在瀏覽網站的時候，忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/ 開啟之後，發現也沒有什麼有意思的內容，職業的敏感讓我瞬間聯想到了 cosplay ，這種網站必然會有這個的存在啊，於是乎，我準備好我的大爬蟲了。把上面的連結開啟之後

Python爬蟲入門教程 12-100 二次元COS圖爬取

寫在前面今天在瀏覽網站的時候，忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/ 開啟之後，發現也沒有什麼有意思的內容，職業的敏感讓我瞬間聯想到了 cosplay ，這種網站必然會有這個的存在啊，於是乎，我準備好我的大爬蟲了。

Python爬蟲入門教程 21-100 網易雲課堂課程資料抓取

寫在前面今天咱們抓取一下網易雲課堂的課程資料，這個網站的資料量並不是很大，我們只需要使用requests就可以快速的抓取到這部分資料了。你第一步要做的是開啟全部課程的地址，找出爬蟲規律，地址如下： https://study.163.com/courses/ 我簡單的看了一下，頁面資料是基於

Python爬蟲入門教程 4-100 美空網未登入圖片爬取

簡介上一篇寫的時間有點長了，接下來繼續把美空網的爬蟲寫完，這套教程中編寫的爬蟲在實際的工作中可能並不能給你增加多少有價值的技術點，因為它只是一套入門的教程，老鳥你自動繞過就可以了，或者帶帶我也行。爬蟲分析首先，我們已經爬取到了N多的使用者個人主頁，我通過連結拼接獲取到了 www.moko.cc/

Python爬蟲入門教程 3-100 美空網資料爬取

簡介從今天開始，我們嘗試用2篇部落格的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址 http://www.moko.cc/post/1302075.html 然後在去分析一下，我需要找到一個圖片列表

Python爬蟲入門教程 2-100 妹子圖網站爬取

字典註意 while import 我們分鐘基礎便是訪問前言從今天開始就要擼起袖子，直接寫Python爬蟲了，學習語言最好的辦法就是有目的的進行，所以，接下來我將用10+篇的博客，寫爬圖片這一件事情。希望可以做好。為了寫好爬蟲，我們需要準備一個火狐瀏覽器，還

Python爬蟲入門教程 9-100 河北陽光理政投訴板塊

寫在前面之前幾篇文章都是在寫圖片相關的爬蟲，今天寫個留言板爬出，為另一套資料分析案例的教程做做準備，作為一個河北人，遵紀守法，有事投訴是必備的技能，那麼咱看看我們大河北人都因為什麼投訴過呢？今天要爬取的網站地址 http://yglz.tousu.hebne

Python爬蟲入門教程 4-100 美空網未登錄圖片爬取

表數價值圖片下載開發所有圖片 mpi focus .data data 簡介上一篇寫的時間有點長了，接下來繼續把美空網的爬蟲寫完，這套教程中編寫的爬蟲在實際的工作中可能並不能給你增加多少有價值的技術點，因為它只是一套入門的教程，老鳥你自動繞過就可以了，或者帶帶我也

Python爬蟲入門教程 5-100 27270圖片爬取

retrying ont star 都是 ram emp ret afa else 獲取待爬取頁面今天繼續爬取一個網站，http://www.27270.com/ent/meinvtupian/ 這個網站具備反爬，so我們下載的代碼有些地方處理的也不是很到位，大家重點

Python爬蟲入門教程 6-100 蜂鳥網圖片爬取之一

enter 第一步 {} status .... 一個網站分析 except rep 1. 簡介國慶假日結束了，新的工作又開始了，今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，

Python爬蟲入門教程 8-100 蜂鳥網圖片爬取之三

asyncio esp 分享圖片 0.10 結果 .text win int lang 啰嗦兩句前幾天的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊采用aiohttp 希望你喜歡爬取頁面https://tu.fengniao.com/15/ 本篇教程還

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的內容。

Python爬蟲入門教程 10-100 圖蟲網多線程爬取

全局變量 app str tlist img exception 父類 json urn 寫在前面經歷了一頓劈裏啪啦的操作之後，終於我把博客寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模塊，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢

Python爬蟲入門教程 19-100 51CTO學院IT技術課程抓取

寫在前面

1. 目標網站

2. 分析頁面需要的資訊

3. 分析爬取方式

4. 分析爬取方式

5. 寫入到mongodb裡面

相關推薦