Python + Selenium 爬取網易雲課堂課時標題及時長

阿新 • • 發佈：2019-01-01

Python + Selenium 爬取網易雲課堂課時標題及時長

轉載請註明出處：https://blog.csdn.net/jpch89/article/details/84142555

文章目錄

Python + Selenium 爬取網易雲課堂課時標題及時長

軟體安裝
目標頁面
程式碼

說明
study163seleniumff.py
helper.py

最終結果

軟體安裝

selenium
pip install selenium
geckodriver
https://github.com/mozilla/geckodriver/releases/

目標頁面

https://study.163.com/course/introduction.htm?courseId=1006078212#/courseDetail?tab=1

一開始用常規方法請求下來，發現原始碼中根本找不到任何課時資訊，說明該網頁用 JavaScript 來動態載入內容。
使用開發者工具分析一下，發現瀏覽器請求瞭如下的地址獲取課時詳情資訊：
https://study.163.com/dwr/call/plaincall/PlanNewBean.getPlanCourseDetail.dwr?1542346982156
在預覽介面可以看到各課時資訊的 Unicode 編碼。
嘗試直接請求上述地址，顯然會報錯，不想去研究請求頭具體應該傳哪些引數了，直接上 Selenium，反正就爬一個頁面，對效能沒什麼要求。

程式碼

說明

study163seleniumff.py 是主執行檔案
helper.py 是輔助模組，與主執行檔案同目錄
geckodriver.exe 需要放在 ../drivers/ 這個相對路徑下

study163seleniumff.py

from selenium.webdriver import Firefox
from 
 selenium.webdriver.firefox.options import Options
from lxml import etree
import csv
from helper import Chapter, Lesson

# 請求資料
url = 'https://study.163.com/course/introduction.htm?courseId=1006078212#/courseDetail?tab=1'

options = Options()
options.add_argument('-headless')  # 無頭引數
driver = Firefox(
    executable_path='../drivers/geckodriver',
    firefox_options=options)
driver.get(url)
text = driver.page_source
driver.quit()

# 解析資料
html = etree.HTML(text)
chapters = html.xpath('//div[@class="chapter"]')
TABLEHEAD = ['章節號', '章節名', '課時號', '課時名', '課時長']
rows = []

for each in chapters:
    chapter = Chapter(each)
    lessons = chapter.get_lessons()
    for each in lessons:
        lesson = Lesson(each)
        chapter_info = chapter.chapter_info
        lesson_info = lesson.lesson_info
        values = (*chapter_info, *lesson_info)
        row = dict(zip(TABLEHEAD, values))
        rows.append(row)

# 儲存資料
with open('courseinfo.csv', 'w', encoding='utf-8-sig', newline='') as f:
    writer = csv.DictWriter(f, TABLEHEAD)
    writer.writeheader()
    writer.writerows(rows)

helper.py

class Chapter:
    def __init__(self, chapter):
        self.chapter = chapter
        self._chapter_info = None

    def parse_all(self):
        # 章節號
        chapter_num = self.chapter.xpath(
            './/span[contains(@class, "chaptertitle")]/text()')[0]
        # 去掉章節號最後的冒號
        chapter_num = chapter_num[:-1]
        # 章節名
        chapter_name = self.chapter.xpath(
            './/span[contains(@class, "chaptername")]/text()')[0]
        return chapter_num, chapter_name

    @property
    def chapter_info(self):
        self._chapter_info = self.parse_all()
        return self._chapter_info
    
    def get_lessons(self):
        return self.chapter.xpath(
            './/div[@data-lesson]')


class Lesson:
    def __init__(self, lesson):
        self.lesson = lesson
        self._lesson_info = None

    @property
    def lesson_info(self):
        # 課時號
        lesson_num = self.lesson.xpath(
            './/span[contains(@class, "ks")]/text()')[0]
        # 課時名
        lesson_name = self.lesson.xpath(
            './/span[@title]/@title')[0]
        # 課時長
        lesson_len = self.lesson.xpath(
            './/span[contains(@class, "kstime")]/text()')[0]
        self._lesson_info = lesson_num, lesson_name, lesson_len
        return self._lesson_info

最終結果

最終結果儲存為 courseinfo.csv，與主執行檔案同路徑。
在這裡插入圖片描述

完成於 2018.11.16

Python + Selenium 爬取網易雲課堂課時標題及時長

Python + Selenium 爬取網易雲課堂課時標題及時長轉載請註明出處：https://blog.csdn.net/jpch89/article/details/84142555 文章目錄 Python + Selenium 爬取網易雲課堂課時標

Python爬取網易雲課堂課程資料

本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，

爬取網易雲課堂、網易公開課課程資料

二話不說，先上程式碼~ import requests import json def getdata(index): a=input("呼叫gedata方法") print("正在抓取{index}頁資料") payload = {"pageIndex":ind

使用python-aiohttp爬取網易雲音樂

通過上文《使用python-aiohttp搭建微信公眾平臺》，我們已經可以響應來自微信伺服器的請求，接下來，我們為公眾號增加一個線上點歌的功能。由於本人平時聽歌用的是網易雲音樂，所以就在網上搜了一下，還真找到不少，再考慮到這裡只需要用到網易雲音樂的關鍵詞搜尋

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

Python實例之抓取網易雲課堂搜索數據（post方式json型數據）並保存為TXT

網易雲 pytho sco 關鍵詞 page json ner urn 頁碼本實例實現了抓取網易雲課堂中以‘java’為關鍵字的搜索結果，經詳細查看請求的方式為post，請求的結果為JSON數據具體實現代碼如下： import requests import json

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

如何用Python網絡爬蟲爬取網易雲音樂歌曲

今天 http 分享圖片分享圖片分分鐘參考 down 技術今天小編帶大家一起來利用Python爬取網易雲音樂，分分鐘將網站上的音樂down到本地。跟著小編運行過代碼的筒子們將網易雲歌詞抓取下來已經不再話下了，在抓取歌詞的時候在函數中傳入了歌手ID和歌曲名兩個參數

如何用Python網絡爬蟲爬取網易雲音樂歌詞

網易雲歌詞 Python網絡爬蟲網絡爬蟲前幾天小編給大家分享了數據可視化分析，在文尾提及了網易雲音樂歌詞爬取，今天小編給大家分享網易雲音樂歌詞爬取方法。本文的總體思路如下：找到正確的URL，獲取源碼；利用bs4解析源碼，獲取歌曲名和歌曲ID；調用網易雲歌曲API，獲取歌詞；將歌詞寫入

python爬取網易雲音樂歌曲評論信息

webkit fun 數據包 cond bubuko ret value selenium apple 　　網易雲音樂是廣大網友喜聞樂見的音樂平臺，區別於別的音樂平臺的最大特點，除了“它比我還懂我的音樂喜好”、“小清新的界面設計”就是它獨有的評論區了——————各種故事匯

利用python廣西快樂十分源碼出租爬取網易雲歌手top50歌曲歌詞

代碼提示安裝 json 如果 https enc utf _id ebp python廣西快樂十分源碼出租 dsluntan.com Q:3393756370 VX:17061863513近年來，發展迅速，成為了最炙手可熱的語言。那麽如何來進行網易雲歌手top50的歌

python爬取網易雲歌曲資訊及下載連結並簡單展示

我們選取的爬取目標是歌單這一塊兒 chrome瀏覽器 f12抓包經過簡單的解析，拿到歌曲分類名字 create_table_sql = 'create table ’ + i + ‘(id int auto_increment primary key,song_name varch

python爬取網易雲歌單

背景這學期報了一門海量資料處理，在資料處理前需要爬取一些內容。所以做了一個小練習，爬取網易雲的歌單。其中包括歌單名稱，播放量和url地址。網易雲還是具有一些反爬措施的，這裡主要說以下幾個方面以及我的應對措施。無法直接訪問我沒有實踐過直接訪問網易雲音樂

python爬取網易雲音樂資料

1.首先匯入2個第三方庫，json庫是標準庫，用到的有Requests庫，Beautisoup庫，json庫 2.分析網站，當然是f12 開發者工具了，firefox瀏覽器的開發者工具個人用著比chrome的好用一點。用開發者工具之前要先明白你要找什麼資料，我想抓取的是霹靂布袋戲的

Python爬取網易雲音樂歌單內所有歌曲

一、目標：下載網易雲音樂熱門歌單二、用到的模組： requests，multiprocessing，re。三、步驟：（1）頁面分析：首先開啟網易雲音樂，選擇熱門歌單，可以看到以下歌單列表，然後開啟開發者工具本人對於Python學習建立了一個小小的學習圈子，為

python爬取網易雲音樂，python下載網易雲音樂

import requests import time import os from urllib import request from bs4 import BeautifulSoup import urllib class Wy: page = 0 wymusic = {}

用python爬取網易雲音樂，新手看了也能操作

今天小編帶大家一起來利用Python爬取網易雲音樂，分分鐘將網站上的音樂down到本地。跟著小編執行過程式碼的筒子們將網易雲歌詞抓取下來已經不再話下了，在抓取歌詞的時候在函式中傳入了歌手ID和歌曲名兩個引數，其實爬取歌曲也是同樣的道理，也需要傳入這兩個引數，只不過網易雲歌曲的

Python爬取網易雲音樂熱門評論

import requests import json def get_hot_comments(res): comments_json = json.loads(res.text) hot_comments = comments_json['hotComm

爬蟲入門——用python爬取網易雲音樂熱門歌手評論數

本文參考Monkey_D_Newdun 的文章用爬蟲獲取網易雲音樂熱門歌手評論數執行平臺：Windows 10IDE：spyderPython版本：3.6瀏覽器：360一、爬蟲基本思路a. 通過URL或者檔案獲取網頁：開啟網頁-F12-找到需要獲取的url，request h

python爬取網易雲音樂評論

前言上篇爬取喜馬拉雅FM音訊的最後也提到過，這回我們爬取的就是網易雲音樂的熱評+評論。本人用了挺久的網易雲，也是非常喜歡…閒話不多說，跟著我的思路來看看如何爬取網易雲的熱評+評論~ 目標本次我們爬取的目標是–網易雲音樂歌曲的熱評以及普通評論我們

Python + Selenium 爬取網易雲課堂課時標題及時長

Python + Selenium 爬取網易雲課堂課時標題及時長

文章目錄

軟體安裝

目標頁面

程式碼

說明

最終結果

相關推薦