筆記：《Python網路爬蟲》

阿新 • • 發佈：2018-12-16

頁面資料提取

簡單的text文字提取

通過 F12, Ctrl+Shift+C 快捷鍵從網頁中直接抓取資料

程式碼如下：

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://jr.jd.com")
html_content = html.read()
html.close()  # 關閉url

# 利用bs4解析html文字
bsoup = BeautifulSoup(html_content, " 
html.parser")

# 解析全部class="nav-item-primary"的<a>標籤
bs_elem_set = bsoup.find_all("a", "nav-item-primary")  # <class 'bs4.element.ResultSet'>
for elem_tag in bs_elem_set:
    # print(type(elem_tag))  # <class 'bs4.element.Tag'>
    print("Debug::title_elem -->> ", elem_tag.get_text())

測試結果：

動態網頁的資料提取

案例：我們想從網易歌單 https://music.163.com/#/discover/playlist 中查詢播放次數超過500萬的全部歌單，查詢關鍵字

但事實上，通過 <span class="nb">29135</span> 我們什麼也沒有提取到……

從網頁原始碼中我們可以知道，該網頁通過javascript動態更新資料，我們得到的 nb=29135 資料行在 urlopen() 時尚未被js程式碼更新……

用Python 解決這個問題只有兩種途徑：

直接從 JavaScript 程式碼裡採集內容；

或者用 Python 的第三方庫執行 JavaScript，直接採集你在瀏覽器裡看到的頁面。

通過 Selenium 執行Js指令碼，模擬瀏覽器載入動態網頁。程式碼如下：

from selenium import webdriver

browser = webdriver.PhantomJS()  # deprecated... replace by webdriver.Chrome() or Firefox()
browser.get("https://music.163.com/#/discover/playlist")

browser.switch_to.frame("contentFrame")
list_elems = browser.find_element_by_id("m-pl-container")\
                    .find_elements_by_tag_name("li")

for elem in list_elems:
    # print(type(elem))  # <class 'selenium.webdriver.remote.webelement.WebElement'>
    str_nb = elem.find_element_by_class_name("nb").text
    print(str_nb)  # I don't care the name, but just print the <nb>

browser.close()

首先需要 pip3 install selenium 模組；載入動態網頁用的是 Headless 的 PhantomJS 瀏覽器，需要單獨安裝：choco install PhantomJS。

ps：最新版本的 selenium 棄用了 PhantomJS，呃...不過忽略那個報警，我們這裡還是可以繼續執行的。

PhantomJS

筆記：《Python網路爬蟲》

引自：《手把手教你寫網路爬蟲》頁面資料提取簡單的text文字提取通過 F12, Ctrl+Shift+C 快捷鍵從網頁中直接抓取資料程式碼如下： from urllib.request import urlopen from bs4 import Beautifu

[筆記]python網路爬蟲：一個簡單的定向爬取大學排名資訊示例

爬取的網站資訊 <div class="section"><a id="zhb" name="zhb"></a> <div class="title t2"><h1><img

python網路爬蟲（web spider）系統化整理總結（二）：爬蟲python程式碼示例(兩種響應格式：json和html)

上一篇部落格（入門知識篇），對爬蟲有了一個基本的瞭解，但是具體怎麼實現一個爬蟲程式呢？一般情況下，我們在瀏覽器獲取資訊，是

python網路爬蟲（web spider）系統化整理總結（一）：入門

接觸爬蟲很久了，一直沒有個系統的理解和整理，近來假日無事，總結一下。 -------------------------------------------以下是目錄--------------------------------------------------------- 一、爬蟲概

分享《精通Python網路爬蟲：核心技術、框架與專案實戰》中文PDF+原始碼

下載：https://pan.baidu.com/s/1DqeZDF-MOAQ6hlNx2fq3JA 《精通Python網路爬蟲：核心技術、框架與專案實戰》中文PDF+原始碼PDF，306頁，帶書籤目錄。配套原始碼。系統介紹Python網路爬蟲，注重實戰，涵蓋網路爬蟲原理、如何手寫Python網路爬蟲、

嵩天教授的Python網路爬蟲與資訊提取課程筆記——單元1. requests庫入門

本文目錄 Requests庫介紹 requests.get(url, params, **kwargs)方法及其他請求方法介紹 Response類屬性簡介 Reponse類中的encoding與app

Python網路爬蟲學習筆記——第一個爬蟲程式

執行環境語言 Python3 第三方庫 pip install reqeusts pip install BeautifulSoup4 pip install jupyter 線上編輯器安裝 jupyter 模組後，在cmd視窗中執行命令jupyte

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

[Python]網路爬蟲（五）：urllib2的使用細節與抓站技巧

前面說到了urllib2的簡單入門，下面整理了一部分urllib2的使用細節。 1.Proxy 的設定 urllib2 預設會使用環境變數 http_proxy 來設定 HTTP Proxy。如果想在程式中明確控制 Proxy 而不受環境變數的影響，可以使用代理。

Python 網路爬蟲筆記3 -- Beautiful Soup庫

Python 網路爬蟲筆記3 – Beautiful Soup庫 Python 網路爬蟲系列筆記是筆者在學習嵩天老師的《Python網路爬蟲與資訊提取》課程及筆者實踐網路爬蟲的筆記。一、Beau

Python 網路爬蟲筆記4 -- 資訊標記與提取

Python 網路爬蟲筆記4 – 資訊標記與提取 Python 網路爬蟲系列筆記是筆者在學習嵩天老師的《Python網路爬蟲與資訊提取》課程及筆者實踐網路爬蟲的筆記。一、資訊標記 1、XML：

Python網路爬蟲與資訊提取_爬蟲例項（學習筆記）

慕課課程學習筆記 1. 京東商品頁面的爬取 1.採用get()方法，獲取Response物件； import requests url = 'https://item.jd.com/100000947807.html' r = requests.get(url)

實戰 Python 網路爬蟲：美團美食商家資訊和使用者評論

實戰 Python 網路爬蟲美團美食商家資訊和使用者評論作者簡介：Hyx，多年系統研發經驗，主要

Python網路爬蟲（三）：chromdriver.exe與chrome版本對映及下載連結

前言：最近正在學習Python網路爬蟲，學到selenium，需要用到chrome瀏覽器的驅動，但是網上的很多地址都被牆了，而且沒有準確的驅動和chrome版本的對映，很麻煩。現在我已經解決了這些問題，現在把對映和下載連結分享出來。（一）檢視chrome

用網路爬蟲爬取新浪新聞----Python網路爬蟲實戰學習筆記

今天學完了網易雲課堂上Python網路爬蟲實戰的全部課程，特在此記錄一下學習的過程中遇到的問題和學習收穫。我們要爬取的網站是新浪新聞的國內版首頁下面依次編寫各個功能模組 1.得到某新聞頁面下的評論數評論數的資料是個動態內容，應該是存在伺服器

Python網路爬蟲（四）：視訊下載器

這一節實現一個下載 iqiyi VIP視訊的爬蟲。需要的準備：旋風視訊VIP解析網站或其他解析網站原理理解：在視訊解析網站獲取視訊的過程中，首先會向視訊伺服器傳送GET請求，獲得伺服器發來的資訊；接到資訊後，再向伺服器POST資料，即將類似於密碼

python網路爬蟲：股票資料定向爬取

步驟說明步驟1：從東方財富網獲取股票列表步驟2：逐一獲取股票程式碼，並增加到百度股票的連結中，最後對這些連結進行逐個的訪問獲得股票的資訊步驟3：將結果儲存到檔案程式碼實現爬取當天一天的股票資料（上海，深圳交易所的） import reques

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。背景： Python版本：Anaconda3 執行平臺：Windows IDE：PyCharm 資料庫：MongoDB 瀏

筆記：《Python網路爬蟲》

頁面資料提取

簡單的text文字提取

動態網頁的資料提取

相關推薦