Python爬蟲-爬取鬥魚網頁selenium+bs

阿新 • • 發佈：2018-12-08

爬取鬥魚網頁（selenium+chromedriver得到網頁，用Beasutiful Soup提取資訊）

=============================

=================================

=======================================

#self.driver.page_source 得到頁面原始碼用 xml解析
soup = BeautifulSoup(self.driver.page_source, 'xml')

結果示例：

================================

 1 ''''
 2 任務：
 3 爬去鬥魚直播內容
 4 https://www.douyu.com/directory/all
 5 思路：
 6 1. 利用selenium得到頁面內容
 7 2. 利用xpath或者bs等在頁面中進行資訊提取
 8 '''
 9 
10 from selenium import webdriver
11 from bs4 import BeautifulSoup
12 
13 
14 class Douyu():
15     #初始化方法
16     def setUp(self):
17         self.driver = webdriver.Chrome()
 
18         self.url = 'https://www.douyu.com/directory/all'
19 
20 
21     def douyu(self):
22         self.driver.get(self.url)
23 
24         while True:
25             soup = BeautifulSoup(self.driver.page_source, 'xml')
26 
27             # 返回當前頁面所有放假標題列表和觀眾人數
28             titles = soup.find_all('h3 
', {'class':'ellipsis'})
29             nums = soup.find_all('span', {'class':'dy-num fr'})
30 
31             for title, num in zip(titles, nums):
32                 print("房間{0} 總共觀賞人數{1}".format(title.get_text().strip(), num.get_text().strip()))
33 
34     def destr(self):
35         self.driver.quit()
36 
37 if __name__ == '__main__':
38     douyu = Douyu()
39     douyu.setUp()
40     douyu.douyu()
41     douyu.destr()

Python爬蟲-爬取鬥魚網頁selenium+bs

爬取鬥魚網頁（selenium+chromedriver得到網頁，用Beasutiful Soup提取資訊） ============================= ================================= =============================

python+scrapy爬取鬥魚圖片

建立scrapy的專案請參考：https://blog.csdn.net/qq_35723619/article/details/83614670 items的實現： DouyumeinvSpider建立：這次我們爬去的是json資料包：我們可以通過network監控：

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

python爬蟲爬取鬥圖網最新表情包（第二篇）

上一篇文章爬的表情包是套圖，發現還有一千多頁的最新表情包。兩者的網頁結構有點區別，程式碼需要整改下，看下頁面，規律也比較好找。非常氣憤，上一個部落格被其他爬走了，還是一個培訓機構，插了自己的廣告！所有的表情圖片都是在標籤下，數了一下每一頁都是17行，

python爬蟲爬取淘寶網頁資料

O、requests 和 re 庫的介紹 requests庫是一個小型好用的網頁請求模組，可用於網頁請求，常用來編寫小型爬蟲安裝requests可以使用pip命令：在命令列輸入 pip install requests re庫是正則表示式庫，是p

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

Python3使用selenium爬取鬥魚直播平臺數據

進入鬥魚平臺首頁，點選頁面底部下一頁，發現url地址沒有發生變化，這樣的話再使用urllib2傳送請求將獲取不到完整的資料，這時候我們可以使用selenium和Chrome來模擬瀏覽器點選下一頁，這樣就可以獲取到完整的響應資料了程式程式碼： from selenium import

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(執行緒池版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from multiprocessing.dummy import Pool import t

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多執行緒版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from threading import Thread "

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多程序版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 1 import requests 2 from lxml import etree 3 from multiprocessing import JoinableQueue as Queue 4 from

python爬蟲——爬取網頁的中文

# 爬取網頁的中文內容 from urllib import request from bs4 import BeautifulSoup import pandas as pds import xlrd import docx #讀取excel def excel(fname):

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(ur

Python爬取鬥魚的彈幕，看看奇葩網友都說了些什麽

run 重要技術直接執行 number encoding noop 一段 0.前言前幾天(寒假前咯)閑著無聊，看到舍友們都在看鬥魚TV，雖然我對那些網絡遊戲都不是非常感興趣,但是我突然間想到，如果我可以獲取上面的彈幕內容,不就有點意思了麽？ 1.分析階段如果我想要

Python爬取鬥魚的彈幕，看看奇葩網友都說了些什麼

0.前言前幾天(寒假前咯)閒著無聊，看到舍友們都在看鬥魚TV，雖然我對那些網路遊戲都不是非常感興趣,但是我突然間想到，如果我可以獲取上面的彈幕內容,不就有點意思了麼？ 1.分析階段如果我想要抓取網頁上面的東西，無非就是兩種方法使用瀏覽器，手工（自己點選）或者非手工（

學會用python網路爬蟲爬取鬥圖網的表情包，聊微信再也不怕鬥圖了

最近總是有人跟我鬥圖，想了想17年中旬時在網上看過一篇關於爬取鬥圖網表情包的py程式碼，但是剛想爬的時候發現網頁結構發生了變化，而且鬥圖網還插入了很多廣告，變化其實挺大的，所以臨時寫了一個爬蟲，簡單的爬取了鬥圖網的表情包。從這連結上看，page表示的是第幾頁，我

Python爬蟲——爬取網頁中的圖片小試牛刀

Preface：以往爬取文字，這次需要爬取圖片pdf，先上手一個例子，爬取pdf，先取得url，然後通過urllib.urlretrieve函式將url的網頁內容遠端下載到本地，第一個引數為url，第二個引數為檔名(程式碼中有誤)，第三個引數為回撥函式，可以顯示下載進度。另

Python爬蟲爬取網頁資料並存儲（一）

環境搭建 1.需要事先安裝anaconda（或Python3.7）和pycharm *anaconda可在中科大映象下下載較快 2.安裝中遇到的問題： *anaconda（記得安裝過程中點新增路徑到path裡，沒新增的話手動新增：計算機右鍵屬性——高階系統設

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

今天想給我的電腦裡面多加點桌布，但是嫌棄一個個儲存太慢，於是想著寫個爬蟲直接批量爬取，因為爬蟲只是很久之前學過一些，很多基礎語句都不記得了，於是直接在網上找了個有基礎操作語句的爬蟲程式碼，在這上面進行修改以適應我的要求和爬取的網頁需求注意：這次爬取的

Python3-selenium\phantomjs\bs4爬取鬥魚頁面

from selenium import webdriver import time from bs4 import BeautifulSoup class douyuSelenium():

Python爬蟲-爬取鬥魚網頁selenium+bs

相關推薦