爬取鬥魚平臺

阿新 • • 發佈：2018-12-01

知識點：

1.運用selenium自動化驅動模組

2.find_elements_by_xpath（）與fin_element_by_xpath（）的區別，以及對元素的定位，內容的提取

3.獲取請求下一頁方法，注：time.sleep()

程式碼：

#encoding=utf-8
from selenium import webdriver
import time

class DouYu():
    def __init__(self):
        self.url = "https://www.douyu.com/directory/all"
        self.driver = webdriver.Chrome()

    def get_content_list(self):
        """
        get：每頁中直播間的內容資訊
        :return:
        """
        # 獲取使用者直播間的物件列表
        content_list = self.driver.find_elements_by_xpath(".//ul[@id='live-list-contentbox']/li")

        # 提取每頁每個直播間的資訊
        get_contents_list = []
        for content in content_list:
            dict = {}
            dict["room_img"] = content.find_element_by_xpath(".//span[@class='imgbox']/img").get_attribute("src")
            dict["room_name"] = content.find_element_by_xpath(".//a").get_attribute("title")
            dict["room_info"] = content.find_element_by_xpath(".//div[@class='mes-tit']/span").text
            get_contents_list.append(dict)
        # 獲取下一頁元素,獲得元素物件列表
        next_url = self.driver.find_elements_by_xpath("//a[@class='shark-pager-next']")
        # 獲取元素物件：next_url[0]
        next_url = next_url[0] if len(next_url) > 0 else None
        return get_contents_list, next_url

    def run(self):
        # 獲取請求
        self.driver.get(self.url)
        # 獲取請求頁內容列表,每頁的內容資訊
        get_contents_list, next_url = self.get_content_list()
        # 儲存
        print(get_contents_list)
        # 請求下一頁的元素
        while next_url is not None:
            next_url.click()
            time.sleep(3)
            get_contents_list, next_url = self.get_content_list()
            # 儲存
            print(get_contents_list)
            # with open("D:\\save.txt", "rb") as f:
            #     f.write(get_contents_list)
            #     f.close()

if __name__=="__main__":
    spider = DouYu()
    spider.run()

爬取鬥魚平臺

知識點： 1.運用selenium自動化驅動模組 2.find_elements_by_xpath（）與fin_element_by_xpath（）的區別，以及對元素的定位，內容的提取 3.獲取請求下一頁方法，注：time.sleep() 程式碼： #encoding=utf-8

多線程Beatiful Soup爬取鬥魚所有在線主播的信息

category con 讀取教程 stc https rom webkit date 　　最近看了個爬蟲的教程，想著自己也常在鬥魚看直播，不如就拿它來練練手。於是就寫了個爬取鬥魚所有在線主播的信息，分別為類別、主播ID、房間標題、人氣值、房間地址。　　需要用到的工具p

python+scrapy爬取鬥魚圖片

建立scrapy的專案請參考：https://blog.csdn.net/qq_35723619/article/details/83614670 items的實現： DouyumeinvSpider建立：這次我們爬去的是json資料包：我們可以通過network監控：

Python3使用selenium爬取鬥魚直播平臺數據

進入鬥魚平臺首頁，點選頁面底部下一頁，發現url地址沒有發生變化，這樣的話再使用urllib2傳送請求將獲取不到完整的資料，這時候我們可以使用selenium和Chrome來模擬瀏覽器點選下一頁，這樣就可以獲取到完整的響應資料了程式程式碼： from selenium import

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(執行緒池版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from multiprocessing.dummy import Pool import t

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多執行緒版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from threading import Thread "

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多程序版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 1 import requests 2 from lxml import etree 3 from multiprocessing import JoinableQueue as Queue 4 from

爬取鬥魚主播名字和熱度

from selenium import webdriver from lxml import etree import csv # 建立瀏覽器物件,發請求 driver = webdriver.Chrome() driver.get("https://www.douyu.com/director

Python爬蟲-爬取鬥魚網頁selenium+bs

爬取鬥魚網頁（selenium+chromedriver得到網頁，用Beasutiful Soup提取資訊） ============================= ================================= =============================

Python爬取鬥魚的彈幕，看看奇葩網友都說了些什麽

run 重要技術直接執行 number encoding noop 一段 0.前言前幾天(寒假前咯)閑著無聊，看到舍友們都在看鬥魚TV，雖然我對那些網絡遊戲都不是非常感興趣,但是我突然間想到，如果我可以獲取上面的彈幕內容,不就有點意思了麽？ 1.分析階段如果我想要

Python爬取鬥魚的彈幕，看看奇葩網友都說了些什麼

0.前言前幾天(寒假前咯)閒著無聊，看到舍友們都在看鬥魚TV，雖然我對那些網路遊戲都不是非常感興趣,但是我突然間想到，如果我可以獲取上面的彈幕內容,不就有點意思了麼？ 1.分析階段如果我想要抓取網頁上面的東西，無非就是兩種方法使用瀏覽器，手工（自己點選）或者非手工（

Python3-selenium\phantomjs\bs4爬取鬥魚頁面

from selenium import webdriver import time from bs4 import BeautifulSoup class douyuSelenium():

java爬取鬥魚：與虎牙對比

看了下鬥魚的基礎頁面，感覺和虎牙的有點像，但是實際上確有點不同。首先想要獲取頁數，看了鬥魚的html頁面，發現卻不顯示頁面。這是因為鬥魚把介面藏在了js頁面中，谷歌瀏覽器的右擊檢查那麼接下來就是選取一款可以解析js的工具並且提取裡面的資訊了。

python 爬取鬥魚 Ajax動態載入js分頁使用phontomjs無介面瀏覽器

python2.7版本 #coding:utf8 import unittest from selenium import webdriver from bs4 import BeautifulSo

使用Scrapy爬取鬥魚圖片

1.具體檔案結構 2.程式碼： items # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.

Python爬蟲實例（二）使用selenium抓取鬥魚直播平臺數據

def 獲取平臺 es2017 抓取設置 log ips driver 程序說明：抓取鬥魚直播平臺的直播房間號及其觀眾人數，最後統計出某一時刻的總直播人數和總觀眾人數。過程分析：一、進入鬥魚首頁http://www.douyu.com/directory/all 進

學會python可以上天！20行代碼獲取鬥魚平臺房間數據，就是這麽牛逼！

python 爬蟲 web 編程程序員Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且容易理解的標準庫，能夠輕松完成很多常見的任務。它的語法非常簡捷和清晰，與其它

用Python多線程實現生產者消費者模式爬取鬥圖網的表情圖片

Python什麽是生產者消費者模式某些模塊負責生產數據，這些數據由其他模塊來負責處理（此處的模塊可能是：函數、線程、進程等）。產生數據的模塊稱為生產者，而處理數據的模塊稱為消費者。在生產者與消費者之間的緩沖區稱之為倉庫。生產者負責往倉庫運輸商品，而消費者負責從倉庫裏取出商品，這就構成了生產者消費者模式。生

python3爬蟲 -----爬取鬥圖息-------www.doutula.com

run __init__ args gin uid == utf-8 date src 普通爬取： 1 # -*- coding:utf-8 -*- 2 # author:zxy 3 # Date:2018-10-21 4 import requests 5 f

python爬蟲爬取各大平臺女主播圖片

目標: 各大直播平臺~~~(虎牙,熊貓,鬥魚,全民),內的女主播直播封面圖片. 所需掌握知識: re正則表示式的,os模組,urllib模組剛剛將這幾個平臺的顏值區域女主播都爬了一遍,整體來說步驟大致相同,我們這裡就拿”虎牙直播”來做個示範,看懂之後,可以先去嘗試爬取”

爬取鬥魚平臺

相關推薦