python 爬蟲如何用selenium抓取網頁內容

阿新 • • 發佈：2018-12-14

使用selenium爬取動態網頁資訊

Python selenium自動控制瀏覽器對網頁的資料進行抓取，其中包含按鈕點選、跳轉頁面、搜尋框的輸入、頁面的價值資料儲存、mongodb自動id標識等等等。首先介紹一下 Python selenium —自動化測試工具，用來控制瀏覽器來對網頁的操作，在爬蟲中與BeautifulSoup結合那就是天衣無縫，除去國外的一些變態的驗證網頁，對於圖片驗證碼我有自己寫的破解圖片驗證碼的原始碼，成功率在85%。使用conda管家安裝：在cmd命令列輸入“conda install selenium”進行安裝還需要安裝谷歌瀏覽器外掛Google Chrome Drive 設定環境變數在cmd下輸入Chrome就會開啟google

通過selenium訪問百度

from selenium import webdriver
#開啟一個瀏覽器
browser = webdriver.Chrome()
#準備一個網址
url = 'http://www.baidu.com'

browser.get(url)
#獲取元素
login = browser.find_elements_by_class_name('lb')[0]
print(login)

獲取網易雲音樂


from selenium import webdriver

#開啟瀏覽器
brower = webdriver.Chrome()
url='https://music.163.com/#/discover/toplist'
brower.get(url)

#尋找logo文字
#logo = brower.find_elements_by_class_name('logo')[0]
#print(logo.text)


#一般情況下動態載入的內容都可以找到

#有一種情況就沒有
#就是網頁記憶體在網頁框架iframe
#需要切換網頁的層級
#語法：brower.switch_to.frame(iframe的id或者你提前獲取這個物件，放入此處）

#方法一：id
#brower.switch_to.frame('g_iframe')
#方法二：name
#brower.switch_to.frame('contentFrame')
#方法三：提前用變數存iframe
iframe = brower.find_element_by_id('g_iframe')
brower.switch_to.frame(iframe)

#尋找大容器
toplist = brower.find_element_by_id('toplist')
#尋找tbody 通過標籤名
tbody = toplist.find_elements_by_tag_name('tbody')[0]
#尋找所有tr
trs = tbody.find_elements_by_tag_name('tr')


dataList = []
for each in trs:
    #排名
    rank = each.find_elements_by_tag_name('td')[0].find_elements_by_class_name('num')[0].text
    musicName = each.find_elements_by_tag_name('td')[1].find_elements_by_class_name('txt')[0].\
        find_element_by_tag_name('b').get_attribute('title')
    #print(musicName)
    singer = each.find_elements_by_tag_name('td')[3].find_elements_by_class_name('text')[0].\
        get_attribute('title')
    #print(singer)
    dataList.append([rank,musicName,singer])
#print(dataList)
from openpyxl import Workbook

wb = Workbook()
ws = wb.active
ws.title = '雲音樂飆升榜'
ws.append(['排名','歌名','歌手'])
for data in dataList:
    ws.append(data)

wb.save("雲音樂飆升榜.xlsx")

python 爬蟲如何用selenium抓取網頁內容

使用selenium爬取動態網頁資訊

通過selenium訪問百度

獲取網易雲音樂

python 爬蟲如何用selenium抓取網頁內容

python多執行緒抓取網頁內容並寫入MYSQL

Python爬蟲學習，抓取網頁上的天氣資訊

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

JAVA使用Gecco爬蟲抓取網頁內容

(PHP)用cURL抓取網頁資訊並替換部分內容

java爬蟲（使用jsoup設定代理，抓取網頁內容）

爬蟲用fiddler抓取網易新聞客戶端手機app內容

curl抓取網頁內容php

用Selenium抓取新浪天氣

php抓取網頁內容，獲取網頁資料

Python爬蟲實戰：抓取並儲存百度雲資源（附程式碼）

Python爬蟲案例：抓取豆瓣程式設計類高評分書籍

[Python爬蟲] 7-Charles抓取微信小程式

使用HttpComponents抓取網頁內容

python爬蟲小試例項--爬取網頁圖片並下載

用java抓取網頁圖片

【PHP-網頁內容抓取】抓取網頁內容的兩種常用方法

PHP抓取網頁內容獲得網頁原始碼

python 爬蟲 如何用selenium抓取網頁內容

使用selenium爬取動態網頁資訊

通過selenium訪問百度

獲取網易雲音樂

相關推薦

python 爬蟲如何用selenium抓取網頁內容