用selenium爬新浪部落格demo

阿新 • • 發佈：2018-11-06

經過一週的爬蟲學習，對python的爬蟲有了一些瞭解。寫一個小demo記錄一下學習成果。

匯入selenium包

from selenium import webdriver
# 捕獲異常，用於當部落格取完之後不報錯
from selenium.common.exceptions import NoSuchElementException

自動開啟谷歌瀏覽器

driver = webdriver.Chrome()
# 自動啟動谷歌瀏覽器
main_window = driver.current_window_handle
# 瀏覽器視窗
url = 'http://blog.sina.com.cn/s/articlelist_5698901077_0_1.html'
# 部落格地址
driver.get(url)

對部落格進行解析

while True:
    boke_list = driver.find_elements_by_xpath('//div[@class = "articleCell SG_j_linedot1"]')
    # 爬取所有部落格放在list裡
    print(boke_list)
    try:
        for boke in boke_list:
            # 迴圈遍歷每一篇部落格
            title = boke.find_element_by_xpath('.//p/span/a').text
            # 用xpath找到每篇部落格題目並輸出
            print(title)
            tag_a = boke.find_element_by_xpath('.//p/span/a')
            # 找到文章的詳情連結
            tag_a.click()
            # click事件開啟詳情頁
            boke_detail_window = driver.window_handles[-1]
            # 因為詳情頁，有兩個頁面，所以找到視窗的最後一個，也就是新開啟的那個
            driver.switch_to.window(boke_detail_window)
            # 選中新開啟的頁面
            content = driver.find_element_by_xpath('.//div[contains(@class, "articalContent")]').text
            # 獲取新開啟頁面裡邊的部落格內容
            print(content)
            driver.close()
            # 關閉頁面
            driver.switch_to.window(main_window)
            # 選擇主頁面，也就是最初的頁面
            # blog = bytes(title+content)
            blog = '{title}.txt'.format(title=title)
            with open(blog,'w') as f:
                f.write(content)
            # 以文章標題為名儲存為txt文件
    except NoSuchElementException as e:
        print('爬取完畢')
        break

用selenium爬新浪部落格demo

經過一週的爬蟲學習，對python的爬蟲有了一些瞭解。寫一個小demo記錄一下學習成果。匯入selenium包 from selenium import webdriver # 捕獲異常，用於當部落格取完之後不報錯 from selenium.common.exceptions i

Python爬蟲爬取一篇韓寒新浪部落格

網上看到大神對Python爬蟲爬到很多有用的資訊，覺得很厲害，突然對想學Python爬蟲，雖然自己沒學過Python，但在網上找了一些資料看了一下，看到爬取韓寒新浪部落格的視訊，共三集，第一節講爬

Word直接釋出新浪部落格(以Word 2010為例)

目前大部分的部落格作者在用Word寫部落格這件事情上都會遇到以下3個痛點： 1.所有部落格平臺關閉了文件釋出介面，使用者無法使用Word，Windows Live Writer等工具來發布部落格。使用Word寫部落格需要在第三方部落格平臺註冊帳號，且需要第三方部落格平臺提供API介面。目前的有的部落格平臺均已

手把手教你做一個新浪部落格釋出軟體JAVA版本（4）--開啟部落格釋出頁面

前言：很多人用新浪部落格引流，但是以前可以用api釋出，但是現在已經行不通了，市面上也有諸如新浪部落格批量釋出軟體啦，新浪部落格批量發帖啦，新浪部落格釋出軟體啊等等的各種工具，但是小心中槍，一不小心就封號處理了，所以得不償失，於是乎就想自己寫一個

手把手教你做一個新浪部落格釋出軟體JAVA版本（3）--開啟瀏覽器並且登入新浪部落格

在eclipse中新建一個工程（可以自行搜尋怎麼建立，鑑於不是給小白使用者看的，我就不羅嗦怎麼建立了，後面如果有空我補上）。然後新建一個程式：注意要把sikuli-script.jar這個包引入到工程裡裡面。另外還有注意的一個地方，把我們在（手把手教你做一個新浪部落格釋

手把手教你做一個新浪部落格釋出軟體JAVA版本（2）--環境準備

前言：很多人用新浪部落格引流，但是以前可以用api釋出，但是現在已經行不通了，市面上也有諸如新浪部落格批量釋出軟體啦，新浪部落格批量發帖啦，新浪部落格釋出軟體啊等等的各種工具，但是小心中槍，一不小心就封號處理了，所以得不償失，於是

手把手教你做一個新浪部落格釋出軟體JAVA版本（1）--開頭的話

前言：很多人用新浪部落格引流，但是以前可以用api釋出，但是現在已經行不通了，市面上也有諸如新浪部落格批量釋出軟體啦，新浪部落格批量發帖啦，新浪部落格釋出軟體啊等等的各種工具，但是小心中槍，一不小心就封號處理了，所以得不償失，於是乎就想自己寫一個，找來找去，找

新浪部落格搬家過來的東西

雜七雜八複習一 1、子類能繼承父類的構造器嗎？構造方法可以被重寫嗎？不能。子類不能繼承父類構造器，也不能重寫構造方法。子類構造的開始位置如果不寫super呼叫父類構造，JVM會隱式的呼叫無參構造；如果此時父類沒有無參構造，就會報錯。 2.SpringMVC那塊獲取頁

[轉] 如何設定雙網絡卡同時連線內網外網_bpao_新浪部落格

已剪輯自: http://blog.sina.com.cn/s/blog_5d3e229c0100skwe.html 如何設定雙網絡卡同時連線內網外網 1、通過無線網路連線外網，確保連線成功後開始第二步。 2、有線網絡卡連線內網，設定固定IP，子網掩碼，不要設定閘道器。 &nbs

不喜歡的工作，可能通往一個嶄新世界(轉自周鴻褘新浪部落格）

與88後的座談（二）不喜歡的工作，可能通往一個嶄新世界這個世界是聯絡在一起的，每一個不喜歡的任務，都可能是向你敞開的另一個世界的大門。只有走進去，不斷髮現新的事物，你才真正知道到底自己喜歡不喜歡這個工作。我經常收到年輕同事的郵件，向我吐槽說不喜歡自己的工作

前方高能——新浪部落格博文去白底

很多時候，每當我們發現“新大陸”總會在第一時間“佔為己有”，及時分享到自己的部落格。可是在轉移的過程中，大家普遍採用“複製”“貼上”的方法，這就避免不了貼上過來的內容在發表後出現白底，看著很不舒服，可是又去不掉。先前我採用的方法就是自己再敲一遍，對於短篇內容還好說，至於長篇的

2011的總結（感謝自己，感恩他人）【轉自我的新浪部落格】

從小學開始，我就夢想著一個舞臺，是個大舞臺，總有一天，我會駕著七彩祥雲走上去，獲得一個光榮的獎項。只是，我夢到了開頭，卻不知道結局。我從來沒有走上過這樣一個舞臺，也沒有獲得這樣一個光榮的獎項。中學以前學習成績一般，大學學習好了，但也不流行頒獎

新浪部落格規則釋出失敗程式碼（分享）

sinablog新浪部落格API錯誤程式碼說明：{B01001:"標題必須是48箇中文或96個字元以內，請重新輸入。", B02001:"請輸入內容。", B02002:"內容超出博文容量限制，請重新編輯！<br/>博文內容最多允許100000個字元。", B0

在新浪部落格上新增“我的足跡攜程版”

圖2 javascript程式碼的結果這說明返回的javascript，就是用document.write向頁面寫入了圖片和一些文字連結。檢視網頁原始碼，果然不出我所料。程式碼如下： document.write("<div style='margin:0;padding:0;width:37

新浪部落格搬家測試賬號

這是一個浮躁的年代。不只是現在的大學生，成功的it業人士也有很嚴重的浮躁情緒。sohu的總裁張朝陽不也說過一年讓sogo超越baidu的話嗎？多少人希望一夜成名，擁有所有的一切，成為千萬億萬富翁或者瞬間達到自己的目標。但是it業不同於超級女生的舞臺，雖然我們也可以看到的是某某抓住了機會，一下子

按鍵精靈--批量寫新浪部落格

//請在下面寫上您的子程式或函式 //寫完儲存後，在任一命令庫上點選右鍵並選擇“重新整理”即可 Sub 自動發新浪部落格(Title,Artic) PID = Plugin.Web.Bind("wqm.exe") //部落格地址 Call Plugin.Web.Go("http://control.blog.

純自創新浪部落格前端專案js和html自己寫時操作步驟詳細,用到的圖片已上傳,已90%但非完整專案

//這部分是html檔案 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"&

用selenium爬取淘寶美食

display cts win clas .get cto 分享 element nal ‘‘‘利用selenium爬取淘寶美食網頁內容‘‘‘ import re from selenium import webdriver from selenium.common.

部落格搬家系列（二）-爬取CSDN部落格

部落格搬家系列（二）-爬取CSDN部落格一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（三）-爬取部落格園部落格：https://bl

python 爬蟲爬去自己部落格的訪問量

廢話不多說，我也是剛剛學習小白一個，但是經過我的測試確實是可以用的，只不過大家要把時間設定的要長一點先上程式碼，使用py3 程式碼的相關解析可以看我的其他部落格，裡面有詳細的介紹 __author__ = 'MrChen' &

用selenium爬新浪部落格demo

相關推薦