關於爬取新浪微博，記憶體耗用過高的問題

阿新 • • 發佈：2018-12-26

最近在做網際網路輿情分析時，需要爬取新浪微博做相關實驗。雖然新浪微博開放了相關輿論的API，然而申請什麼的，並不想做，而且輿情變化快，最終還是自己爬取，相關輿情。

在用selenium的時候，有時候經常發現記憶體耗用特別高，很詫異，別人也都說selenium的速度慢等，很多缺點，甚至有時候爬蟲的速度慢的令人髮指。前兩天決定重寫爬蟲，重點解決爬蟲的速度問題。

今天終於解決了，原來是一些xpath定位不嚴謹背鍋，在爬取相關輿情的時候，我都會讓selenium習慣性的點選一下“展開全文”

。這樣獲取的文字會更加全面。但是這樣會有定位相同的情況，那就是如下圖的時候：

圖一

正常的定位不做篩選，使得selenium對於這兩種情況都會點選，而第二種情況連結的視訊或者文章，會使得記憶體很高。而系統在執行相關的scripts的時候，會等待全部載入成功再開始執行爬取下一頁的命令。而開啟相關的這些scripts，會非常的耗時間，如果是視訊，selenium會等待視訊載入完畢，再執行下一步命令。相關篩選程式碼如下：

full_content = browser.find_elements_by_xpath('//*[@id="pl_feedlist_index"]/div[1]/div/div/div[1]/div[2]/p[1]/a/i')
full_content1 = [i for i in full_content if i.text=='c']  
for i in full_content1:
     i.click()
     time.sleep(0.5)
print('帶有展開全文的文章的個數：','---------',len(full_content1))

既然提到selenium速度慢和其他的一些問題，就說一下我的相關的解決思路：

使用多執行緒爬蟲加快爬取資訊的速度，但是，對於很多的網站，需要登入的，爬蟲的速度也不是越快越好，速度越快，代表越有可能被系統識別。正常最好，和人的行為越相似，selenium被發現的機率就會越低。
在載入爬蟲的時候，可以選在不同的載入策略。
pageLoadStrategy設定
上面這段話的大致意思是，對於一個新載入的dom，頁面啥時候開始接受命令由頁面的載入策略決定，也就是說，我們通過修改頁面載入策略，可以使頁面即使處於載入中，也能接受我們的命令，從這點可以解決webdriver.get的阻塞問題。而每類webdriver都有一個對應的配置檔案放在特定的類DesiredCapabilities裡面，通過修改裡面的pageLoadStrategy，可以使webdriver的頁面載入策略發生改變。
```
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.support.ui import WebDriverWait

desired_capabilities = DesiredCapabilities.CHROME  # 修改頁面載入策略
desired_capabilities["pageLoadStrategy"] = "none"  # 註釋這兩行會導致最後輸出結果的延遲，即等待頁面載入完成再輸出

driver = webdriver.Chrome('browsers/chromedriver.exe')
wait = WebDriverWait(driver, 10)  #後面可以使用wait對特定元素進行等待

driver.get('http://qzone.qq.com/')
# some code to work.

print("Reach end.")
```
上面我們可以看到，將頁面載入策略修改為none之後，頁面即使在載入過程中，程式也可以繼續執行。程式碼中的pageLoadStrategy屬性可以設定為以下三種屬性：

normal

即正常情況下，selenium會等待整個介面載入完成（指對html和子資源的下載與解析，不包括ajax）

eager

要等待整個dom樹載入完成，即DOMContentLoaded這個事件完成，僅對html的內容進行下載解析

none

當html下載完成之後，不等待解析完成，selenium會直接返回

上面的程式碼用了最後一種解析方式——none，不作等待，直接返回，然後在後面的程式碼中可以用explicit_wait或者implicit_wait等方式來對特定元素進行等待捕捉，具體使用可以參考官方文件，這裡不做詳細描述。

設定等待時間加中斷JS 載入。

time.sleep(x)
browser.execute_script('window.stop()')

在selenium爬取的時候根據需要載入不同的頭部檔案

chrome_options = Options()
chrome_options.add_argument('--disable-gpu') #谷歌文件提到需要加上這個屬性來規避bug
chrome_options.add_argument('--hide-scrollbars') #隱藏滾動條, 應對一些特殊頁面
chrome_options.add_argument('--headless')#無頭模式，隱藏瀏覽器
chrome_options.add_argument('blink-settings=imagesEnabled=false') #不載入圖片, 提升速度

以上，就是我經常使用的爬蟲的四種策略。

關於爬取新浪微博，記憶體耗用過高的問題

最近在做網際網路輿情分析時，需要爬取新浪微博做相關實驗。雖然新浪微博開放了相關輿論的API，然而申請什麼的，並不想做，而且輿情變化快，最終還是自己爬取，相關輿情。在用selenium的時候，有時候經常發現記憶體耗

Python爬取新浪微博用戶信息及內容

pro 目標 oss 來源但是 blog .com 交流 exc 新浪微博作為新時代火爆的新媒體社交平臺，擁有許多用戶行為及商戶數據，因此需要研究人員都想要得到新浪微博數據，But新浪微博數據量極大，獲取的最好方法無疑就是使用Python爬蟲來得到。網上有一些關於使用Py

scrapy爬取新浪微博並存入MongoDB中

spider.pyimport json from scrapy import Request, Spider from weibo.items import * class WeiboSpider(Spider): name = 'weibocn'

python3[爬蟲實戰] 爬蟲之requests爬取新浪微博京東客服

爬取的內容為京東客服的微博及評論思路:主要是通過手機端訪問新浪微博的api介面，然後進行資料的篩選，這個主要是登陸上去的微博的url連結，可以看到的介面：這裡主要爬取的內容為：說說，說說下面的評論條目雖然很簡單，但是，不得不說句mmp，爬

用python寫網路爬蟲-爬取新浪微博評論

新浪微博需要登入才能爬取，這裡使用m.weibo.cn這個移動端網站即可實現簡化操作，用這個訪問可以直接得到的微博id。分析新浪微博的評論獲取方式得知，其採用動態載入。所以使用json模組解析json程式碼單獨編寫了字元優化函式，解決微博評論中的嘈雜干擾

爬蟲爬取新浪微博

這周的第一個小任務：爬取動態網頁，拿新浪微博做例子，我爬取了指定使用者微博的基本資訊，包括暱稱，性別，粉絲數，關注人數和主頁地址，還有發過的所有微博的地址和資訊內容，如果轉發時沒有說任何內容的話只會顯示轉發了微博。需要注意的是網頁版資訊量太大，用手機端的也就

java 使用htmlunit模擬登入爬取新浪微博頁面

import java.io.IOException; import java.net.MalformedURLException; import com.gargoylesoftware.htmlunit.BrowserVersion; import com.gargoy

【python 新浪微博爬蟲】python 爬取新浪微博24小時熱門話題top500

一、需求分析模擬登陸新浪微博,爬取新浪微博的熱門話題版塊的24小時內的前TOP500的話題名稱、該話題的閱讀數、討論數、粉絲數、話題主持人，以及對應話題主持人的關注數、粉絲數和微博數。二、開發語言 python2.7 三、需要匯入模組 import

java爬取新浪微博帶有“展開全文”的完整微博文字

獲取新浪微博“展開全文”的完整文字在個人主頁的響應中，這篇微博的表示形式是這樣的： <div class=\"WB_text W_f14\" node-type=\"feed_list_content\" nick-name=\"Vista看天下\">\n

WebCollector教程——爬取新浪微博

下載本教程需要兩套jar包，WebCollector核心jar包和selenium的jar包。 selenium的maven依賴： <dependency> <groupId>org.seleniumhq.sele

爬取新浪微博使用者的個人資訊和微博內容

#-*- coding:utf-8 -*- """ 爬取新浪微博的使用者資訊功能：使用者ID 使用者名稱粉絲數關注數微博數微博內容網址：www.weibo.cn 資料量更少相對於 www.weibo.cn """ import time impo

[python爬蟲] Selenium爬取新浪微博內容及使用者資訊

登入入口新浪微博登入常用介面：http://login.sina.com.cn/ 對應主介面：http://weibo.com/但是個人建議採用手機端微博入口：http://login.weibo.cn/login/ 其原因是手機端資料相對更輕量型，同時基本資料都齊全，可能缺少些個人基本資訊，如"個人資料

爬取新浪微博評論及點贊數並存儲為excel的.csv格式

1、獲取cookie，先進入微博頁面登陸微博，如進入https://m.weibo.cn/status/4173028302302955後登陸，再使用chrome的F12可方便地獲取自己的cookie，獲取Cookie所需的選擇項如下圖所示，往下拉會看到自己的Cookie。

用python爬取新浪微博資料（無需手動獲取cookie)

從java 轉為python from selenium import webdriver import selenium from selenium.webdriver.common.desired_capabilities import DesiredCapabi

Scrapy爬取新浪微博移動版使用者首頁第一條微博

大家好，本月第一次更新。最近找了一份關於爬蟲的實習工作，需要爬取較大量的資料，這時就發現通過自己編寫函式來實現爬蟲效率太慢了；於是又轉回來用scrapy，以前稍微學習了一下，這次剛好爬爬微博練練手，而後再使用部分資料生成詞雲。本次爬取的是新浪微博移動端（https://m.weibo.cn/），爬取的

原始碼推薦(6.16)：高仿新浪微博，支付寶（高仿）原始碼

模仿新浪微博做的一款app，有傳送博文，評論，點贊，私聊功能（修復了滑動會卡的bug）使用到的第三方庫： AVOSCloud AVOSCloudIM JSBadgeView fmdb MBProgressHUD SDWebImage MessageDisplayKit

Python爬取新浪微信評論，瞭解一下

環境： Python3 + windows。開發工具：Anaconda + Jupyter / VS Code/pycharm/sublime等等都可以（你開心就好）學習效果：認識爬蟲 / Robots協議瞭解瀏覽器開發者工具動態載入頁面

2018秋招運維面試題彙總(新浪微博，小米，百度，vipkid等)

小白的運維面試經驗分享：一.百度一面：第一次面試，是電話面試，當時正在睡覺，接到電話趕緊去洗把臉清醒了一下，這次電話面試大概65分鐘吧，問的東西很多很多，基本像網路，資料結構，C，C++，運維相關知識都問到了，感覺還是很有水平的一個面試哈哈哈： 1.做一下自

基於scrapy的分散式爬蟲抓取新浪微博個人資訊和微博內容存入MySQL

為了學習機器學習深度學習和文字挖掘方面的知識，需要獲取一定的資料，新浪微博的大量資料可以作為此次研究歷程的物件一、環境準備 python 2.7 scrapy框架的部署（可以檢視上一篇部落格的簡要操作，傳送門：點選開啟連結） mysql的部署（需要的資源

關於爬取新浪微博，記憶體耗用過高的問題

相關推薦