Python爬取新浪微博使用者資訊及內容
新浪微博作為新時代火爆的新媒體社交平臺,擁有許多使用者行為及商戶資料,因此需要研究人員都想要得到新浪微博資料,But新浪微博資料量極大,獲取的最好方法無疑就是使用Python爬蟲來得到。網上有一些關於使用Python爬蟲來爬取新浪微博資料的教程,但是完整的介紹以及爬取使用者所有資料資訊比較少,因此這裡分享一篇主要通過selenium包來爬取新浪微博使用者資料的文章。
目標
爬取新浪微博使用者資料,包括以下欄位:id,暱稱,粉絲數,關注數,微博數,每一篇微博的內容,轉發數,評論數,點贊數,釋出時間,來源,以及是原創還是轉發。(本文以GUCCI(古馳)為例)
方法
+使用selenium模擬爬蟲
+使用BeautifulSoup解析HTML
結果展示

步驟分解
1.選取爬取目標網址
首先,在準備開始爬蟲之前,得想好要爬取哪個網址。新浪微博的網址分為網頁端和手機端兩個,大部分爬取微博資料都會選擇爬取手機端,因為對比起來,手機端基本上包括了所有你要的資料,並且手機端相對於PC端是輕量級的。
下面是GUCCI的手機端和PC端的網頁展示。

2.模擬登陸
定好爬取微博手機端資料之後,接下來就該模擬登陸了。
模擬登陸的網址
登陸的網頁下面的樣子

模擬登陸程式碼


3.獲取使用者微博頁碼
在登入之後可以進入想要爬取的商戶資訊,因為每個商戶的微博量不一樣,因此對應的微博頁碼也不一樣,這裡首先將商戶的微博頁碼爬下來。與此同時,將那些公用資訊爬取下來,比如使用者uid,使用者名稱稱,微博數量,關注人數,粉絲數目。

image.png
4.根據爬取的最大頁碼,迴圈爬取所有資料
在得到最大頁碼之後,直接通過迴圈來爬取每一頁資料。抓取的資料包括,微博內容,轉發數量,評論數量,點贊數量,發微博的時間,微博來源,以及是原創還是轉發。


4.在得到所有資料之後,可以寫到csv檔案,或者excel,最後的結果顯示在上面展示
文章到這裡完整的微博爬蟲就解決啦!
最後,如果有想一起學習python,爬蟲,可以來一下我的python學習裙【 784758214 】,內有安裝
包和學習視訊資料免費分享,好友都會在裡面交流,分享一些學習的方法和需要注意的小細節,每天
也會準時的講一些專案實戰案例。
點選: ofollow,noindex">加入