利用Twitter開放者平臺爬取Twitter資料

阿新 • • 發佈：2019-01-14

前言

Twitter對外提供了api介面且Twitter官方提供了Python第三方庫Tweepy，因此我直接參考Tweepy文件寫程式碼。現在Twitter國內是訪問不了的，我配置了Shadowsocks代理，ss預設是用socks5協議，對於Terminal的get,wget等走Http協議的地方是無能為力的，所以需要轉換成Http代理，從而加強通用性，這裡使用的轉換方法是基於Polipo（一種快取web代理）。（注：windows版的Shadowsocks是支援http的，不用轉換，可以直接跑程式）。

建立APP

進入https://apps.twitter.com/，建立自己的app。只有有了app才可以訪問twitter的api並抓取資料。只需建立最簡單的app即可，各種資訊隨意填寫，並不需要進一步的認證，我們要的只是app的Consumer Key (API Key)， Consumer Secret (API Secret)， Access Token 和 Access Token Secret。

安裝Tweepy和Shadowsocks

apt-get install python3-pip
pip3 install tweepy
pip3 install shadowsocks

注：Shadowsocks的正常使用需要伺服器端（所有的翻牆軟體都是通過伺服器端），而搭建伺服器端，你就需要有自己的vps，現在普遍使用的搭建伺服器端的vps主要包括3種，一個是Linode，一個是DigitalOcean，一個是BandwagonHOST(搬瓦工)，這是從價格，效能等方面做出的推薦。搭建Shadowsocks伺服器端步驟也很簡單，在vps上安裝Shadowsocks再配置一下就可以了。這裡我已經有了ss賬號和密碼這些引數，所以我只要使用ss的客戶端功能。沒有ss賬號的可以到網上購買或者共享。

配置Shadowsocks

我已經有了ss賬號，我只需要使用ss的客戶端功能。主要用到的命令即sslocal（sslocal –help檢視幫助）。
啟動ss客戶端可以採用sslocal+各項引數啟動，這裡方便起見我使用配置檔案啟動。
sudo vim /etc/shadowsocks.json //自己建立一個配置檔案
配置檔案的內容大致如下（這裡伺服器指的是作為ss服務端的機子）：

{
    "server":"伺服器ip",
    "server_port":伺服器埠,
    "local_address": "127.0.0.1",
    "local_port":1080 
,
    "password":"密碼",
    "timeout":600,
    "method":"aes-256-cfb"
}

啟動ss客戶端

sudo sslocal -c /etc/shadowsocks.json

轉換為http代理

這裡轉換方法是基於Polipo（ Polipo 已經停止維護，建議使用 squid, privoxy 等其它方案。privoxy等安裝配置過程類似）。
安裝Polipo：

sudo apt-get install polipo

修改配置檔案：sudo vim /etc/polipo/config
修改為：

# This file only needs to list configuration variables that deviate
# from the default values.  See /usr/share/doc/polipo/examples/config.sample
# and "polipo -v" for variables you can tweak and further information.

logSyslog = false
logFile = /var/log/polipo/polipo.log
socksParentProxy = "127.0.0.1:1080"
socksProxyType = socks5
chunkHighMark = 50331648
objectHighMark = 16384
serverMaxSlots = 64
serverSlots = 16
serverSlots1 = 32
proxyAddress = "0.0.0.0"
proxyPort = 8520

注：其中8520是代理埠號，可以自行修改。
重啟Polipo:service polipo restart
驗證代理是否正常工作(在終端視窗依次輸入)：

export http_proxy="http://127.0.0.1:8520/" 
curl www.google.com

如果抓取到了Google的網頁內容，說明啟動且配置正確。

簡單測試例子

import tweepy  

#填寫twitter提供的開發Key和secret  
consumer_key = ' '  
consumer_secret = ' '  
access_token = ' '  
access_token_secret = ' '  

#提交你的Key和secret  
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)  
auth.set_access_token(access_token, access_token_secret)  

#獲取類似於內容控制代碼的東西  
#api = tweepy.API(auth)
#我這裡代理地址是127.0.0.1:8520
api = tweepy.API(auth,proxy="127.0.0.1:8520")  

#列印使用者主頁上的時間軸裡的內容  
public_tweets = api.user_timeline('realDonaldTrump')  

for tweet in public_tweets:  
    print(tweet.text)

利用Twitter開放者平臺爬取Twitter資料

前言

建立APP

安裝Tweepy和Shadowsocks

配置Shadowsocks

轉換為http代理

簡單測試例子

利用Twitter開放者平臺爬取Twitter資料

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

根據地理位置和關鍵詞爬取twitter資料並生成詞雲

根據使用者ID爬取Twitter資料

爬取twitter的思路

Python爬蟲之利用正則表達式爬取內涵吧

如何利用Python網絡爬蟲爬取微信朋友圈動態--附代碼（下）

利用高德API + Python爬取鏈家網租房資訊 01

利用appium和Android模擬器爬取微信朋友圈(解決每次重啟登入)

利用linux curl爬取網站資料

爬取不得姐網站，利用多執行緒來爬取

手把手教你利用前端字型檔案(.ttf)混淆數字來阻止爬蟲爬取網站資料

利用python爬蟲技術動態爬取地理空間資料雲中的元資料（selenium）

利用正則表示式處理爬取的今日頭條內容資料（Python爬蟲資料清洗）

利用scrapy框架遞迴爬取菜譜網站

利用Python爬取房產資料！並在地圖上顯示！Python乃蒂花之秀！

利用requests+分析ajax+mogodb爬取並存儲攜程酒店資料

實戰利用Xpath爬取網頁資料

利用requests和正則爬取貓眼電影top100榜單

爬取xml資料之R

利用Twitter開放者平臺爬取Twitter資料

前言

建立APP

安裝Tweepy和Shadowsocks

配置Shadowsocks

轉換為http代理

簡單測試例子

相關推薦