基於搜狗微信的公眾號文章爬蟲
阿新 • • 發佈:2018-12-14
需求分析
先來看一下目標網站。
這次爬取的內容是通過搜狗微信的介面獲取微信文章的 url 然後提取目標文章的內容及公眾號資訊。
可以指定內容進行爬取
那這次需要解決的問題有哪些呢?
需要解決的問題
搜狗微信在沒有登入的情況下可以爬取十頁資訊,我們想要獲取更多的資訊只能登入。在登入的情況下,爬取資料量太大會被封 IP 。這裡給出的解決方案是使用代理池的方法。我這裡是自己搭建了一個小的IP代理池,在我以前的文章裡有詳細的描述,可以 點這裡 檢視。
程式碼演示
proxy = None # 宣告代理為 None 也就是開始的時候用本機的ip爬取
count_max = 5 # 設定一個連線錯誤,如果連線超過五次都出錯就停止爬取,要不然程式陷入死迴圈。
# 請求頭的設定要加上cookie
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
}
# 獲取代理
def get_proxy():
proxy = GetIP()
return proxy.get_random_ip()
# 請求頁面,這裡主要使用了代理,一開始使用的是本機代理,被封之後換個ip來爬。
def get_request(url,count= 1):
global proxy
if count >= count_max:
print('請求太多次了,這個方法不行啦,換換吧')
try:
if proxy:
proxies = {'http': 'http://' + proxy}
r = requests.get(url, headers=headers,proxies=proxies, allow_redirects=False)
else:
print('第一次請求,使用本機的ip')
r = requests.get(url,headers=headers,allow_redirects= False)
if r.status_code == 200:
print('第一頁')
return r.text
if r.status_code == 302:
print('狀態碼302了,快換代理吧')
proxy = get_proxy()
if proxy:
print('正在使用代理爬取', proxy)
return get_request(url)
else:
print('獲取代理出錯')
return None
except ConnectionError as e:
count += 1
proxy = get_proxy()
return get_request(url,count)
解釋
這裡是整個程式碼的核心,我們先用本機的 ip 來爬取資料,如果爬取的量大起來,會封 ip ,然後 url 會重定向到輸入驗證碼的頁面,我們可以根據狀態碼是 302 來判斷這一情況,然後使用代理。並遞迴呼叫函式本身用ip來爬。
有些時候狀態碼不是302,也不是200 ,這時候就是連線的問題,我們也使用代理來解決這一問題。並計數,連接出現問題的次數超過五次就停止,這樣的情況下是別的問題,不要讓在自己呼叫自己死迴圈,退出重新檢查程式碼邏輯。
我的程式碼裡面沒有加 cookie ,使用的時候加上cookie 才能爬取十頁以後的內容。
# 解析頁面得到微信文章的詳情url
def parse_page(html):
data = etree.HTML(html)
li = data.xpath('//ul[@class="news-list"]/li')
for i in li:
url = i.xpath('./div[2]/h3[1]/a/@href')[0]
parse_detial(url)
break
# 解析詳情頁獲取微信公眾號標題,作者,內容。
def parse_detial(url):
response = requests.get(url,headers=headers)
if response.status_code == 200:
html = etree.HTML(response.text)
title = html.xpath('//h2[@id="activity-name"]/text()')
if title:
title = title[0].strip()
wechat_name = html.xpath('//a[@id="js_name"]/text()')
if wechat_name:
wechat_name = wechat_name[0].strip()
wechatid = html.xpath('//span[@class="profile_meta_value"]/text()')[0]
# 獲取內容,xpath 雖然好用,但是這一時半會也沒找到怎麼獲取文章內容的方法,就用 pyquery 吧,其實就是css選擇器
doc = pq(response.text)
content = doc('.rich_media_content').text()
result = {'title':title,
'wechat_name':wechat_name,
'wechatid':wechatid,
'content':content}
print(result)
#
# 不適合匯出CSV格式,應該匯出json格式
# ws = [title,wechat_name,wechatid,content]
# print(ws)
# with open('weixin_article.csv','a',newline='') as f:
# writer = csv.writer(f)
# writer.writerow(ws)
def main():
# 處理翻頁
for page in range(1):
KEYWORD = '資料分析' # 這裡可以更改關鍵字
url = 'https://weixin.sogou.com/weixin?query='+ KEYWORD + '&type=2&page={}'.format(page)
html = get_request(url)
parse_page(html)
if __name__ == '__main__':
main()
這之後的程式碼就是常規的爬蟲寫法,並沒有什麼說道。
這裡我用 xpath 沒有獲取到文章的內容,用了 pyquery 這個解析庫,其實就是css 選擇器。應該用xpath 也是可以獲取到內容的,可能是沒有想到怎麼寫,技術還是要在鍛鍊呀。
這裡儲存爬取下來的資料就沒有再寫下去了,跟之前的一樣就好了,存到mongodb 。我主要是複習一下代理 ip 的使用。
本文完!