1. 程式人生 > >基於搜狗微信的公眾號文章爬蟲

基於搜狗微信的公眾號文章爬蟲

需求分析

先來看一下目標網站。
搜狗微信搜尋頁面
這次爬取的內容是通過搜狗微信的介面獲取微信文章的 url 然後提取目標文章的內容及公眾號資訊。
可以指定內容進行爬取
那這次需要解決的問題有哪些呢?

需要解決的問題

搜狗微信在沒有登入的情況下可以爬取十頁資訊,我們想要獲取更多的資訊只能登入。在登入的情況下,爬取資料量太大會被封 IP 。這裡給出的解決方案是使用代理池的方法。我這裡是自己搭建了一個小的IP代理池,在我以前的文章裡有詳細的描述,可以 點這裡 檢視。

程式碼演示

proxy = None # 宣告代理為 None 也就是開始的時候用本機的ip爬取
count_max = 5 # 設定一個連線錯誤,如果連線超過五次都出錯就停止爬取,要不然程式陷入死迴圈。
# 請求頭的設定要加上cookie headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36', } # 獲取代理 def get_proxy(): proxy = GetIP() return proxy.get_random_ip() # 請求頁面,這裡主要使用了代理,一開始使用的是本機代理,被封之後換個ip來爬。 def get_request(url,count=
1): global proxy if count >= count_max: print('請求太多次了,這個方法不行啦,換換吧') try: if proxy: proxies = {'http': 'http://' + proxy} r = requests.get(url, headers=headers,proxies=proxies, allow_redirects=False) else: print('第一次請求,使用本機的ip') r = requests.get(url,headers=headers,allow_redirects=
False) if r.status_code == 200: print('第一頁') return r.text if r.status_code == 302: print('狀態碼302了,快換代理吧') proxy = get_proxy() if proxy: print('正在使用代理爬取', proxy) return get_request(url) else: print('獲取代理出錯') return None except ConnectionError as e: count += 1 proxy = get_proxy() return get_request(url,count)

解釋

這裡是整個程式碼的核心,我們先用本機的 ip 來爬取資料,如果爬取的量大起來,會封 ip ,然後 url 會重定向到輸入驗證碼的頁面,我們可以根據狀態碼是 302 來判斷這一情況,然後使用代理。並遞迴呼叫函式本身用ip來爬。
有些時候狀態碼不是302,也不是200 ,這時候就是連線的問題,我們也使用代理來解決這一問題。並計數,連接出現問題的次數超過五次就停止,這樣的情況下是別的問題,不要讓在自己呼叫自己死迴圈,退出重新檢查程式碼邏輯。
我的程式碼裡面沒有加 cookie ,使用的時候加上cookie 才能爬取十頁以後的內容。

# 解析頁面得到微信文章的詳情url
def parse_page(html):
	data = etree.HTML(html)
	li = data.xpath('//ul[@class="news-list"]/li')
	for i in li:
		url = i.xpath('./div[2]/h3[1]/a/@href')[0]
		parse_detial(url)
		break

# 解析詳情頁獲取微信公眾號標題,作者,內容。
def parse_detial(url):
	response = requests.get(url,headers=headers)
	if response.status_code == 200:
		html = etree.HTML(response.text)
		title = html.xpath('//h2[@id="activity-name"]/text()')
		if title:
			title = title[0].strip()
		wechat_name = html.xpath('//a[@id="js_name"]/text()')
		if wechat_name:
			wechat_name = wechat_name[0].strip()
		wechatid = html.xpath('//span[@class="profile_meta_value"]/text()')[0]
		# 獲取內容,xpath 雖然好用,但是這一時半會也沒找到怎麼獲取文章內容的方法,就用 pyquery 吧,其實就是css選擇器
		doc = pq(response.text)
		content = doc('.rich_media_content').text()
		result = {'title':title,
				  'wechat_name':wechat_name,
				  'wechatid':wechatid,
				  'content':content}
		print(result)

		#
		# 不適合匯出CSV格式,應該匯出json格式
		# ws = [title,wechat_name,wechatid,content]
		# print(ws)
		# with open('weixin_article.csv','a',newline='') as f:
		# 	writer = csv.writer(f)
		# 	writer.writerow(ws)

def main():
	# 處理翻頁
	for page in range(1):
		KEYWORD = '資料分析' # 這裡可以更改關鍵字
		url = 'https://weixin.sogou.com/weixin?query='+ KEYWORD + '&type=2&page={}'.format(page)
		html = get_request(url)
		parse_page(html)

if __name__ == '__main__':
	main()

這之後的程式碼就是常規的爬蟲寫法,並沒有什麼說道。
這裡我用 xpath 沒有獲取到文章的內容,用了 pyquery 這個解析庫,其實就是css 選擇器。應該用xpath 也是可以獲取到內容的,可能是沒有想到怎麼寫,技術還是要在鍛鍊呀。
這裡儲存爬取下來的資料就沒有再寫下去了,跟之前的一樣就好了,存到mongodb 。我主要是複習一下代理 ip 的使用。

本文完!