python2.7爬取大眾點評模擬滑鼠 python第二天含原始碼

阿新 • • 發佈：2019-01-16

*第二天是指寫部落格的第二天

創作背景

對於新手來說最快的學習方法就是看專案，在百度搜索python爬蟲基本都是爬大眾點評的，不知道這個網站做錯了什麼被這麼多人爬。接下來博主興沖沖的找了幾個有程式碼的部落格，改了改就測試，但是結果無非就是網站不能正常訪問啊，需要拖動驗證之類的，還有的就是隻有頭尾兩部分，總之沒有看到想要的結果，看來大眾點評這幾年也在反爬蟲上下了功夫。但是博主就跟他槓上了，無奈水筆博主選擇了用selenium包來模擬人為操作，從主介面開始。

基本思路

訪問大眾點評從主頁開始，然後選擇鐘意分類,讓driver開啟大眾點評主頁，找到美食元素，ActionChains(driver

)懸停，定位到日本菜，ActionChains(driver)點選。

這之後會出現一個新視窗，需要將driver定位到這個視窗。一位博主告訴我的，感謝他。

程式碼執行過程中開啟的視窗都可以通過driver獲取，然後迭代定位。

之後就是主要內容了，都在<li>標籤中，通過driver找到所有<li>標籤，然後迭代內容

本頁結束後，嘗試尋找下一頁標籤，找到就點選，找不到就結束了。

博主把爬取到的內容存在專案檔案中，目錄要準確。要在project資料夾建檔案才行，否則會被認為配置檔案放到你找不到的地方，博主的電腦太慢了，爬了一會桌布都出來了，反正可以用，就不等了哈哈。一共爬了18頁的，內容大家可以根據需要改。

程式碼

程式碼是博主東拼西湊➕刪刪改改的，不知道光顧了多少人的部落格，我就不一一答謝了，希望能夠幫到大家。如果那位大羅金仙飄過，一定要點化晚輩啊，感激不盡。

# -*- coding:utf-8 -*-
import re
import time
from bs4 import BeautifulSoup
import json
import threading
from requests import Session
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from bs4 import BeautifulSoup
class dazp_bj:

	def setUp(self):
		# 除錯的時候用firefox比較直觀
		# self.driver = webdriver.PhantomJS()
		self.driver = webdriver.Firefox()
		self.filename = 'D:\python\project\japanese.json' #儲存位置
	def testEle(self):
		driver = self.driver
		driver.maximize_window()
		driver.get(r"http://www.dianping.com")#driver定位到主介面
		attrible = driver.find_element_by_link_text("美食")
		ActionChains(driver).move_to_element(attrible).perform()#滑鼠懸停動作
		time.sleep(1)                                       #防止被判定為機器
		attrible = driver.find_element_by_link_text("日本菜")   #選擇二級分類
		ActionChains(driver).click(attrible).perform()
		_json=dict()	#定義一個字典用以儲存數
		time.sleep(1)
		current_window = driver.current_window_handle  # 獲取當前視窗handle name
		all_windows = driver.window_handles  # 獲取所有視窗handle name
		# 切換window，如果window不是當前window，則切換到該window
		for window in all_windows:
			if window != current_window:
				driver.switch_to.window(window)
		print driver.title  # 列印該頁面title
		time.sleep(10)     #等待頁面完全載入，否則資料不全，可根據電腦配置改變

		while True:    #while if 模仿 都while
			soup = BeautifulSoup(driver.page_source, 'lxml') #獲取當前頁面全部內容
			name=['商家名稱','評論數量','人均消費','地址','評分','連結']
			for li in soup.find('div',class_="shop-wrap").find('div',id="shop-all-list").ul.find_all('li'): #迭代商家
				info=li.find('div',class_='txt')
				_json[name[0]]=info.find('div',class_='tit').a.h4.get_text().encode('utf-8')
				_json[name[1]]=int(info.find('div',class_='comment').find('a',class_="review-num").b.get_text().encode('utf-8'))
				_json[name[2]]=int(re.sub('￥','',info.find('div',class_='comment').find('a',class_="mean-price").b.get_text().encode('utf-8')))
				_json[name[3]]=info.find('div',class_='tag-addr').find('span',class_='tag').get_text().encode('utf-8')+info.find('div',class_='tag-addr').find('span',class_='addr').get_text().encode('utf-8')
				_json[name[4]]=float(info.find('span',class_='comment-list').find_all('b')[0].get_text())+float(info.find('span',class_='comment-list').find_all('b')[1].get_text())+float(info.find('span',class_='comment-list').find_all('b')[2].get_text())
				_json[name[5]]=info.find('div',class_='tit').a['href']
				with open(self.filename,'a') as outfile:  #追加模式
					json.dump(_json,outfile,ensure_ascii=False)
				with open(self.filename,'a') as outfile:
					outfile.write(',\n')
			if driver.find_element_by_css_selector("a[class= \"next\"][title=\"下一頁\"]"):  #css選擇器查詢
				driver.find_element_by_css_selector("a[class= \"next\"][title=\"下一頁\"]").click()
				time.sleep(10)
				continue
			elif driver.find_element_by_link_text("下一頁"):   #text查詢
				driver.find_element_by_link_text("下一頁").click()
				time.sleep(10)
				continue
			else:
				break
if __name__=='__main__':
	a = dazp_bj()
	a.setUp()
	a.testEle()

*爬蟲的過程中不要動滑鼠，最好將游標放到邊緣。

python2.7爬取大眾點評模擬滑鼠 python第二天含原始碼

創作背景

基本思路

程式碼

有問題留言，我盡力幫助

更多機會與學習資料加入下方QQ群

python2.7爬取大眾點評模擬滑鼠 python第二天含原始碼

python2.7爬蟲例項詳細介紹之爬取大眾點評的資料

Scrapy爬取大眾點評

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

爬取大眾點評之初步試探

爬取大眾點評之獲取商家地址

Python爬取大眾點評成都資料，只為告訴你哪家火鍋最好吃

爬取大眾點評資料

Python 爬取大眾點評 50 頁資料，最好吃的成都火鍋根本想不到！

python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中

Python利用scrapy框架，爬取大眾點評部分商鋪資料~

Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊

python爬取大眾點評網商家資訊以及評價，並將資料儲存到excel表中（原始碼及註釋）

Python3爬蟲：爬取大眾點評網北京所有酒店評分資訊

python2 scrapy-redisd搭建,簡單使用。爬取豆瓣點評

python3.7 爬取QQ空間好友

如何使用免費爬蟲軟體抓取大眾點評商家電話資訊！請勿洩露資訊！

Python3.7爬取騰訊地圖關鍵詞位置及電話資訊

python代理ip抓取大眾點評

Python2.7 淘寶爬蟲selenium 模擬瀏覽器

python2.7爬取大眾點評 模擬滑鼠 python第二天含原始碼

創作背景

基本思路

程式碼

有問題留言，我盡力幫助

更多機會與學習資料加入下方QQ群

相關推薦

python2.7爬取大眾點評模擬滑鼠 python第二天含原始碼