Python利用scrapy框架，爬取大眾點評部分商鋪資料~

阿新 • • 發佈：2019-01-05

分享一下，自己從0開始，用python爬取資料的歷程。希望可以可以幫到一起從0開始的小夥伴~~加油。

首先，我的開發環境是：

電腦：macOS Sierra 10.12.6 編譯器：PyCharm + 終端

我的電腦自帶的Python版本為2.7，我下載了一個Python3.6。使用3.6版本的來進行本次的編寫，將新下載的Python配置到環境變數裡。一般他會自帶pip。開啟終端，cd到pip所在目錄，終端輸入 pip scrapy

開啟終端，cd到你想建立的專案目錄下，終端輸入 scrapy startproject Test

就會在該目錄下自動生成一些檔案，接下來只要修改其中的一些檔案就可以了。

使用PyCharm開啟，先截圖一下目錄結構：

根目錄就是你建立的專案名，然後會有一個spiders資料夾，裡面會有__init__.py

根目錄下的檔案,__init__.py , items.py , middlewares.py , pipelines.py , settings.py

cd到Test目錄下，終端輸入 scrapy genspider ShopSpider "dianping.com"

會在Test目錄下生成一個ShopSpider.py檔案。

檔案都建立好了。去想要爬的網站看一下它原始碼的標籤結構。

根據想要爬的資料，修改items.py檔案

import scrapy


class TestItem(scrapy.Item):
    # 餐館名
 
shop_name = scrapy.Field()
    # 首頁圖
shop_img = scrapy.Field()
    # 評星
shop_star = scrapy.Field()
    # 評價人數
shop_evaluation = scrapy.Field()
    # 人均價位
shop_price = scrapy.Field()
    # 菜系
shop_type = scrapy.Field()
    # 地址1
shop_address1 = scrapy.Field()
    # 詳細地址
shop_address2 = scrapy.Field()
    # 推薦菜1
 
shop_food1 = scrapy.Field()
    # 推薦菜2
shop_food2 = scrapy.Field()
    # 推薦菜3
shop_food3 = scrapy.Field()
    # 口味評分
shop_sweet = scrapy.Field()
    # 環境評分
shop_environment = scrapy.Field()
    # 服務評分
shop_server = scrapy.Field()

修改爬蟲檔案ShopSpider.py

# -*- coding: utf-8 -*-
import scrapy
from Test.items import TestItem


class ShopSpider(scrapy.Spider):
    """
     功能：大眾點評瀋陽美食店鋪資料
    """
# 爬蟲名
name = 'ShopSpider'
# 作用範圍
allowed_domains = ['dianping.com']
    # baseurl
url = 'http://www.dianping.com/shenyang/ch10/g2714p'
offset = 1
# 爬取的url
start_urls = [url + str(offset)]

    def parse(self, response):
        for each in response.xpath("//div[@class='shop-list J_shop-list shop-all-list']/ul/li"):
            # 初始化模型物件≤
item = TencentItem()
            item['shop_name'] = each.xpath(".//img/@title").extract()[0]

            # 分割圖片url
imgorl = each.xpath(".//img/@src").extract()[0]
            img = imgorl.split('%')[0]
            item['shop_img'] = img

            item['shop_star'] = each.xpath(".//div[@class='comment']/span/@title").extract()[0]

            # 評價人數和平均價格 通過迴圈次數去找到兩個相同的標籤下的資料
price_tag = 0
for price in each.xpath(".//div[@class='comment']"):
                for p in price.xpath(".//a/b/text()"):
                    if price_tag == 0:
                        # 當評價人數為空的時候，第一個獲得到的資料包含'￥'那麼就是價格，否則是評價人數
ep = price.xpath(".//a/b/text()").extract()[0]
                        if '￥' in ep:
                            item['shop_price'] = ep
                        else:
                            item['shop_evaluation'] = ep
                        price_tag += 1
elif price_tag == 1:
                        item['shop_price'] = price.xpath(".//a/b/text()").extract()[1]
                        price_tag += 1
# 商店型別 和 地址，防止地址1不存在，需要判斷
at_tag = 0
for at in  each.xpath(".//div[@class='tag-addr']"):
                for att in at.xpath(".//a/span[@class='tag']/text()"):
                    if at_tag == 0:
                        item['shop_type'] = at.xpath(".//a/span[@class='tag']/text()").extract()[0]
                        at_tag += 1
elif at_tag == 1:
                        item['shop_address1'] = at.xpath(".//a/span[@class='tag']/text()").extract()[1]
                        at_tag += 1
# 地址2
item['shop_address2'] = each.xpath(".//div[@class='tag-addr']/span[@class='addr']/text()").extract()[0]

            # 推薦菜 判斷個數
food_tag = 0
for food in each.xpath(".//div[@class='recommend']"):
                for f in food.xpath(".//a/text()"):
                    if food_tag == 0:
                        item['shop_food1'] = food.xpath(".//a/text()").extract()[0]
                        food_tag += 1
elif food_tag == 1:
                        item['shop_food2'] = food.xpath(".//a/text()").extract()[1]
                        food_tag += 1
elif food_tag == 2:
                        item['shop_food3'] = food.xpath(".//a/text()").extract()[2]
                        food_tag += 1
# 其他評分
score_tag = 0
for score in each.xpath(".//span[@class='comment-list']"):
                for s in score.xpath(".//span/b/text()"):
                    if score_tag == 0:
                        item['shop_sweet'] = score.xpath(".//span/b/text()").extract()[0]
                        score_tag += 1
elif score_tag == 1:
                        item['shop_environment'] = score.xpath(".//span/b/text()").extract()[1]
                        score_tag += 1
elif score_tag == 2:
                        item['shop_server'] = score.xpath(".//span/b/text()").extract()[2]
                        score_tag += 1
yield item

        if self.offset < 50:
            self.offset += 1
#
        # # 每次處理完一頁的資料之後，重新發送下一頁頁面請求
        # # self.offset自增10，同時拼接為新的url，並呼叫回撥函式self.parse處理Response
yield scrapy.Request(self.url + str(self.offset), callback=self.parse)

其中遇到了一些問題，都是通過百度一點點補全的~寫了主要的註釋。

修改pipelines.py

import json


class TestPipeline(object):
    """
        功能：儲存item資料
    """
def __init__(self):
        # 開啟檔案
self.filename = open("shuiguoshengxian.json", "w")

    def process_item(self, item, spider):
        # 將獲取到的每條item轉換為json格式
text = json.dumps(dict(item), ensure_ascii=False) + ",\n"
self.filename.write(text)
        return item

    def close_spider(self, spider):
        # 關閉檔案
self.filename.close()

__init__方法中的檔名就是你要輸出的json檔名。

修改setting.py檔案

DEFAULT_REQUEST_HEADERS = {
  # 'User-Agent': "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
}

'''
    偽造一個使用者資訊，防止403
'''
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

ITEM_PIPELINES = {
   'Tencent.pipelines.TencentPipeline': 300,
}

'''
    防止403崩潰。
'''
HTTPERROR_ALLOWED_CODES = [403]

要注意的就是USER_AGENT的設定。防止拒絕訪問403錯誤。

終端輸入 scrapy crawl ShopSpider

爬取成功，就可以看到一個.json檔案了，開啟就可以看到其中爬到的資料。

類似於：

{"shop_name": "張福光九九草莓採摘園", "shop_img": "http://p0.meituan.net/deal/cbb3476245a7a22becae0835e072a031325900.png", "shop_star": "五星商戶", "shop_evaluation": "22", "shop_price": "￥122", "shop_type": "水果生鮮", "shop_address1": "甦家屯區", "shop_address2": "來勝村", "shop_sweet": "9.1", "shop_environment": "9.1", "shop_server": "9.2"},
{"shop_name": "糖糖水果撈", "shop_img": "http://p0.meituan.net/waimaipoi/cc0c567369d52a43f9607a8f2734ad7033647.jpg", "shop_star": "準五星商戶", "shop_evaluation": "13", "shop_price": "￥22", "shop_type": "水果生鮮", "shop_address1": "和平區", "shop_address2": "南京南街228-36號6門", "shop_sweet": "8.7", "shop_environment": "8.7", "shop_server": "8.7"},
{"shop_name": "奉鮮果切水果撈(渾南店)", "shop_img": "http://p0.meituan.net/deal/571c8808dead876be5b84a640128b12297393.jpg", "shop_star": "四星商戶", "shop_evaluation": "11", "shop_type": "水果生鮮", "shop_address1": "渾南區", "shop_address2": "渾南新區夾河街A-20號10門", "shop_sweet": "7.9", "shop_environment": "7.9", "shop_server": "8.0"},

寫一個建立資料庫表的py，準備將爬到的資料存在資料庫裡。

# -*- coding: utf-8 -*-
import pymysql

serverIp = "資料庫ip地址"
userName = "登入使用者名稱"
password = "登入密碼"
databaseName = "資料庫名"
# 開啟資料庫連線
db = pymysql.connect(serverIp, userName, password, databaseName)

# 使用cursor()方法建立一個遊標物件cursor
cursor = db.cursor()

# 建立表語句 注意長度限制
sql = """CREATE TABLE shuiguoshengxian (
shop_id  INT PRIMARY KEY auto_increment,
shop_name  VARCHAR(50),
shop_img VARCHAR(150),  
shop_star VARCHAR(10),
shop_evaluation INT,
shop_price INT,
shop_type VARCHAR(10),
shop_address1 VARCHAR(15),
shop_address2 VARCHAR(50),
shop_food1 VARCHAR(20), 
shop_food2 VARCHAR(20), 
shop_food3 VARCHAR(20), 
shop_sweet FLOAT, 
shop_environment FLOAT, 
shop_server FLOAT)"""
# 使用execute()方法執行SQL查詢
cursor.execute(sql)

# 使用 fetchone() 方法獲取單條資料.
# data = cursor.fetchone()
# print("Database version : %s " % data)
cursor.close()

# 關閉資料庫連線
db.close()

寫一個上傳json資料到資料庫的py

# -*- coding: utf-8 -*-
import json
import pymysql

serverIp = "資料庫ip地址"
userName = "登入使用者名稱"
password = "登入密碼"
databaseName = "資料庫名"
# 開啟資料庫連線  注意最後一個引數charset='utf8'
db = pymysql.connect(host=serverIp, user=userName, passwd=password, db=databaseName, port=3306, charset="utf8")

# 使用cursor()方法建立一個遊標物件cursor
cursor = db.cursor()

data = []
with open('shuiguoshengxian.json') as f:
    for line in f:
        # 需要資料為json格式，所以去掉每行末尾的','
data.append(json.loads(line[0:-2]))


for item in data:
    # 使用get方法如果對應key沒有值，則賦一個預設值
    # 防止字串中包含單引號
shop_name_str = item.get('shop_name', "").replace("'", "\\\'")
    shop_img_str = item.get('shop_img', '')
    shop_star_str = item.get('shop_star', '')
    shop_evaluation_str = item.get('shop_evaluation', 0)
    shop_price_stro = item.get('shop_price', '0')

    if shop_price_stro != '0':
        # 將前面的'￥'過濾掉
shop_price_str = shop_price_stro[1:]
    else:
        shop_price_str = 0
shop_type_str = item.get('shop_type', '')
    shop_address1_str = item.get('shop_address1', '')
    shop_address2_str = item.get('shop_address2', '')
    shop_food1_str = item.get('shop_food1', '')
    shop_food2_str = item.get('shop_food2', '')
    shop_food3_str = item.get('shop_food3', '')
    shop_sweet_str = item.get('shop_sweet', 0.0)
    shop_environment_str = item.get('shop_environment', 0.0)
    shop_server_str = item.get('shop_server', 0.0)

    str = "INSERT INTO shuiguoshengxian(shop_name, shop_img, shop_star, shop_evaluation, shop_price, shop_type, shop_address1, shop_address2, shop_food1, shop_food2, shop_food3, shop_sweet, shop_environment, shop_server) VALUES "
str = str + "('%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s');\r\n" % (shop_name_str, shop_img_str, shop_star_str, shop_evaluation_str, shop_price_str, shop_type_str, shop_address1_str, shop_address2_str, shop_food1_str, shop_food2_str, shop_food3_str, shop_sweet_str, shop_environment_str, shop_server_str)
    # str = "UPDATE shops SET shop_price = '%s' WHERE shop_name = '%s';" % (shop_price_str, shop_name_str)
cursor.execute(str)

f.close()
cursor.close()
db.commit()
db.close()

print("success")

注意，要把json檔案放在專案根目錄下，因為

with open('shuiguoshengxian.json') as f:

如果在別的路徑，可以填具體路徑。

OK，整個流程就是這樣。

說了一通，並不詳細，如果新人看到了，可能有很多疑問，歡迎提問，我會的都會解答的，。也歡迎大神來批評~~寫的程式碼雖然實現了想要的功能效果，指定漏洞百出，希望得到批評指點，謝謝。

~~~與君共勉。

Python利用scrapy框架，爬取大眾點評部分商鋪資料~

分享一下，自己從0開始，用python爬取資料的歷程。希望可以可以幫到一起從0開始的小夥伴~~加油。首先，我的開發環境是：電腦：macOS Sierra 10.12.6 編譯器：PyCharm + 終端我的電腦自帶的Python版本為2.7，我下載了一個Python3.6。使

Python 爬取大眾點評 50 頁資料，最好吃的成都火鍋根本想不到！

成都到處都是火鍋店，有名的店，稍微去晚一點，排隊都要排好久，沒聽說的店，又怕味道不好。那麼如何選擇火鍋店呢？最簡單的肯定是在美團。大眾點評上找一找啊。所以，本文就從大眾點評上爬取了成都的火鍋資料，來進行了分析。 &nbs

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架：　　前提：安裝了python-pip 　　1. windows下按住win+R 輸入cmd 　　2. 在cmd 下輸入　　　　　　pip install scrapy 　　　　　　pip inst

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

Python爬取大眾點評成都資料，只為告訴你哪家火鍋最好吃

冬天到了，天氣越來越冷，小編起床越來越困難了，每一天都想吃辣辣的火鍋。成都到處都是火鍋店，有名的店，稍微去晚一點，排隊都要排好久，沒聽說的店，又怕味道不好。那麼如何選擇火鍋店呢？最簡單的肯定是在美團。大眾點評上找一找啊。所以，本文就從大眾點評上爬取了成都的火鍋資料，來進行了分析。 Python學

python搭建簡單爬蟲框架，爬取獵聘網的招聘職位資訊

該專案將主要有五個部分負責完成爬取任務，分別是：URL管理器，HTML下載器，HTML解析器，資料儲存器，爬蟲排程器。具體程式碼如下： URL管理器： import hashlib import pickle import time class UrlManag

python爬取大眾點評網商家資訊以及評價，並將資料儲存到excel表中（原始碼及註釋）

import requests from bs4 import BeautifulSoup import traceback # 異常處理 import xlwt # 寫入xls表 # Cookie記錄登入資訊，session請求 def get_content(url,he

Scrapy爬取大眾點評

BE info enable each city wow64 news 數據 windows 最近想吃烤肉，所以想看看深圳哪裏的烤肉比較好吃，於是自己就開始爬蟲咯。這是個靜態網頁，有反爬機制，我在setting和middlewares設置了反爬措施 Setting # -

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

關於python在爬蟲scrapy框架，使用happybase方法連結hbase進行資料上傳操作

如果有叢集先將hbase的叢集啟起來 python程式碼如下 import happybase import MySQLdb #pipelines.py檔案裡面類覆蓋原有類 Pachong_qcwyPipeline class Pachong_qcwyPipelin

python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中

import xlwt ''' 爬取網頁時直接出現403，意思是沒有訪問許可權 ''' import requests from bs4 import BeautifulSoup #入口網頁 start_url = 'https://www.dianping.com/se

python利用selenium+requests+beautifulsoup爬取12306火車票資訊

在高速發展的時代。乘車出遠門是必不可少的，有些查詢資訊是要收費的。這裡打造免費獲取火車票資訊想要爬取12306火車票資訊，訪問12306官方網站，輸入出發地，目的地，時間之後點選確定，這是我們開啟谷歌瀏覽器開發者模式找到 https://

python2.7爬取大眾點評模擬滑鼠 python第二天含原始碼

*第二天是指寫部落格的第二天創作背景對於新手來說最快的學習方法就是看專案，在百度搜索python爬蟲基本都是爬大眾點評的，不知道這個網站做錯了什麼被這麼多人爬。接下來博主興沖沖的找了幾個有程式碼的部落格，改了改就測試，但是結果無非就是網站不能正常訪問啊，需要拖動驗證之

python的scrapy運用xpath爬取一個標籤下的所有文字

通常針對某一行的內容時,使用text(). 如: filename = d.xpath("./div[2]/div/div/a[1]/text()").extract().pop() 針對標籤下的存在多個子標籤下的多行時,我們採用string(.)進行獲取. 如:

scrapy框架來爬取桌布網站並將圖片下載到本地檔案中

首先需要確定要爬取的內容，所以第一步就應該是要確定要爬的欄位：　　首先去items中確定要爬的內容 class MeizhuoItem(scrapy.Item): # define the fields for your item here like: # name = scra

爬取大眾點評之初步試探

常規的反爬機制有訪問頻率限制、cookie限制、驗證碼、js加密引數等。目前解決不了的js加密是今日頭條的_signature引數、京東的s引數(在搜尋結果的ajax中，返回的結果根據s引數的不同而不同，目前沒有發現規律)、新版12306登陸時的callback引數等而今天的網站的反爬

爬取大眾點評之獲取商家地址

昨天爬取大眾點評的文章昨天試探性的爬取了大眾點評的數字資訊，但一般我們獲取的資料中，不止是這些數字資訊。在基本資訊裡面，地址也是一個很重要的資料。於是今天嘗試一下怎麼獲取地址。思路和數字是一樣的，概括就是，通過css檔案裡的偏移量找到class屬性和svg檔案中的漢字的對應關係。

JAVA爬蟲框架WebMagic爬取ajax請求的頁面資料

檢視WebMagic文件：http://webmagic.io/docs/zh/posts/ch1-overview/ 爬取網址需要翻牆： https://www.reddit.com/r/funny/ &

爬取大眾點評資料

通過觀察每個城市的連結主要區別於ranKld，每個城市有特定的ID，因此先獲取到相應城市的ID，便可進行後續抓取。獲取到的城市ID為： [“上海”,“fce2e3a36450422b7fad3f2b90370efd71862f838d1255ea693b9

python2.7爬蟲例項詳細介紹之爬取大眾點評的資料

一．Python作為一種語法簡潔、面向物件的解釋性語言，其便捷性、容易上手性受到眾多程式設計師的青睞，基於python的包也越來越多，使得python能夠幫助我們實現越來越多的功能。本文主要介紹如何利用python進行網站資料的抓取工作。我看到過利用c++和java進行爬蟲的

Python利用scrapy框架，爬取大眾點評部分商鋪資料~

相關推薦