Python3爬蟲：爬取大眾點評網北京所有酒店評分資訊

阿新 • • 發佈：2019-02-14

學習Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊，我爬取的北京地區的酒店，由於網站更新，原文中的一些方法已經不再適用，我的工作是在該文指導下重寫了一個爬蟲。

爬蟲無非分為這幾塊：分析目標、下載頁面、解析頁面、儲存內容，其中下載頁面不提。

解析頁面：使用正則表示式和BeautifulSoup兩種方式，一般情況都可以使用正則表示式，除非需要分辨特定使用者的評論。
儲存內容：酒店資訊（id和名稱）儲存在“hotel_dianping.txt”中，酒店的評分資訊儲存在“id_name+comments.txt”中

Talk is cheap, show me the code.

#coding=utf-8
import re
import requests
from bs4 import BeautifulSoup

aim_url = "http://www.dianping.com/beijing/hotel"
basic_url = "http://www.dianping.com"
hotel_file = 'hotel_dianping.txt'

def download_page(url):
    # 偽裝請求頭部    
    # 有了Cookie不怕不讓爬
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36' 
,
        'Cookie':'_lxsdk_cuid=15eea339434c8-0d2cff6b34e61c-c313760-100200-15eea339434c8; _lxsdk=15eea339434c8-0d2cff6b34e61c-c313760-100200-15eea339434c8; _hc.v=cec4c6d7-039d-1717-70c0-4234813c6e90.1507167802;\
            s_ViewType=1; __mta=218584358.1507168277959.1507176075960.1507176126471.5; JSESSIONID=48C46DCEFE3A390F647F52FED889020D; aburl=1; cy=2; cye=beijing; _lxsdk_s=15eea9307ab-17c-f87-123%7C%7C48' 
,
        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Host':'www.dianping.com'
    }
    data = requests.get(url, headers=headers).content
    # 轉換編碼
    data = data.decode('utf-8')
    return data

# 獲取並存儲酒店資訊（id, name）
def getHotelInfo(hotel_file):
    # 網站上顯示酒店頁面有50頁，事實上，只能爬取13頁，之後的頁面為空
    for i in range(1, 51):
        page = download_page(aim_url)
        # 如："action": "click","content":"/shop/8025450","title":"速8酒店"
        re_result = re.compile(r'"action": "click","content":"(.*?)","title":"(.*?)"').findall(page)
        txt = ""
        for x in re_result:
            txt += x[0] # /shop/(/d)+格式
            txt += ' ' + x[1] # 酒店名稱
            txt += "\n"
        writeToFile(hotel_file, txt)
        print("第%d頁OK....." % i)
        i += 1
        # 下一頁的網址
        aim_url = "http://www.dianping.com/beijing/hotel/p" + str(i)

# 往檔案中寫content
def writeToFile(file_name, content):
    with open(file_name, 'a+', encoding='utf-8') as fp:
        fp.write(content)

# 獲取每個評論頁的所有評論
def getScore(page):
    # 對於評分需要使用BeautifulSoup，直接使用正則表示式無法判斷資料是哪個使用者的
    score_list = []
    soup = BeautifulSoup(page, 'html.parser')
    comment_rst_list = soup.find_all('div', attrs = {'class': 'comment-rst'})
    # 對於各個使用者的評論
    for comment_rst in comment_rst_list:
        rst_list = comment_rst.find_all('span', attrs={'class': 'rst'})
        # 記錄某個使用者的各項評分，預設為零，前五項分別是房間、位置、服務、衛生和設施，最後一項為冗餘項。
        single_score_dic = {0:0, 1:0, 2:0, 3:0, 4:0, 5:0}
        # 對於各個型別的評論
        for rst in rst_list:
            comment = rst.getText()
            type_ = comment[:2]
            score = comment[2]
            if type_ == "房間":
                single_score_dic[0] = score
            elif type_ == "位置":
                single_score_dic[1] = score
            elif type_ == "服務":
                single_score_dic[2] = score
            elif type_ == "衛生":
                single_score_dic[3] = score
            elif type_ == "設施":
                single_score_dic[4] = score
            else:
                single_score_dic[5] = score
        score_list.append(single_score_dic)
    return score_list

# 中文字元和英文、數字佔用的空間不同，為了輸出顯示友好，user_name不能簡單的以%30s格式輸出
def setProperFormat(user_name):
    re_result = re.compile(r'(\d|[A-Z]|[a-z]|\_)').findall(user_name)
    len_eng = len(re_result)
    total_len = len(user_name)
    len_cha = total_len - len_eng
    real_len = len_eng + len_cha * 2
    blank_len = 30 - real_len
    txt = "%s" % (" " * blank_len + user_name)
    return txt

# 獲取每一條評論
def getEveryComment(hotel_file):
    # 開啟hotel_file檔案
    with open(hotel_file, 'r', encoding='utf-8') as fp:
        num_hotel = 1
        # 對於每家酒店
        for line in fp:
            # 獲取酒店url, id和name
            hotel_url = line.split(' ')[0]
            hotel_name = line.split(' ')[1][:-1] # 去掉最後的'\n'
            hotel_id = hotel_url.split('/')[2]
            # 設定儲存使用者評論的檔案的檔名
            store_file = "%s_%scomments.txt" % (hotel_id, hotel_name)
            # 存入header
            txt = "%12s%12s%30s%15s%15s%15s%15s%15s%15s\n" % ("hotel_id", "user_id", "user_name", "rate_room", "rate_position", "rate_service", "rate_health", "rate_facility", "rate_others")
            writeToFile(store_file, txt)
            # 獲取評論頁url
            business_url = basic_url + hotel_url + '/review_more'
            page = download_page(business_url)
            # 計算出評論頁數
            total_comments = re.compile(r'全部</a><em class="col-exp">\((\d+)\)</em>', re.DOTALL).findall(page)
            print(total_comments)
            pages = int(int(total_comments[0]) / 20) + 1
            # 對於每一頁的評論
            for n in range(1, pages+1):
                comment_url = business_url + '?pageno=%s' % n
                print(comment_url)
                page = download_page(comment_url)
                # 如：<a target="_blank" title="" href="/member/1158824000">HpointK</a>
                # (id, userName)
                user_info = re.compile(r'<a target="_blank" title="" href="/member/(\d+)">(.*?)</a>', re.DOTALL).findall(page)
                score_list = getScore(page)
                txt = ""
                try:
                    for i, info in enumerate(user_info):
                        txt += "%12s%12s" % (hotel_id, info[0])
                        txt += setProperFormat(info[1])
                        txt += "%15s%15s%15s%15s%15s%15s\n" % (score_list[i][0], score_list[i][1], score_list[i][2], score_list[i][3], score_list[i][4], score_list[i][5])
                except  Exception as e:
                    print(e)
                    print(len(user_info))
                    break
                # 每次往檔案中寫網頁中的評論
                writeToFile(store_file, txt)
                print("第%d頁已儲存，共%d頁" % (n, pages))
                break
            print("第%s家酒店的評論已儲存", num_hotel)
            num_hotel += 1
            break

getHotelInfo(hotel_file)
getEveryComment(hotel_file)

Python3爬蟲：爬取大眾點評網北京所有酒店評分資訊

學習Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊，我爬取的北京地區的酒店，由於網站更新，原文中的一些方法已經不再適用，我的工作是在該文指導下重寫了一個爬蟲。爬蟲無非分為這幾塊：分析目標、下載頁面、解析頁面、儲存內容，其中下載頁面不提。

Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊

歷時一下午加一晚上，終於把這個爬蟲程式碼寫好，後面還有很多想完善的地方（譬如資料儲存用redis、使用多執行緒加快速度、爬取圖片、細分資料等等），待有空再做更改，下面是具體的步驟與思路：工具：PyC

Python爬蟲：爬取拉勾網資料分析崗位資料

1 JSON介紹 JSON（JavaScript Object Notation）已經成為通過HTTP請求在Web瀏覽器和其他應用程式之間傳送資料的標準格式之一。比CSV格式更加靈活。Json資料格式，非常接近於有效的Pyhton程式碼，其特點是：JSON物件所

第一個完整爬蟲：爬取應屆生網所有職位的詳細資訊

在前面幾篇博文裡其實已經介紹了和Python爬蟲相關的很多基礎知識，包括基本的抓取網頁資訊，ip池的建立和使用，多程序在ip驗證中的使用，今天我們就把這些內容整合到一起，完成一個真正的爬蟲。我們先來

python爬取大眾點評網商家資訊以及評價，並將資料儲存到excel表中（原始碼及註釋）

import requests from bs4 import BeautifulSoup import traceback # 異常處理 import xlwt # 寫入xls表 # Cookie記錄登入資訊，session請求 def get_content(url,he

python簡單爬蟲：爬取並統計自己部落格頁面的資訊（一）

1. 什麼是爬蟲也叫網路爬蟲，簡單來說，爬蟲就是從一個根網站出發，根據某種規則獲得更多的相關網站的url，自動下載這些網頁並自動解析這些網頁的內容，從中獲取需要的資料。例如爬取某種圖片、某類文字資訊等。爬蟲還可以用於編纂搜尋引擎的網路索引。爬蟲所涉及的知

爬蟲，爬取鏈家網北京二手房資訊

# 鏈家網二手房資訊爬取 import re import time import requests import pandas as pd from bs4 import BeautifulSoup url = 'http://bj.lianjia.com/ershouf

Python網絡爬蟲：爬取古詩文中的某個制定詩句來實現搜索

它的參考文獻 lis 實現 word self 適合 odi 級別 python編譯練習，為了將自己學習過的知識用上，自己找了很多資料。所以想做一個簡單的爬蟲，代碼不會超過60行。主要用於爬取的古詩文網站沒有什麽限制而且網頁排布很規律，沒有什麽特別的東西，適合入門級別的

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python3 Scrapy框架學習三：爬取煎蛋網加密妹子圖片(全爬)

以下操作基於Windows平臺。開啟CMD命令提示框：新建一個專案如下：開啟專案裡的setting檔案，新增如下程式碼 IMAGES_STORE = './XXOO' #在當前目錄下新建一個XXOO資料夾 MAX_PAGE = 40 #定義爬取的總得頁數

Python爬蟲例項：爬取“最好大學網”大學排名

例項2 爬取大學排名上海交通大學設計了一個“最好大學網”，上面列出了當前的大學排名。我們要設計爬蟲程式，爬取大學排名資訊。爬蟲功能要求：輸入：大學排名URL連結輸出：大學排名資訊的螢幕輸出（排名，大學名稱，總分）工具：python3、requests、beauti

python2.7爬蟲例項詳細介紹之爬取大眾點評的資料

一．Python作為一種語法簡潔、面向物件的解釋性語言，其便捷性、容易上手性受到眾多程式設計師的青睞，基於python的包也越來越多，使得python能夠幫助我們實現越來越多的功能。本文主要介紹如何利用python進行網站資料的抓取工作。我看到過利用c++和java進行爬蟲的

Python爬蟲練手小專案：爬取窮遊網酒店資訊

Python爬蟲練手小專案：爬取窮遊網酒店資訊 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 前言對於初學者而言，案例主要的是為了讓大家練手，明白其中如何這樣寫的思路，而不是拿著程式碼執行就完事了。基本環境配置系統

python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中

import xlwt ''' 爬取網頁時直接出現403，意思是沒有訪問許可權 ''' import requests from bs4 import BeautifulSoup #入口網頁 start_url = 'https://www.dianping.com/se

python3.x爬蟲：爬取大學排名資料

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30)

Python爬蟲訓練：爬取酷燃網視訊資料

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理專案目標爬取酷燃網視訊資料 https://krcom.cn/ 環境 Python3.6 pycharm 爬蟲程式碼 import pprint

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

Python3.5：爬取網站上電影數據

x64 沒有 () nbsp 運行 lpar target __init__ doc 首先我們導入幾個pyhton3的庫: from urllib import requestimport urllibfrom html.parser import HTMLParser 在

Scrapy爬取大眾點評

BE info enable each city wow64 news 數據 windows 最近想吃烤肉，所以想看看深圳哪裏的烤肉比較好吃，於是自己就開始爬蟲咯。這是個靜態網頁，有反爬機制，我在setting和middlewares設置了反爬措施 Setting # -

Python3爬蟲：爬取大眾點評網北京所有酒店評分資訊

相關推薦