使用pyspider框架抓取貓途鷹旅遊資訊

阿新 • • 發佈：2018-11-21

這裡通過pyspider框架

可以直接:pip3 install pyspider 下載框架

pyspider all 執行可以看到 run 0.0.0.0:5000

直接在瀏覽器輸入localhost:5000 進入建立新專案

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2018-08-03 09:59:05
# Project: TripAdcisor

from pyspider.libs.base_handler import *
#import ssl
import pymongo

#ssl._create_default_https_context=ssl._create_unverified_context

class Handler(BaseHandler):
    crawl_config = {
    }
    conn = pymongo.MongoClient('localhost')
    db = conn.trip
    myset = db.london
    @every(minutes=24 * 60)
#on_start 啟動目標主網站,validate_cert = False跳過證書檢測,callback回撥函式
    def on_start(self):
        self.crawl('https://www.tripadvisor.cn/Attractions-g186338-Activities-c47-London_England.html', callback=self.index_page,validate_cert = False)

    @config(age=10 * 24 * 60 * 60)
#通過內建pyquery 獲取目標網頁的連線遍歷 分別訪問,並回調
    def index_page(self, response):
        for each in response.doc('.listing_title > a').items():
            self.crawl(each.attr.href, callback=self.detail_page,validate_cert = False)
#獲取下一頁連結地址訪問並回調自身
        next = response.doc('#FILTERED_LIST > div.al_border.deckTools.btm > div > div > a').attr.href
        print(next)
        self.crawl(next,callback= self.index_page,validate_cert=False)

    @config(priority=2)
#獲得每個連結的的詳細資訊返回
    def detail_page(self, response):
        url = response.url
        name = response.doc('.heading_title').text()
        rating = response.doc('div.rating > .more').text()
        location = response.doc('#taplc_attraction_detail_listing_0 > div.section.location > div.detail_section.address').text()[2:]
        phone = response.doc('.phone > div').text()
        durtion = response.doc('.hours > .duration').text()
        
        return {
            
            'name':name,
            'rating':rating,
            'location':location,
            'phone':phone,
            'durtion':durtion,
            'url':url
        }
#重寫on_result方法 儲存至資料庫
    def on_result(self,result):
        if result:
            self.save_to_mongo(result)
    def save_to_mongo(self,result):
        if self.myset.insert(result):
            print('save ok!',result)

執行時將status 調至running 或者debug run即可

使用pyspider框架抓取貓途鷹旅遊資訊

這裡通過pyspider框架可以直接:pip3 install pyspider 下載框架 pyspider all 執行可以看到 run 0.0.0.0:5000 直接在瀏覽器輸入localhost:5000 進入建立新專案 #!/usr/bin/env pyth

利用 pyspider 框架抓取貓途鷹酒店信息

tasks 啟動 font oca star 一鍵 resp att blank 　　利用框架 pyspider 能實現快速抓取網頁信息，而且代碼簡潔，抓取速度也不錯。　　環境：macOS；Python 版本：Python3。　　1.首先，安裝 pyspider 框架，

四周實現爬蟲系統（1）-抓取tripadvisor貓途鷹網站資料資訊

1.獲取單頁景點資訊 2.觀察網址特徵，獲取多頁景點資料 3.利用cookie資訊實現偽登入，獲取個人儲存清單的景點資訊 4.利用 device mode 實習反爬資訊的抓取-圖片資訊 #技巧1：通過模擬手機頁面獲得反爬取資訊,頁面右擊檢查，device

貓途鷹(tripadvisor.cn/)美國地區的酒店、景點、餐廳數據（82萬條）

auto dig name color 百度網盤 site add eva 數據格式本文原創作者：數據超市（http://www.data-shop.net）本文原始鏈接：http://www.data-shop.net/2015/10/tripadvisor_cn_20

TripAdvisor貓途鷹翻譯志願者線上任務評測

貓途鷹TripAdvisor是全球最大的旅行社群，上面匯聚了來自全球旅行者的2億條真實點評，覆蓋超過190個國家的酒店、景點和餐廳，為了避免語言給國內使用者帶來的障礙，貓途鷹 TripAdvisor 在國內開展了一項翻譯志願者招募活動，為國內旅行者翻譯具有參考價

Scrapy 框架抓取美拍視訊

抓取美拍的資料並不算是很難關鍵是他的視訊url的加密演算法是有點難搞。開啟美拍的網址我們檢視一下原始碼，他的網頁載入方式跟其它的網站差不多，video_url也是在原始碼中，但是我們仔細看，諾就是下邊這一串，是人都能猜測這應該是是他的video_url的地址，但是經過某

用Xposed框架抓取微信朋友圈資料

因微信朋友圈為私有協議，從抓包上分析朋友圈資料幾乎不可能，目前也尚未找到開源的抓取朋友圈的指令碼。博主於是嘗試通過使用安卓下的Xposed框架實現從微信安卓版上抓取朋友圈資料。本文針對微信版本6.3.8。GitHub倉庫主要思路從UI獲取文字資訊是最為簡單的

python爬蟲之利用scrapy框架抓取新浪天氣資料

scrapy中文官方文件：點選開啟連結Scrapy是Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試，Scrapy吸引人的地方在於它是一個框架，任何人都可以根據

爬蟲：貓途鷹網站

from bs4 import BeautifulSoup import requests url = 'http://www.tripadvisor.cn/Attractions-g60763-Ac

抓取新華網所有旅遊相關的標題和地址

#coding:utf8 import urllib2 import json import xlwt import os wbk = xlwt.Workbook() sheet = wbk.add

如何使用免費爬蟲軟體抓取大眾點評商家電話資訊！請勿洩露資訊！

本文主要介紹如何使用后羿採集器的智慧模式，免費採集大眾點評商家的地址、人均、評價、電話等資訊。採集工具簡介：后羿採集器是一款基於人工智慧技術的網頁採集器，只需要輸入網址就能夠自動識別網頁資料，無需配置即可完成資料採集，是業內首家支援三種作業系統（包括Windows、Mac和Linux

scrapy抓取拉勾網職位資訊（一）——scrapy初識及lagou爬蟲專案建立

本次以scrapy抓取拉勾網職位資訊作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visual studio一勞永逸，如果報錯缺少前置依賴，就先安裝依賴）本篇

scrapy抓取拉勾網職位資訊（四）——對欄位進行提取

上一篇中已經分析了詳情頁的url規則，並且對items.py檔案進行了編寫，定義了我們需要提取的欄位，本篇將具體的items欄位提取出來這裡主要是涉及到選擇器的一些用法，如果不是很熟，可以參考：scrapy選擇器的使用依舊是在lagou_c.py檔案中編寫程式碼首先是匯入Lag

CrawlScrapy框架爬取Boos直聘職位資訊

寫在前面和推薦學習零基礎：21天搞定Python分佈爬蟲在本文中使用CrawlScrapy框架結合代理來實現對Boos直聘職位資訊的爬取。簡單說明Scrapy框架主要流程 1.爬蟲傳送一個請求給引擎 2.引擎將這個請求傳送給排程器 3.排程器按照一定的方式進

linux抓取執行時程序棧資訊

Linux上開發時，一般程序執行結果和預期不符會通過打log記錄日誌分析執行過程，但有時log日誌不全，再者一些大型系統長期執行不會過多的記錄日誌，一般可以設定core檔案配置，以便程序在異常掛掉後自動記錄棧資訊，但大部分情況下程序是在執行過程中出現問題，這時就需要抓取執行時

16-使用Selenium模擬瀏覽器抓取淘寶商品美食資訊

淘寶由於含有很多請求引數和加密引數，如果直接分析ajax會非常繁瑣，selenium自動化測試工具可以驅動瀏覽器自動完成一些操作，如模擬點選、輸入、下拉等，這樣我們只需要關心操作而不需要關心後臺發生了怎樣的請求。PhantomJS是一個無介面的瀏覽器。爬取淘寶搜尋關鍵詞下的寶貝內容，爬取到MONGODB，

利用scrapy框架爬取百度閱讀書籍資訊

專案需求：爬取百度閱讀的榜單圖書的資訊，如：書名、評分、作者、出版方、標籤、價格，生成一個csv檔案。專案的大致流程：建立spider工程專案，建立spider爬蟲，定義相關欄位，分析頁面資訊...... 由於scpapy框架，之間存在相互聯絡，針對此專案不同的檔案

Python抓取京東手機的配置資訊

以下程式碼是使用python抓取京東小米8手機的配置資訊然後找到其配置資訊的標籤，我們找到其配置資訊的標籤為 <div class="Ptable"> 然後再分析其配置資訊的頁面的規律，我們發現都是一個dt對應的一個dd，dt對應的是引數，dd對

使用Scrapy框架爬取360攝影圖片的資訊

要點 1.分析Ajax請求觀察到Ajax請求引數的變化，有一個引數sn一直在變化，當sn=30時，返回的時前30張圖片，listtype時排序方式，temp是引數可以忽略 2.構造請求和提取資訊 #

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

簡單介紹一下爬蟲原理。並給出 51job網站完整的爬蟲方案。爬蟲基礎知識資料來源網路爬蟲的資料一般都來自伺服器的響應結果，通常有html和json資料等，這兩種資料也是網路爬蟲的主要資料來源。其中html資料是網頁的原始碼，通過瀏覽器-檢視原始碼可

使用pyspider框架抓取貓途鷹旅遊資訊

相關推薦