pyspider框架之ajax資料爬取

阿新 • • 發佈：2019-01-28

pyspider框架之記錄1

由於公司業務需求，目前做的爬蟲就是爬取全國各個政府釋出的各種政策，平時寫的程式碼，沒有多少想寫成部落格的，後續可能都會寫出來，今天遇到了一個政府網站採用了ajax非同步更新技術，那就做個記錄吧。。
目標政府的url地址為http://www.hangzhou.gov.cn/col/col1255929/index.html。
1. 首先網頁進行簡單分析，因為目標網站存在多頁的情況的，一般情況，進行翻頁，上邊位址列的url地址會跟著翻頁跳轉發生有規律的變化，但是此網站不是這樣，因為採用了ajax非同步更新技術。如下圖
2. 對於ajax非同步請求的資料來說，首先考慮從右鍵->檢查->network裡抓包分析，如果不容易進行抓包分析，可以藉助抓包工具fiddler等，還可以可以藉助selenuim自動化網頁測試等工具。本次爬蟲比較簡單，通過簡單的抓包就可以獲取到ajax非同步請求的url地址。如下圖
  
  由上圖可以，翻一次頁，會多一個左下角的請求檔案，從右下角即可看到傳送請求的url地址，並且採用的是post請求方式，爬蟲時需要有請求體data資料，data資料的內容如下圖
3. 接下來，就可以用pyspider框架進行爬取資料了，pyspider是一個相對Scrapy簡單的框架，本文不對其使用進行詳細描述，後續會單獨寫pyspider的相關教程。分析完畢，將爬取的資料儲存至本地的mongodb資料庫。現將完整程式碼附上

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2018-06-01 14:20:47
# Project: guojiatongji 

# 杭州市人民政府 -. 資訊公開 -> 市政府資訊公開目錄

from pyspider.libs.base_handler import *
from pymongo import MongoClient
import datetime
import re

DB_IP = '127.0.0.1'
DB_PORT = 27017
DB_NAME = 'research'
DB_COL = 'hangzhou'
client = MongoClient(host=DB_IP, port=DB_PORT)
db = client[DB_NAME]
col = db[DB_COL]


class 
 Handler(BaseHandler):
    url = 'http://www.hangzhou.gov.cn/col/col1255929/index.html'
    crawl_config = {
        "headers": {
            "User-Agent": "Mozilla/5.0 (X11;Linux x86_64) AppleWebKit/537.36 (KHTML, likeGecko) Chrome/66.0.3359.181 Safari/537.36"
        }
    }

    def format_date(self, date):
        return datetime.datetime.strptime(date, '%Y-%m-%d')

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl(self.url, fetch_type='js', callback=self.index_page)

    @config(age=60)
    def index_page(self, response):
        page = response.etree

        total_page_str = page.xpath("//table[@class='tb_title']/tbody/tr/td/text()")[0].encode('utf-8')
        print
        total_page_str
        total_page = int(re.findall('共(\d+)頁', total_page_str)[0])

        print
        total_page
        # 請求的url
        base_url = 'http://www.hangzhou.gov.cn/module/xxgk/search.jsp?'
        # 請求體
        data = {"infotypeId": "",
                "jdid": 149,
                "area": "",
                "divid": "div1269023",
                "vc_title": "",
                "vc_number": "",
                "vc_filenumber": "",
                "vc_all": "",
                "texttype": 0,
                "fbtime": -1,
                "texttype": 0,
                "fbtime": -1,
                "vc_all": "",
                "vc_filenumber": "",
                "vc_title": "",
                "vc_number": "",
                "sortfield": ""
                }
        # 翻頁
        for page_num in range(1, total_page + 1):
            page_url = base_url + 'currpage={}&'.format(page_num)

            print
            page_url
            self.crawl(page_url, callback=self.parse_page, method='POST', data=data)

    def parse_page(self, response):
        page = response.etree
        categories = ["中國杭州"]

        content_list = page.xpath("//div")[2].xpath(".//tr")

        # 每頁內容
        for each in content_list:
            content_title = each.xpath("./td/a/@title")[0].encode('utf-8')

            content_url = each.xpath("./td/a/@href")[0]

            content_date = each.xpath("./td[3]/text()")[0]

            save = {"title": content_title,
                    "url": content_url,
                    "date": content_date,  ### 在這裡不要格式化日期，因為save資料在傳輸的時候會被序列化，到下個函式再用的時候，會變成字串
                    "categories": categories
                    }
            self.crawl(content_url, callback=self.parse_body, save=save)

    def parse_body(self, response):
        page = response.etree

        body_list = page.xpath("//td[@class='bt_content']//text()")

        body = ''
        for each in body_list:
            body += each.strip().encode('utf-8')

        result = {"title": response.save["title"],
                  "categories": response.save["categories"],
                  "date": self.format_date(response.save["date"]),
                  "url": response.save["url"],
                  "body": body,
                  "update_time": datetime.datetime.now(),
                  "source": "杭州市人民政府"
                  }

        yield result

    def on_result(self, result):
        if result is None:
            return
        # print result

        update_key = {
            'date': result['date'],
            'title': result['title']
        }
        col.update(update_key, {'$set': result}, upsert=True)

pyspider框架之ajax資料爬取

pyspider框架之記錄1 由於公司業務需求，目前做的爬蟲就是爬取全國各個政府釋出的各種政策，平時寫的程式碼，沒有多少想寫成部落格的，後續可能都會寫出來，今天遇到了一個政府網站採用了ajax非同步更新技術，那就做個記錄吧。。目標政府的url地址為http

汽車之家資料爬取:文章連結//圖片//標題

(1)打印出來的東西亂碼,如何處理這個問題? import requests response=requests.get( url='https://www.autohome.com.cn/beijing/' #最新的地址是可以出來的 # url='https://

爬蟲1.5-ajax資料爬取

目錄爬蟲-ajax資料爬取 1. ajax資料 2. selenium+chromedriver知識準備 3. selenium+chromedriver實戰拉勾網爬蟲程式碼爬蟲-ajax資料爬取 1. ajax資料 ajax (非同步JavaScr

Python3 Scrapy框架學習四：爬取的資料存入MongoDB

1. 新建一個scrapy專案： 2.使用PyCharm開啟該專案 3.在settings.py檔案中新增如下程式碼： #模擬瀏覽器，應對反爬 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK

利用requests+分析ajax+mogodb爬取並存儲攜程酒店資料

以前就利用selenium爬取協程酒店資訊，但是我們知道利用selenium抓取資訊有個缺點就是效率不高，於是這幾天重新開啟網頁，從基本的網頁和原始碼中尋找一些值得利用的資料。話不多說，我們直接說抓取攜程酒店資料的思路，宣告：本節只做爬蟲交流技術所用，不得用於商業用途，如有侵犯他人權利，聯

132 scrapy框架的認識, 移動端資料爬取, 多執行緒

主要內容: spider: 寫的特別好https://www.cnblogs.com/x-pyue/p/7795315.html 1 多執行緒資料爬取 import requests from lxml import etree import random import re f

Python3爬蟲之五：爬取網站資料並寫入excel

本文主要講解如何將網頁上的資料寫入到excel表中，因為我比較喜歡看小說，我們就以筆趣閣的小說資料為例，來說明怎麼把筆趣閣的小說關鍵資訊統計出來，比如：小說名、字數、作者、網址等。根據之前的幾次爬蟲例項分析筆趣網原始碼知道，小說名在唯一的標籤h1中，因此可以

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

python實戰之原生爬蟲(爬取熊貓主播排行榜)

ref png ret spider find end mod int tps """ this is a module,多行註釋 """ import re from urllib import request # BeautifulSoup:解析數據結構推薦庫

Fiddler之手機APP爬取

.net passport ref 連不上 tle 以及 detail 添加 get 配置fiddler抓包手機 fiddler抓包過程以及fiddler抓包手機添加代理後連不上網解決辦法Fiddler之手機APP爬取

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

requests筆記1之頁面的爬取

內容來自於視訊【Python網路爬蟲與資訊提取】.MOOC. 北京理工大學，例項京東商品頁面的爬取 import requests url = '' try: r = requests.get(url) r.raise_for_stat

php中laravel框架之ajax分頁

控制器中的程式碼 public function index(){ $list = DB::table('rezhi')->paginate(1); return view('Rizhi_xianshi',['list'=>$list]);

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

2018/10/29 1.所思所想：雖然自己的考試在即，但工作上不能有半點馬虎，要認真努力，不辜負期望。中午和他們去吃飯，算是吃飯創新吧。下午爬了雞西的網站，還有一些欄位沒爬出來，正則用的不熟悉，此時終於露出端倪，心情不是很好。。明天上午把正則好好看看。 2.工作： [1].哈爾濱：html p

Python爬蟲系列之小說網爬取

今日爬蟲—小說網再次宣告所有爬蟲僅僅為技術交流，沒有任何惡意，若有侵權請☞私信☚ 此次爬取由主頁爬取到各本小說地址，然後通過這些地址獲取到小說目錄結構，在通過目錄結構獲取章節內容，同時以小說名字為資料夾，每一個章節為txt文字儲存到本地。話不多說，直接上程式碼

總結5 （http協議與chorme抓包，cookie,ajax載入爬取）

get 請求：從伺服器獲取資料，並不會對伺服器資源產生影響的，使用get請求（一般情況） post請求：向伺服器傳送資料（登入），上傳檔案等。會對伺服器的資源產生影響的。請求頭常見引數在nttp協議中,向伺服器傳送一個請求,資料分為三部分,第一個是

Python爬蟲實習筆記 | Week4 專案資料爬取與反思

2018/11/05 1.所思所想：今天我把Python爬蟲實戰這本書Chapter6看完，很有感觸的一點是，書本中對爬蟲實現的模組化設計很給我靈感，讓我對專案中比較無語的函式拼接有了解決之道，內省還是比較興奮。此外，在吃飯問題上需要認真思考下，是否應注意合理的膳食，是否應對要吃的進行好好考究。下

移動端資料爬取

前言隨著移動市場的火熱，各大平臺都陸陸續續的推出了自己的移動端APP來拉攏吸引和便捷其廣大的使用者。那麼在移動端的平臺當時勢必會出現大量有價值的資訊和資料，那這些資料我們是否可以去享用一下呢？那麼接下來就進入我們的移動端APP資料的爬蟲中來吧。今日概要

Beego框架之請求資料處理

我們經常需要獲取使用者傳遞的資料，包括 Get、POST 等方式的請求，beego 裡面會自動解析這些資料，你可以通過如下方式獲取資料：通過this.Getstring("獲取使用者輸入")獲取使用者輸入再通過this.Ctx.WriteString("輸出使用者輸入的內容")輸出使用

Python爬蟲入門之豆瓣短評爬取

採用工具pyCharm，python3，工具的安裝在這就不多說了，之所以採用python3是因為python2只更新維護到2020年。新建python專案 File-Settings-project interpreter，點右上角+號，安裝requests，lx

pyspider框架之ajax資料爬取

pyspider框架之記錄1

相關推薦