通過分析ajax，使用正則表示式爬取今日頭條

阿新 • • 發佈：2018-12-11

今日頭條是一個動態載入頁面的網站，這一類的網站直接使用requests爬取的話得不到我們想要的內容。所以一般這類的網站都是通過分析ajax來進行抓包來獲取我們想要的內容。

老規矩，首先列出需要引入的庫：

import json
import os
from urllib.parse import urlencode
import pymongo
import requests
from bs4 import BeautifulSoup
from requests.exceptions import ConnectionError
import re
from multiprocessing import Pool
from hashlib import md5
from json.decoder import JSONDecodeError
from config import *

通過分析網頁的netword獲取引數資料，然後使用urlencode編碼獲得想要的url，然後對此url發出請求：

data = {
        'autoload': 'true',
        'count': 20,
        'cur_tab': 3,
        'format': 'json',
        'keyword': keyword,
        'offset': offset,
    }
    params = urlencode(data)
    base = 'http://www.toutiao.com/search_content/'
    url = base + '?' + params

然後解析網頁獲取圖片，即是我們想要的內容，這裡使用的是re正則表示式來進行匹配，通過分析網頁程式碼寫出正則表示式：

images_pattern = re.compile('gallery: JSON.parse\("(.*)"\)', re.S)

最後把他們放入到一個完整的函式，即可獲得我們想要的內容，具體程式碼如下：

import json
import os
from urllib.parse import urlencode
import pymongo
import requests
from bs4 import BeautifulSoup
from requests.exceptions import ConnectionError
import re
from multiprocessing import Pool
from hashlib import md5
from json.decoder import JSONDecodeError
from config import *


#mongoDB儲存配置
client = pymongo.MongoClient(MONGO_URL, connect=False)
db = client[MONGO_DB]

#獲得想要的url傳送請求
def get_page_index(offset, keyword):
#分析網頁獲取引數
    data = {
        'autoload': 'true',
        'count': 20,
        'cur_tab': 3,
        'format': 'json',
        'keyword': keyword,
        'offset': offset,
    }
    params = urlencode(data)
    base = 'http://www.toutiao.com/search_content/'
#拼接成url
    url = base + '?' + params
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except ConnectionError:
        print('Error occurred')
        return None

#圖片下載
def download_image(url):
    print('Downloading', url)
    try:
        response = requests.get(url)
        if response.status_code == 200:
#這裡呼叫的是圖片儲存方法
            save_image(response.content)
        return None
    except ConnectionError:
        return None

#圖片的儲存
def save_image(content):
#檔案的儲存路徑和命名，這裡儲存到當前的資料夾，使用hash來命名
    file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')
    print(file_path)
#去重
    if not os.path.exists(file_path):
        with open(file_path, 'wb') as f:
            f.write(content)
            f.close()

#解析引導頁面，依據json資料格式提取內容
def parse_page_index(text):
    try:
        data = json.loads(text)
        if data and 'data' in data.keys():
            for item in data.get('data'):
                yield item.get('article_url')
    except JSONDecodeError:
        pass

#獲取詳情頁
def get_page_detail(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except ConnectionError:
        print('Error occurred')
        return None

#解析詳情頁並下載圖片
def parse_page_detail(html, url):
    soup = BeautifulSoup(html, 'lxml')
    result = soup.select('title')
    title = result[0].get_text() if result else ''
#正則表示式匹配到圖片
    images_pattern = re.compile('gallery: JSON.parse\("(.*)"\)', re.S)
    result = re.search(images_pattern, html)
    if result:
        data = json.loads(result.group(1).replace('\\', ''))
        if data and 'sub_images' in data.keys():
            sub_images = data.get('sub_images')
            images = [item.get('url') for item in sub_images]
            for image in images: 
                download_image(image)
            return {
                'title': title,
                'url': url,
                'images': images
            }

#儲存帶mongoDB資料庫中
def save_to_mongo(result):
    if db[MONGO_TABLE].insert(result):
        print('Successfully Saved to Mongo', result)
        return True
    return False


def main(offset):
    text = get_page_index(offset, KEYWORD)
    urls = parse_page_index(text)
    for url in urls:
        html = get_page_detail(url)
        result = parse_page_detail(html, url)
        if result: save_to_mongo(result)


if __name__ == '__main__':
    pool = Pool()
    groups = ([x * 20 for x in range(GROUP_START, GROUP_END + 1)])
    pool.map(main, groups)
    pool.close()
    pool.join()

通過分析ajax，使用正則表示式爬取今日頭條

今日頭條是一個動態載入頁面的網站，這一類的網站直接使用requests爬取的話得不到我們想要的內容。所以一般這類的網站都是通過分析ajax來進行抓包來獲取我們想要的內容。老規矩，首先列出需要引入的庫： import json import os from urllib.

[python] 常用正則表示式爬取網頁資訊及分析HTML標籤總結

這篇文章主要是介紹Python爬取網頁資訊時，經常使用的正則表示式及方法。它是一篇總結性文章，實用性比較大，主要解決自己遇到的爬蟲問題，也希望對你有所幫助~ 當然如果會Selenium基於自動化測試爬蟲、BeautifulSoup分析網頁DOM節點，這就更方便了，但本文更多

用Requests和正則表示式爬取豆瓣圖書TOP250

思路和上文大同小異。 import requests from requests.exceptions import RequestException import re import json headers = {'User-Agent':'Mozilla/5.0(Macinto

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

requests正則表示式爬取貓眼電影

目標通過Request+正則表示式爬取貓眼電影TOP100電影的排名、名字、電影封面圖片、主演、上映時間、貓眼評分，將爬取的內容寫入檔案中。流程框架進入到貓眼電影TOP100的頁面，此時的URL為http://maoyan.com/board/4，點選第2頁，會發現此時的URL為http://ma

requests+正則表示式爬取豆瓣讀書top250

簡單的python練手專案，通過rquests庫請求得到豆瓣top250網頁原始碼，並通過正則表示式匹配得到對應資訊-書名，作者資訊，評分以及簡介。網站的URL為’https://book.douban.com/top250?start=0’,但我們拉到底部發現250本讀書的資訊被分成了1

14-Requests+正則表示式爬取貓眼電影

'''Requests+正則表示式爬取貓眼電影TOP100''''''流程框架：抓去單頁內容：利用requests請求目標站點，得到單個網頁HTML程式碼，返回結果。正則表示式分析：根據HTML程式碼分析得到電影的名稱、主演、上映時間、評分、圖片連結等資訊。儲存至檔案：通過檔案的形式儲存結果，每一部電影一個結

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

利用Requests庫和正則表示式爬取豆瓣影評Top250

說明最近看了下爬蟲基礎，想寫個部落格來記錄一下，一來是可以方便和我一樣剛入門的小白來參考學習，二來也當做自己的筆記供自己以後查閱。本文章是利用python3.6和Requests庫（需自行安裝，cmd裡執行pip install r

Requests+正則表示式爬取貓眼TOP100電影

需要著重學習的地方:(1)爬取分頁資料時,url連結的構建(2)儲存json格式資料到檔案,中文顯示問題(3)執行緒池的使用(4)正則表示式的寫法 import requests from requests.exceptions import RequestException import re im

使用正則表示式爬取古詩文網唐詩300首

思路先從唐詩300首頁面獲取所有唐詩詳情頁的連結; 再從每一首唐詩的詳情頁提取標題、作者、朝代、內容等資訊。原始碼 # !/usr/bin/env python # -*- coding:utf-8 -*- import re import r

使用正則表示式爬取500px上的圖片

網址:https://500px.com/seanarcher,seanarcher是一個up主的名字開啟這個網址,會發現有好多圖片,具體到每一個圖片的url地址 https://500px.com/photo/273383049/galya-by-sean-archer,其中

Requests+正則表示式爬取貓眼電影top100

#!/usr/bin/python #coding=utf-8 # import requests from requests.exceptions import RequestException import re import json from multiproces

python正則表示式爬取豆瓣圖書資訊

import requests import re content = requests.get('https://book.douban.com/').text pattern = re.compile('<li.*?cover.*?href="(.*?)".*?ti

Python網路爬蟲：利用正則表示式爬取豆瓣電影top250排行前10頁電影資訊

在學習了幾個常用的爬取包方法後，轉入爬取實戰。爬取豆瓣電影早已是練習爬取的常用方式了，網上各種程式碼也已經很多了，我可能現在還在做這個都太土了，不過沒事，畢竟我也才剛入門…… 這次我還是利用正則表示式進行爬取，怎麼說呢，有人說寫正則表示式很麻煩，很多人都不

【Python】Requests+正則表示式爬取貓眼電影TOP100

1.先獲取到一個頁面，狀態碼200是成功返回 def get_one_page(url): # 獲取一個頁面 try: response = requests.get(url) if response.status_cod

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

python網路爬蟲之解析網頁的正則表示式(爬取4k動漫圖片)[三]

前言 hello,大家好本章可是一個重中之重，因為我們今天是要爬取一個圖片而不是一個網頁或是一個json 所以我們也就不用用到selenium模組了，當然有興趣的同學也一樣可以使用selenium去爬取。為了方便我們就用requests模組就夠了，因為夠快。。。上章的課程傳送門： [python網路爬蟲

通過分析ajax，使用正則表示式爬取今日頭條

相關推薦