python 通過ajax請求爬取今日頭條內容（僅程式碼+註釋+執行結果）

阿新 • • 發佈：2019-02-19

學習書籍：《python3 網路爬蟲開發實戰》 –崔慶才
前提：下好MongoDB，以及各種第三方庫

test.py

import json
import os
import re
from hashlib import md5
import pymongo
from urllib.parse import urlencode
import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
from config import *

#引入多程序
from multiprocessing import 
 Pool

#宣告一個MongoDB資料庫物件
client=pymongo.MongoClient(MONGO_URL,connect=False)
db=client[MONGO_DB]

#獲取索引
def get_page_index(offset,keyword):
    data={
        'offset':offset,
        'format':'json',
        'keyword':keyword,
        'autoload':'true',
        'count': '20',
        'cur_tab':'3',
        'from' 
: 'search_tab'
    }

    #進行編碼，加上引數
    url='https://www.toutiao.com/search_content/?'+urlencode(data)
    try:
        response=requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('請求索引失敗')
        return 
 None

#解析索引頁面，即搜尋出來的一個個總集合。需要獲取詳情頁面的url
def parse_page_index(html):
    try:
        #通過loads將字串轉換成物件
        data=json.loads(html)
        #使用了dict.keys()方法，返回所有鍵值
        if data and 'data' in data.keys():
            for item in data.get('data'):
                yield item.get('article_url')
    finally:
        print('解鎖成功')

#獲取詳情
def get_page_detail(url):
    try:
        headers = {
            'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
        }
        response=requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('請求詳情頁面失敗',url)
        return None

#解析獲取的HTML為json格式
def parse_page_detail(html,url):
    soup=BeautifulSoup(html,'lxml')
    title=soup.select('title')[0].get_text()
    images_pattern=re.compile('gallery: JSON.parse\\((.*?)\\),',re.S)
    result=re.search(images_pattern,html)
    if result:
        #網頁格式改了，需要解析2次才能正確解析
        data=json.loads(json.loads(result.group(1)))
        if data and 'sub_images' in data.keys():
            sub_images=data.get('sub_images')
            #遍歷sub_images，並獲取其中鍵值為url的資料，放入陣列中
            images=[item.get('url') for item in sub_images]
            #已經獲取到所有圖片，迴圈，呼叫下載函式
            for image in images:download_image(image)
            return {
                'title':title,
                'url':url,
                'images':images
            }

#儲存到資料庫，引數採用一個字典
def save_to_mongo(result):
    if db[MONGO_TABLE].insert(result):
        print('儲存成功',result)
        return True
    return False

#下載（注意，這裡和前面不一樣的是請求response.content
# content是返回二進位制內容，text返回網頁請求結果
#一般請求網頁用text，請求圖片用content
def download_image(url):
    print('正在下載：',url)
    try:
        headers = {
            'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
        }
        response=requests.get(url,headers=headers)
        if response.status_code == 200:
            save_image(response.content)
        return None
    except RequestException:
        print('請求圖片下載出錯',url)
        return None

#將download_image中獲取的response.text作為引數傳入
def save_image(content):
    #路徑包含三部分：哪個資料夾，圖片名，圖片字尾
    #為了防止下重複的圖片，使用md5來防止
    file_path='{0}/{1}.{2}'.format('F:\\image\\',md5(content).hexdigest(),'jpg')
    #如果檔案不存在，就儲存下來
    if not os.path.exists(file_path):
        with open(file_path,'wb') as f:
            f.write(content)
            f.close()

def main(offset):
    #KEYWORD在配置檔案中
    html=get_page_index(offset,KEYWORD)
    for url in parse_page_index(html):
        #此處的html是每個詳情頁面的內容
        html=get_page_detail(url)
        if html:
            result=parse_page_detail(html,url)
            save_to_mongo(result)

if __name__=='__main__':
    #觀察頭條可發現，向下拉時候會不停發出ajax請求，並且每次
    #都是引數offset偏移了20，這裡多程序執行main函式，加上offset引數
    #來請求多組資料
    groups=[x*20 for x in range(1,20)]
    #宣告一個程序池
    pool=Pool()
    pool.map(main,groups)

2.config.py

#存入MongoDB
MONGO_URL='localhost'
MONGO_DB='toutiao'
MONGO_TABLE='toutiao1'

#定義一個offset偏移量，用於迴圈
GROUP_START=1
GROUP_END=20

#搜尋的關鍵字
KEYWORD='街拍'

3.執行結果截圖：
這裡寫圖片描述

python 通過ajax請求爬取今日頭條內容（僅程式碼+註釋+執行結果）

學習書籍：《python3 網路爬蟲開發實戰》 –崔慶才前提：下好MongoDB，以及各種第三方庫 test.py import json import os import re from hashlib import md5 import pymo

python --爬蟲基礎 --爬取今日頭條使用 requests 庫的基本操作, Ajax

'''思路一: 由於是Ajax的網頁,需要先往下劃幾下看看XHR的內容變化二:分析js中的程式碼內容三:獲取一頁中的內容四:獲取圖片五:儲存在本地使用的庫1. requests 網頁獲取庫 2.from urllib.parse import urlencode 將字典轉化為字串內容整

通過分析ajax，使用正則表示式爬取今日頭條

今日頭條是一個動態載入頁面的網站，這一類的網站直接使用requests爬取的話得不到我們想要的內容。所以一般這類的網站都是通過分析ajax來進行抓包來獲取我們想要的內容。老規矩，首先列出需要引入的庫： import json import os from urllib.

Python爬取今日頭條段子

找到 eat 修改是什麽一次時間地址 style 用戶名剛入門Python爬蟲，試了下爬取今日頭條官網中的段子，網址為https://www.toutiao.com/ch/essay_joke/源碼比較簡陋，如下： 1 import requests 2 i

使用python-aiohttp爬取今日頭條

cas 觀察字典類 length tez gen mod 格式 jos http://blog.csdn.net/u011475134/article/details/70198533 原出處在上一篇文章《使用python-aiohttp爬取網易雲音樂》中，我們給自

python爬取今日頭條關鍵字圖集

try ssi __main__ geo session sea pass lse utf １．訪問搜索圖集結果，獲得json如下(右圖為data的一條的詳細內容)．頁面以Ajax呈現，每次請求20個圖集，其中 title 　　　　--- 圖集名字 artical_u

Ajax爬取今日頭條街拍美圖

1.開啟今日頭條：https://www.toutiao.com 2.搜尋街拍 3.檢查元素，檢視請求發現在URL中每次只有offset發生改變，是一個get請求 1 import requests 2 from urllib.parse import urlencode 3 impor

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

Ajax爬取今日頭條街拍

import os import requests from urllib.parse import urlencode from requests import codes from hashlib import md5 from multiprocessing.pool

Python web爬取今日頭條的街拍

#最新的暫時能用 import requests from urllib.parse import urlencode headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_

python爬取今日頭條圖片

import requests from urllib.parse import urlencode from requests import codes import os # qianxiao996精心製作 #部落格地址：https://blog.csdn.

關於爬取今日頭條圖片中的連結的提取（ajax）

在爬取今日頭條的圖片時，由於今日頭條用了ajax載入圖片，所以，通過re模組來對連結進行提取，但是在提取的過程中，遇到了一點小問題，如圖： ['"{\\"count\\":9,\\"sub_images\\":[{\\"url\\":\\"http:\\\\/\\\\/p3

使用python爬取今日頭條

import requests, re, json, pymongo, os from urllib.parse import urlencode # 引入md5加密函式 from hashlib import md5 # 引入多程序模組中的程序池 from multipro

用Ajax爬取今日頭條圖片

hash 格式技術 keyword 爬蟲 url return tab 網頁 Ajax原理 ? 在用requests抓取頁面時，得到的結果可能和瀏覽器中看到的不一樣：在瀏覽器中可以正常顯示的頁面數據，但用requests得到的結果並沒有。這是因為requests獲取的都是

[python爬蟲小實戰2]根據使用者輸入關鍵詞爬取今日頭條圖集，並批量下載圖片

這算是比較貼近於實際生活的爬蟲了，根據使用者輸入的關鍵字批量下載今日頭條相關圖集圖片，，核心用到了urllib.request.urlretrieve()這個方法，然後百度了一下進度條怎麼玩，直接把程式碼加上去了，沒毛病，感覺程式碼有些複雜，其實理論上一層網頁可

用Ajax爬取今日頭條圖片集

urllib sta os.path images amp int jpg asc scrip Ajax原理 ? 在用requests抓取頁面時，得到的結果可能和瀏覽器中看到的不一樣：在瀏覽器中可以正常顯示的頁面數據，但用requests得到的結果並沒有。這是因為reque

python 簡單爬取今日頭條熱點新聞(一)

分享查找閱讀量 div nco return ade com macintosh 今日頭條如今在自媒體領域算是比較強大的存在，今天就帶大家利用python爬去今日頭條的熱點新聞，理論上是可以做到無限爬取的；在瀏覽器中打開今日頭條的鏈接，選中左側的熱點，在瀏覽器開發者模

分析Ajax爬取今日頭條街拍美圖-崔慶才思路

站點分析原始碼及遇到的問題程式碼結構方法定義需要的常量關於在程式碼中遇到的問題01. 資料庫連線02.今日頭條的反爬蟲機制03. json解碼遇到的問題04. 關於response.text和response.content的區別原始碼站點分析首先,開啟頭條,在搜尋框輸入關鍵字之後,在返回的

用接口爬取今日頭條圖片

b+ req ace nco ext odin api data utf #encoding:utf8import requestsimport jsonimport redemo = requests.get(‘http://www.toutiao.com/api/pc/

爬取今日頭條收藏夾文章列表信息

學習 rep 數據一個 mar exc 頭條變量考試從了解Python到決定做這個項目，從臨近期末考試到放假在家，利用零碎的時間持續了一個月吧。完成這個項目我用了三個階段階段一：了解Python，開始學習Python的基本語法，觀看相關爬蟲視頻，了解到爬取網頁信息的

python 通過ajax請求爬取今日頭條內容（僅程式碼+註釋+執行結果）

相關推薦