(爬蟲)採用BeautifulSoup和正則爬取今日頭條圖集.詳細!

阿新 • • 發佈：2018-12-09

用beautifulsoup提取文字資訊,正則匹配關鍵的圖片資訊.

最後存入資料庫mongodb.

完成後的感想: 其實分析網頁是最關鍵的一個環節.

ajax分析,json處理等等,還是需要多點練習.

下面是程式碼:

'''
步驟:
1. 首先抓取索引頁的內容,利用requests請求目標站點,獲得索引頁html程式碼,返回結果.
2. 解析返回結果,得到詳情頁(也就是每一個圖集的url)的連結,進一步用requests請求詳情頁的資訊
3. 分析詳情頁,得到圖片的url,並把url儲存到MongoDB資料庫中
4. 多執行緒,提高抓取效率
工具庫:beautifulsoup re pymongo資料庫 requests
'''

import requests
from urllib.parse import urlencode
from requests.exceptions import RequestException
from bs4 import BeautifulSoup
from hashlib import md5
from multiprocessing import Pool

import re
import os
import json
import pymongo

# 以下是需要用到的引數, 設為全域性變數既可. 也可以另存到一個配置檔案config.py
MONGO_URL = 'localhost'
MONGO_DB = 'toutiao'
MONGO_TABLE = 'toutiao'
GROUP_START = 0
GROUP_END = 10
KEYWORD = '街拍'

# pymongo  建立mongodb的連結,用於把資料存入資料庫
mongo_client = pymongo.MongoClient(MONGO_URL)
mongo_db = mongo_client[MONGO_DB]

'''
經分析網站,每個圖集的url是通過ajax的方式加載出來,
而每個圖集頁面的圖片是存在該html頁面中的一個json串中
爬取圖片,大體分為兩個步驟:
    1. 通過設定get請求引數的方式獲取,每個圖集的url
    2. 然後再請求每個圖集的url,在每個圖集的html中,用BeautifulSoup獲取文字資訊(標題)
    再用正則表示式匹配出我們需要的json串,最後處理json串,最終就可以得到我們想要的圖片url
把圖片存入資料庫
'''

def get_index_page(offset,keyword):
    # 通過設定get請求引數的方式,獲取索引網頁資訊
    data = {
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': '20',
        'cur_tab': 1,
        'from': 'search_tab'
    }
    headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
    url = 'https://www.toutiao.com/search_content/?'+urlencode(data)
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            # 直接把返回的內容以json格式返回
            return response.json()
        return None
    except RequestException:
        print('請求索引頁失敗')
        return None

def parse_index_page(data):
    # 解析索引網頁 (該網頁返回的是json串)
    if data and 'data' in data.keys():
        for item in data.get('data'):
            # 這裡返回的是每個圖集網頁的url(在這個url中才有我們想要的圖片)
            yield item.get('article_url')

def get_detail_page(url):
    # 獲取圖集網頁的html資料,並以文字的形式返回
    # 這個headers引數 可以提取出去,當作全域性變數來使用
    headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        # print('請求詳情頁出錯',url)
        return None

def parse_detail_page(html,url):
    # 解析詳情頁(圖集網頁),獲得該圖集的標題和圖片url
    try:
        soup = BeautifulSoup(html,'lxml')
        title = soup.select('title')[0].get_text()
        image_pattern = re.compile('JSON.parse\("([\s\S]+?)"\),')
        images = re.search(image_pattern,html)
        if images:
            images = images.group(1)
            images = re.sub(r'\\','',images)
            data = json.loads(images)
            if data and 'sub_images' in data.keys():
                sub_images = data.get('sub_images')
                img_list = [item.get('url') for item in sub_images]
                # 下載圖片
                for img_url in img_list:
                    download_image(img_url)
                # 把獲取好的資料以字典形式返回
                return {
                    'title':title,
                    'url':url,
                    'images':img_list,
                }
    except IndexError:
        return None

def save_2_mongo(result):
    #儲存到資料庫
    if mongo_db[MONGO_TABLE].insert(result):
        print('save to mongo successfuly',result)
        return True
    return False

def download_image(url):
    # 下載圖片
    print('正在下載',url)
    headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            # 下載圖片
            save_image(response.content)
        return None
    except RequestException:
        print('請求圖片出錯',url)
        return None

def save_image(content):
    # 下載
    # 當前路徑/KEYWORD  比如:/home/xiaohaozi/進階之路/爬蟲/今日頭條街拍/街拍  方便查詢下載好的圖片
    # 關鍵字可以改變,每改變一次關鍵字,就需要建立一個新的資料夾
    dir = os.path.dirname(os.path.realpath(__file__)) + r'/' + KEYWORD
    if not os.path.exists(dir):
        os.makedirs(dir)
    # 每個圖片用hash的方法命名,避免重複下載
    file_path = '{0}/{1}.{2}'.format(dir,md5(content).hexdigest(),'jpg')
    if not os.path.exists(file_path):
        with open(file_path,'wb') as f:
            f.write(content)

def main(offset):
    # 主函式
    index_html = get_index_page(offset,KEYWORD)
    for url in parse_index_page(index_html):
        detail_html = get_detail_page(url)
        if detail_html:
            result = parse_detail_page(detail_html,url)
            if result:
                save_2_mongo(result)
        


if __name__ == "__main__":
    # 多程序 程序池
    groups = [i*20 for i in range(GROUP_START,GROUP_END+1)]
    pool =  Pool()
    pool.map(main,groups)

爬取內容截圖:

下載的圖片

資料庫 (偷了個小懶,沒用可視工具,直接終端截的)

勤能補拙

請努力 xiaohaozi

(爬蟲)採用BeautifulSoup和正則爬取今日頭條圖集.詳細!

用beautifulsoup提取文字資訊,正則匹配關鍵的圖片資訊. 最後存入資料庫mongodb. 完成後的感想: 其實分析網頁是最關鍵的一個環節. ajax分析,json處理等等,還是需要多點練習. 下面是程式碼: ''' 步驟: 1. 首先抓取索引頁的內容,

requests和正則爬取貓眼的資料

用requests爬取貓眼網站的top100榜單，再用正則提取所需的資料，並將資料儲存 #成功抓取所有資料，並存為檔案（參考程式碼：https://github.com/Germey/TouTiao/blob/master/spider.py） import request

利用requests和正則爬取貓眼電影top100榜單

環境：win10， anaconda3（python3.5）用python的requests庫和正則將貓眼電影top100榜單資訊抓取下來，儲存資料並做了點簡單的分析。（貓眼電影top100榜單網頁的原始碼可能發生了改變，程式里正則那邊可能不適用了，需要修改。）下面

[python爬蟲小實戰2]根據使用者輸入關鍵詞爬取今日頭條圖集，並批量下載圖片

這算是比較貼近於實際生活的爬蟲了，根據使用者輸入的關鍵字批量下載今日頭條相關圖集圖片，，核心用到了urllib.request.urlretrieve()這個方法，然後百度了一下進度條怎麼玩，直接把程式碼加上去了，沒毛病，感覺程式碼有些複雜，其實理論上一層網頁可

Python 利用BeautifulSoup和正則表示式來爬取旅遊網資料

import re import requests import time from bs4 import BeautifulSoup url = ‘http://www.cntour.cn/’ r = requests.get(url) print(r.encoding,len(r.t

python 爬蟲使用正則爬取51job內容並存入txt

python爬蟲基礎–使用正則提取51job內容輸出到txt from urllib import request #url url = 'https://search.51job.com/list/020000%252C010000%252C080200%25

正則爬取二手房數據

ace req spider spi con 網址 for repl 插入數據以下代碼是二手房的數據，代碼僅供參考，很簡單，超級簡單#encoding:utf8import requestsimport re調用網址def spider(url): html = r

通過分析ajax，使用正則表示式爬取今日頭條

今日頭條是一個動態載入頁面的網站，這一類的網站直接使用requests爬取的話得不到我們想要的內容。所以一般這類的網站都是通過分析ajax來進行抓包來獲取我們想要的內容。老規矩，首先列出需要引入的庫： import json import os from urllib.

python --爬蟲基礎 --爬取今日頭條使用 requests 庫的基本操作, Ajax

'''思路一: 由於是Ajax的網頁,需要先往下劃幾下看看XHR的內容變化二:分析js中的程式碼內容三:獲取一頁中的內容四:獲取圖片五:儲存在本地使用的庫1. requests 網頁獲取庫 2.from urllib.parse import urlencode 將字典轉化為字串內容整

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

Java爬蟲實踐：Jsoup+HttpUnit爬取今日頭條、網易、搜狐、鳳凰新聞

0x0 背景最近學習爬蟲，分析了幾種主流的爬蟲框架，決定使用最原始的兩大框架進行練手： Jsoup&HttpUnit 其中jsoup可以獲取靜態頁面，並解析頁面標籤，最主要的是，可以採用類似於jquery的語法獲取想要的標籤元素，例如： /

用接口爬取今日頭條圖片

b+ req ace nco ext odin api data utf #encoding:utf8import requestsimport jsonimport redemo = requests.get(‘http://www.toutiao.com/api/pc/

Python爬取今日頭條段子

找到 eat 修改是什麽一次時間地址 style 用戶名剛入門Python爬蟲，試了下爬取今日頭條官網中的段子，網址為https://www.toutiao.com/ch/essay_joke/源碼比較簡陋，如下： 1 import requests 2 i

使用python-aiohttp爬取今日頭條

cas 觀察字典類 length tez gen mod 格式 jos http://blog.csdn.net/u011475134/article/details/70198533 原出處在上一篇文章《使用python-aiohttp爬取網易雲音樂》中，我們給自

爬取今日頭條收藏夾文章列表信息

學習 rep 數據一個 mar exc 頭條變量考試從了解Python到決定做這個項目，從臨近期末考試到放假在家，利用零碎的時間持續了一個月吧。完成這個項目我用了三個階段階段一：了解Python，開始學習Python的基本語法，觀看相關爬蟲視頻，了解到爬取網頁信息的

爬取今日頭條中的圖片

ear sele url 玄機一個 www. view image esp 今日頭條搜索：cos. 網址：https://www.toutiao.com/search/?keyword=cos 分析1 在network的doc中的Preview，看到只有一句話

爬取今日頭條

type 取數 count format mage window chrome tail con import reimport requestsimport json,osfrom urllib import requestdef get_detail(url,title

python爬取今日頭條關鍵字圖集

try ssi __main__ geo session sea pass lse utf １．訪問搜索圖集結果，獲得json如下(右圖為data的一條的詳細內容)．頁面以Ajax呈現，每次請求20個圖集，其中 title 　　　　--- 圖集名字 artical_u

部落格搬家系列（六）-爬取今日頭條文章

部落格搬家系列（六）-爬取今日頭條文章一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（二）-爬取CSDN部落格：https://blo

爬取今日頭條街拍圖的一次教訓

本來只要按照崔大大的步驟一步一步做下去，啥問題沒有。但我看完他的操作之後，自己操作了一遍。在街拍_頭條搜尋這個頁面發起ajax請求並沒有遇到什麼問題，然後理所當然的訪問其中一個子頁面什麼都沒有想，我就直接看了一下瀏覽器有沒有ajax請求，看了一下ajax(XHR)的內容發現裡面

(爬蟲)採用BeautifulSoup和正則爬取今日頭條圖集.詳細!

相關推薦