python爬取今日頭條圖片

阿新 • • 發佈：2018-12-17

import requests
from urllib.parse import urlencode
from requests import codes
import os
# qianxiao996精心製作
#部落格地址：https://blog.csdn.net/qq_36374896
from hashlib import md5
from multiprocessing.pool import Pool

def get_page(offset):
    params = {
        'offset': offset,
        'format': 'json',
        'keyword': '街拍',
        'autoload': 'true',
        'count': '20',
        'cur_tab': '1',
        'from': 'search_tab'
    }
    base_url = 'https://www.toutiao.com/search_content/?'
    url = base_url + urlencode(params)
    try:
        resp = requests.get(url)
        if codes.ok == resp.status_code:
            return resp.json()
    except requests.ConnectionError:
        return None


def get_images(json):
    if json.get('data'):
        data = json.get('data')
        for item in data:
            if item.get('cell_type') is not None:
                continue
            title = item.get('title')
            images = item.get('image_list')
#            url_temp = image.get('url')
            for image in images:
                url_temp = image.get('url')
                yield {
                    #此處更新，使用列表網址後23位作為大圖的地址，抓取大圖
                    'image': 'https:' + '//p3.pstatp.com/large/pgc-image/'+ url_temp[-23:],
#                    'image': 'https:' + image.get('url')，
                    'title': title
                }


def save_image(item):
    img_path = 'img' + os.path.sep + item.get('title')
    if not os.path.exists(img_path):
        os.makedirs(img_path)
    try:
        resp = requests.get(item.get('image'))
        if codes.ok == resp.status_code:
            file_path = img_path + os.path.sep + '{file_name}.{file_suffix}'.format(
                file_name=md5(resp.content).hexdigest(),
                file_suffix='jpg')
            if not os.path.exists(file_path):
                with open(file_path, 'wb') as f:
                    f.write(resp.content)
                print('Downloaded image path is %s' % file_path)
            else:
                print('Already Downloaded', file_path)
    except requests.ConnectionError:
        print('Failed to Save Image，item %s' % item)


def main(offset):
    json = get_page(offset)
    for item in get_images(json):
        print(item)
        save_image(item)


GROUP_START = 0
GROUP_END = 3

if __name__ == '__main__':
    pool = Pool()
    groups = ([x * 20 for x in range(GROUP_START, GROUP_END + 1)])
    pool.map(main, groups)
    pool.close()
    pool.join()

程式碼年代久遠，註釋當時沒寫，現在懶得寫了

python爬取今日頭條圖片

import requests from urllib.parse import urlencode from requests import codes import os # qianxiao996精心製作 #部落格地址：https://blog.csdn.

用接口爬取今日頭條圖片

b+ req ace nco ext odin api data utf #encoding:utf8import requestsimport jsonimport redemo = requests.get(‘http://www.toutiao.com/api/pc/

Python爬取今日頭條段子

找到 eat 修改是什麽一次時間地址 style 用戶名剛入門Python爬蟲，試了下爬取今日頭條官網中的段子，網址為https://www.toutiao.com/ch/essay_joke/源碼比較簡陋，如下： 1 import requests 2 i

python爬取今日頭條關鍵字圖集

try ssi __main__ geo session sea pass lse utf １．訪問搜索圖集結果，獲得json如下(右圖為data的一條的詳細內容)．頁面以Ajax呈現，每次請求20個圖集，其中 title 　　　　--- 圖集名字 artical_u

關於爬取今日頭條圖片中的連結的提取（ajax）

在爬取今日頭條的圖片時，由於今日頭條用了ajax載入圖片，所以，通過re模組來對連結進行提取，但是在提取的過程中，遇到了一點小問題，如圖： ['"{\\"count\\":9,\\"sub_images\\":[{\\"url\\":\\"http:\\\\/\\\\/p3

使用python爬取今日頭條

import requests, re, json, pymongo, os from urllib.parse import urlencode # 引入md5加密函式 from hashlib import md5 # 引入多程序模組中的程序池 from multipro

用Ajax爬取今日頭條圖片

hash 格式技術 keyword 爬蟲 url return tab 網頁 Ajax原理 ? 在用requests抓取頁面時，得到的結果可能和瀏覽器中看到的不一樣：在瀏覽器中可以正常顯示的頁面數據，但用requests得到的結果並沒有。這是因為requests獲取的都是

[python爬蟲小實戰2]根據使用者輸入關鍵詞爬取今日頭條圖集，並批量下載圖片

這算是比較貼近於實際生活的爬蟲了，根據使用者輸入的關鍵字批量下載今日頭條相關圖集圖片，，核心用到了urllib.request.urlretrieve()這個方法，然後百度了一下進度條怎麼玩，直接把程式碼加上去了，沒毛病，感覺程式碼有些複雜，其實理論上一層網頁可

使用python-aiohttp爬取今日頭條

cas 觀察字典類 length tez gen mod 格式 jos http://blog.csdn.net/u011475134/article/details/70198533 原出處在上一篇文章《使用python-aiohttp爬取網易雲音樂》中，我們給自

爬取今日頭條中的圖片

ear sele url 玄機一個 www. view image esp 今日頭條搜索：cos. 網址：https://www.toutiao.com/search/?keyword=cos 分析1 在network的doc中的Preview，看到只有一句話

python --爬蟲基礎 --爬取今日頭條使用 requests 庫的基本操作, Ajax

'''思路一: 由於是Ajax的網頁,需要先往下劃幾下看看XHR的內容變化二:分析js中的程式碼內容三:獲取一頁中的內容四:獲取圖片五:儲存在本地使用的庫1. requests 網頁獲取庫 2.from urllib.parse import urlencode 將字典轉化為字串內容整

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

Python web爬取今日頭條的街拍

#最新的暫時能用 import requests from urllib.parse import urlencode headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_

python 簡單爬取今日頭條熱點新聞(一)

分享查找閱讀量 div nco return ade com macintosh 今日頭條如今在自媒體領域算是比較強大的存在，今天就帶大家利用python爬去今日頭條的熱點新聞，理論上是可以做到無限爬取的；在瀏覽器中打開今日頭條的鏈接，選中左側的熱點，在瀏覽器開發者模

python 通過ajax請求爬取今日頭條內容（僅程式碼+註釋+執行結果）

學習書籍：《python3 網路爬蟲開發實戰》 –崔慶才前提：下好MongoDB，以及各種第三方庫 test.py import json import os import re from hashlib import md5 import pymo

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

python爬取微博圖片數據存到Mysql中遇到的各種坑python Mysql存儲圖片

字符轉義 process 程序 zha 有一個 utf-8 get ctime python3 本人長期出售超大量微博數據，並提供特定微博數據打包，Message to [email protected] 前言由於硬件等各種原因需要把大概

爬取今日頭條收藏夾文章列表信息

學習 rep 數據一個 mar exc 頭條變量考試從了解Python到決定做這個項目，從臨近期末考試到放假在家，利用零碎的時間持續了一個月吧。完成這個項目我用了三個階段階段一：了解Python，開始學習Python的基本語法，觀看相關爬蟲視頻，了解到爬取網頁信息的

python爬取百度圖片代碼

python爬蟲；import json import itertools import urllib import requests import os import re import sys word=input("請輸入關鍵字：") path="./ok" if

爬取今日頭條

type 取數 count format mage window chrome tail con import reimport requestsimport json,osfrom urllib import requestdef get_detail(url,title

python爬取今日頭條圖片

相關推薦