1. 程式人生 > >關於爬取今日頭條圖片中的連結的提取(ajax)

關於爬取今日頭條圖片中的連結的提取(ajax)

在爬取今日頭條的圖片時,由於今日頭條用了ajax載入圖片,所以,通過re模組來對連結進行提取,但是在提取的過程中,遇到了一點小問題,如圖:

['"{\\"count\\":9,\\"sub_images\\":[{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/418185332_tt\\",\\"width\\":1200,\\"url_list\\":[{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/418185332_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb9.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/418185332_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb1.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/418185332_tt\\"}],\\"uri\\":\\"origin\\\\/tuchong.fullscreen\\\\/418185332_tt\\",\\"height\\":1200},{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/529858694_tt\\",\\"width\\":1200,\\"url_list\\":[{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/529858694_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb9.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/529858694_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb1.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/529858694_tt\\"}],\\"uri\\":\\"origin\\\\/tuchong.fullscreen\\\\/529858694_tt\\",\\"height\\":1200},{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/374079621_tt\\",\\"width\\":1200,\\"url_list\\":[{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/374079621_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb9.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/374079621_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb1.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/374079621_tt\\"}],\\"uri\\":\\"origin\\\\/tuchong.fullscreen\\\\/374079621_tt\\",\\"height\\":1200},{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/583008374_tt\\",\\"width\\":1200,\\"url_list\\":[{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/583008374_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb9.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/583008374_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb1.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/583008374_tt\\"}],\\"uri\\":\\"origin\\\\/tuchong.fullscreen\\\\/583008374_tt\\",\\"height\\":1200},{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/458686594_tt\\",\\"width\\":1200,\\"url_list\\":[{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/458686594_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb9.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/458686594_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb1.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/458686594_tt\\"}],\\"uri\\":\\"origin\\\\/tuchong.fullscreen\\\\/458686594_tt\\",\\"height\\":1200},{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/147390595_tt\\",\\"width\\":1200,\\"url_list\\":[{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/147390595_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb9.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/147390595_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb1.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/147390595_tt\\"}],\\"uri\\":\\"origin\\\\/tuchong.fullscreen\\\\/147390595_tt\\",\\"height\\":1200},{\\"url\\":\\"http:\\\\/\\\\/p1.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/22543963_tt\\",\\"width\\":1200,\\"url_list\\":[{\\"url\\":\\"http:\\\\/\\\\/p1.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/22543963_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/22543963_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb9.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/22543963_tt\\"}],\\"uri\\":\\"origin\\\\/tuchong.fullscreen\\\\/22543963_tt\\",\\"height\\":1200},{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/552992907_tt\\",\\"width\\":1200,\\"url_list\\":[{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/552992907_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb9.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/552992907_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb1.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/552992907_tt\\"}],\\"uri\\":\\"origin\\\\/tuchong.fullscreen\\\\/552992907_tt\\",\\"height\\":1200},{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/420610157_tt\\",\\"width\\":1200,\\"url_list\\":[{\\"url\\":\\"http:\\\\/\\\\/p3.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/420610157_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb9.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/420610157_tt\\"},{\\"url\\":\\"http:\\\\/\\\\/pb1.pstatp.com\\\\/origin\\\\/tuchong.fullscreen\\\\/420610157_tt\\"}],\\"uri\\":\\"origin\\\\/tuchong.fullscreen\\\\/420610157_tt\\",\\"height\\":1200}],\\"max_img_width\\":1200,\\"labels\\":[\\"\\\\u6444\\\\u5f71\\"],\\"sub_abstracts\\":[\\" \\\\u6444\\\\u5f71\\\\uff1a\\\\u61d2\\\\u4ebade\\\\u903b\\\\u8f91\\",\\" \\",\\" \\",\\" \\",\\" \\",\\" \\",\\" \\",\\" \\",\\" \\"],\\"sub_titles\\":[\\"\\\\u56fe\\\\u866b\\\\u8857\\\\u62cd\\\\u6444\\\\u5f71\\\\uff1a\\\\u8857\\\\u62cd06\\",\\"\\\\u56fe\\\\u866b\\\\u8857\\\\u62cd\\\\u6444\\\\u5f71\\\\uff1a\\\\u8857\\\\u62cd06\\",\\"\\\\u56fe\\\\u866b\\\\u8857\\\\u62cd\\\\u6444\\\\u5f71\\\\uff1a\\\\u8857\\\\u62cd06\\",\\"\\\\u56fe\\\\u866b\\\\u8857\\\\u62cd\\\\u6444\\\\u5f71\\\\uff1a\\\\u8857\\\\u62cd06\\",\\"\\\\u56fe\\\\u866b\\\\u8857\\\\u62cd\\\\u6444\\\\u5f71\\\\uff1a\\\\u8857\\\\u62cd06\\",\\"\\\\u56fe\\\\u866b\\\\u8857\\\\u62cd\\\\u6444\\\\u5f71\\\\uff1a\\\\u8857\\\\u62cd06\\",\\"\\\\u56fe\\\\u866b\\\\u8857\\\\u62cd\\\\u6444\\\\u5f71\\\\uff1a\\\\u8857\\\\u62cd06\\",\\"\\\\u56fe\\\\u866b\\\\u8857\\\\u62cd\\\\u6444\\\\u5f71\\\\uff1a\\\\u8857\\\\u62cd06\\",\\"\\\\u56fe\\\\u866b\\\\u8857\\\\u62cd\\\\u6444\\\\u5f71\\\\uff1a\\\\u8857\\\\u62cd06\\"]}"']

提取出來的文字全部都轉義了的,解決方法也十分的簡單,用replace來進行替換:

replace('\\\\','\\')

replace('\\"','"')

然後用json.loads(),將str 轉換為dict

這樣,就可以獲得正常的json資料了

相關推薦

關於今日頭條圖片連結提取ajax

在爬取今日頭條的圖片時,由於今日頭條用了ajax載入圖片,所以,通過re模組來對連結進行提取,但是在提取的過程中,遇到了一點小問題,如圖: ['"{\\"count\\":9,\\"sub_images\\":[{\\"url\\":\\"http:\\\\/\\\\/p3

用接口今日頭條圖片

b+ req ace nco ext odin api data utf #encoding:utf8import requestsimport jsonimport redemo = requests.get(‘http://www.toutiao.com/api/pc/

python今日頭條圖片

import requests from urllib.parse import urlencode from requests import codes import os # qianxiao996精心製作 #部落格地址:https://blog.csdn.

Ajax今日頭條圖片

hash 格式 技術 keyword 爬蟲 url return tab 網頁 Ajax原理 ? 在用requests抓取頁面時,得到的結果可能和瀏覽器中看到的不一樣:在瀏覽器中可以正常顯示的頁面數據,但用requests得到的結果並沒有。這是因為requests獲取的都是

今日頭條圖片

ear sele url 玄機 一個 www. view image esp 今日頭條搜索 :cos. 網址:https://www.toutiao.com/search/?keyword=cos 分析1 在network的doc中的Preview,看到只有一句話

[python爬蟲小實戰2]根據使用者輸入關鍵詞今日頭條圖集,並批量下載圖片

這算是比較貼近於實際生活的爬蟲了,根據使用者輸入的關鍵字批量下載今日頭條相關圖集圖片,,核心用到了urllib.request.urlretrieve()這個方法,然後百度了一下進度條怎麼玩,直接把程式碼加上去了,沒毛病,感覺程式碼有些複雜,其實理論上一層網頁可

Python今日頭條段子

找到 eat 修改 是什麽 一次 時間 地址 style 用戶名 剛入門Python爬蟲,試了下爬取今日頭條官網中的段子,網址為https://www.toutiao.com/ch/essay_joke/源碼比較簡陋,如下: 1 import requests 2 i

使用python-aiohttp今日頭條

cas 觀察 字典類 length tez gen mod 格式 jos http://blog.csdn.net/u011475134/article/details/70198533 原出處 在上一篇文章《使用python-aiohttp爬取網易雲音樂》中,我們給自

今日頭條收藏夾文章列表信息

學習 rep 數據 一個 mar exc 頭條 變量 考試 從了解Python到決定做這個項目,從臨近期末考試到放假在家,利用零碎的時間持續了一個月吧。完成這個項目我用了三個階段階段一:了解Python,開始學習Python的基本語法,觀看相關爬蟲視頻,了解到爬取網頁信息的

今日頭條

type 取數 count format mage window chrome tail con import reimport requestsimport json,osfrom urllib import requestdef get_detail(url,title

python今日頭條關鍵字圖集

try ssi __main__ geo session sea pass lse utf 1.訪問搜索圖集結果,獲得json如下(右圖為data的一條的詳細內容).頁面以Ajax呈現,每次請求20個圖集,其中 title     --- 圖集名字 artical_u

部落格搬家系列-今日頭條文章

部落格搬家系列(六)-爬取今日頭條文章 一.前情回顧  部落格搬家系列(一)-簡介:https://blog.csdn.net/rico_zhou/article/details/83619152  部落格搬家系列(二)-爬取CSDN部落格:https://blo

今日頭條街拍圖的一次教訓

本 來只要按照崔大大的步驟一步一步做下去,啥問題沒有。 但我看完他的操作之後,自己操作了一遍。在街拍_頭條搜尋這個頁面發起ajax請求並沒有遇到什麼問題,然後理所當然的訪問其中一個子頁面 什麼都沒有想,我就直接看了一下瀏覽器有沒有ajax請求,看了一下ajax(XHR)的內容發現裡面

Ajax今日頭條街拍美圖

1.開啟今日頭條:https://www.toutiao.com 2.搜尋街拍 3.檢查元素,檢視請求發現在URL中每次只有offset發生改變,是一個get請求 1 import requests 2 from urllib.parse import urlencode 3 impor

python --爬蟲基礎 --今日頭條 使用 requests 庫的基本操作, Ajax

'''思路一: 由於是Ajax的網頁,需要先往下劃幾下看看XHR的內容變化二:分析js中的程式碼內容三:獲取一頁中的內容四:獲取圖片五:儲存在本地使用的庫1. requests 網頁獲取庫 2.from urllib.parse import urlencode 將字典轉化為字串內容整

python爬蟲今日頭條APP資料無需破解as ,cp,_cp_signature引數

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

(爬蟲)採用BeautifulSoup和正則今日頭條圖集.詳細!

用beautifulsoup提取文字資訊,正則匹配關鍵的圖片資訊. 最後存入資料庫mongodb. 完成後的感想: 其實分析網頁是最關鍵的一個環節. ajax分析,json處理等等,還是需要多點練習. 下面是程式碼: ''' 步驟: 1. 首先抓取索引頁的內容,

Python3從零開始今日頭條的新聞【一、開發環境搭建】

首先,安裝好我們爬網所需的開發環境,我的開發環境如下: win7 x64中文版 本系列演示過程所用到的python環境以及第三方庫: python 3.6.5 Anaconda預安裝 sele

通過分析ajax,使用正則表示式今日頭條

今日頭條是一個動態載入頁面的網站,這一類的網站直接使用requests爬取的話得不到我們想要的內容。所以一般這類的網站都是通過分析ajax來進行抓包來獲取我們想要的內容。 老規矩,首先列出需要引入的庫: import json import os from urllib.

Python3從零開始今日頭條的新聞【五、解析頭條視訊真實播放地址並自動下載】

本文目錄:1.目標2.實現參考資料: 1.目標 本文目標是自動解析頭條的視訊新聞,通過第三方解析網站得到其真實的下載地址並自動下載到本地 *至於如何通過py自動解析、檢視大咖個人中心的視訊頁籤內容