1. 程式人生 > >爬取今日頭條中的圖片

爬取今日頭條中的圖片

ear sele url 玄機 一個 www. view image esp

今日頭條搜索 :cos.

網址:https://www.toutiao.com/search/?keyword=cos

分析1 在network的doc中的Preview,看到只有一句話,並沒有頁面的信息,所以判定存在異步加載。

技術分享圖片

分析2 在XHR中,果然找到相關的json數據。註意,只有key值是 media_creator_id 才會是頁面中顯示的。

技術分享圖片

  推薦一個chrome上的插件。JSON-handler,可以將json數據顯示的更美觀。

  這便是其效果。技術分享圖片

分析3 在data下拿到每個item 的url,訪問這個url。這裏面有點玄機。

  比如,我們訪問這個url:https://www.toutiao.com/a6543541911368499725/

技術分享圖片

   如果你用BeautifulSoup的select或者find方法,都找不到圖片的 a 標簽。盡管前端的html頁面中會顯示這個 a 標簽。

  那麽,圖片的地址放在那裏了呢?

  實際上可以通過Network-->doc-->Response查到

  技術分享圖片

爬取今日頭條中的圖片