1. 程式人生 > >爬取今日頭條收藏夾文章列表信息

爬取今日頭條收藏夾文章列表信息

學習 rep 數據 一個 mar exc 頭條 變量 考試

從了解Python到決定做這個項目,從臨近期末考試到放假在家,利用零碎的時間持續了一個月吧。完成這個項目我用了三個階段

段一:

了解Python,開始學習Python的基本語法,觀看相關爬蟲視頻,了解到爬取網頁信息的簡單措施

階段二:

開始著手分析頭條收藏夾頁面。

頭條收藏夾地址格式:

技術分享圖片

地址中有三個變量參數,as,cp,max_repin_time,as,cp在頁面內可以找到源碼,是基於對當前時間戳加密得到的,max_repin_time是指向下一頁面URL的關鍵值,從頁面數據列的最後一項中獲取

技術分享圖片

階段三:爬取收藏夾內所有文章的分類,標題,作者,發布時間,源地址,並存入EXCEL文件中

獲取AS,CP參數

技術分享圖片

將時間戳轉當地時間

技術分享圖片

使用代理

技術分享圖片

主文件

技術分享圖片

成功輸出文件技術分享圖片

2018年2月7日 22:58


爬取今日頭條收藏夾文章列表信息