1. 程式人生 > >爬取動態分頁數據案例

爬取動態分頁數據案例

標題 頁碼 [] use 當前 sap list style 內容

需求:

爬取東方財富證券http://kuaixun.eastmoney.com/ssgs.html的財經新聞數據
1.爬取頁面中的標題和對應的內容:【標題】內容
2.進行分頁操作,爬取當前頁面所有頁碼對應的標題和內容數據
3.不可以使用selenium
4.進行任意形式的持久化存儲

代碼:

通過對網站的分析發現翻頁時,有ajax數據包分析數據包的url發現,翻頁改變url中的參數,共20頁

#url— http://kuaixun.eastmoney.com/ssgs.html
import requests
import json
import re
headers = {
   
User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36 } # 通過對網站的分析發現翻頁時,有ajax數據包分析數據包的url發現,翻頁改變url中的參數,共20頁 url = "http://newsapi.eastmoney.com/kuaixun/v1/getlist_103_ajaxResult_50_{}_.html" for i in range(1,21): url2 = url.format(i) page_text
= requests.get(url=url2, headers=headers).text page_str = re.findall(\{.*\},page_text)[0] page_dic = json.loads(page_str) page_list = page_dic["LivesList"] content_list = [] for dic in page_list: content = dic["digest"] content_list.append(content)
# 分頁存儲 with open(f"./第{i}頁新聞","w",encoding=utf-8) as fp: fp.write(\n.join(content_list)) print(f"第{i}頁新聞存儲成功")

爬取動態分頁數據案例