1. 程式人生 > >Java 爬取資訊存入資料庫

Java 爬取資訊存入資料庫

本人在學習 Spring 的時候學習搭建一個後臺,我這裡拿來練手的是一個新聞的後臺,主要的功能包括抓取新聞資訊,儲存在資料庫中,並根據請求返回相應資料。

這裡我選取的新聞來源是一點資訊(主要是他的API比較容易獲取),抓取和解析選取Jsoup+Gson.執行採取Schedul 定時執行爬蟲指令碼。

這裡寫圖片描述

通過分析可以知道其中關於分頁的主要引數是 cstart , cend , 引數 _ ,cstart表示起始下表,cend 表示結束下標,_不清楚意義,但是每次請求+1,那麼改變這幾個引數我們就能進行不停的請求資料了。當然不要忘記了取出瀏覽器中得Head和 Cookie 引數。

這裡寫圖片描述

首先是爬蟲爬取資料,並將其轉換成 Bean 物件:

這裡寫圖片描述

發現一次爬取成功,那麼,我們就可以通過定時任務來定時執行,修改翻頁引數,爬取資料:

這裡寫圖片描述

編譯執行,列印資訊發現按照我們的預期執行了:

這裡寫圖片描述

接下來再看下資料庫,發現裡面也有資料了:

這裡寫圖片描述

專案上傳在GitHub上 : GitHub地址