Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

阿新 • • 發佈：2019-01-13

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到的是基於java 的簡單爬蟲，為使用java作為開發語言的人做一個參考。

爬蟲實現

HttpClient 是 Apache Jakarta Common 下的子專案，可以用來提供高效的、最新的、功能豐富的支援 HTTP 協議的客戶端程式設計工具包，並且它支援 HTTP 協議最新的版本和建議。

jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。

httpClient操作程式碼,值得注意的是，我們將html存入資料庫的時候，最好將資料庫對應的欄位設定為text型別或者是longtext型別。存入的時候使用setString即可。否則可能出現。Data too long for row錯誤。

public class pachongMain {

    public static void main(String[] args) throws Exception {
        for (int j = 2000; j >0; j = j - 1) {
            CloseableHttpClient client = HttpClients.createDefault();
            HttpGet get 
 = new HttpGet("http://www.bysocket.com/?p=" + j);



            HttpResponse response = client.execute(get);
//          System.out.println(response.getStatusLine().getStatusCode());
            if (response.getStatusLine().getStatusCode() !=200 ) {
                continue ;
            }
            HttpEntity entity = response.getEntity();
            String content = EntityUtils.toString(entity, "utf-8" 
);
                        // 使用Jsoup解析網頁
            Document doc = Jsoup.parse(content);
            Elements element3 = doc.select("h1[class=entry-title]");
            String title = element3.text();


            Elements element2 = doc.select("div[class=entry-content]");
            String article =element2.html();
           new StoreData().store(j,article,title);

        }

    }

}

資料儲存類

public class StoreData {
    public void store(Integer id, String content, String  title) throws Exception {
        String driverClassName = "com.mysql.jdbc.Driver";

        String url = "jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=utf-8";

        String username = "root";

        String password = "123456";
        // 載入驅動類
        Class.forName(driverClassName);
        Connection con = (Connection) DriverManager.getConnection(url, username, password);
        // 建立sql語句模板
        String sql = "INSERT blog VALUES(?,?,?)";
        // 建立一個宣告物件
        PreparedStatement pst = (PreparedStatement) con.prepareStatement(sql);
        // 用迴圈將資料新增到sql模板中
            pst.setInt(1, id);
            pst.setString(2, content);
            //pst.set
            pst.setString(3, title);

        pst.addBatch();
        // 將sql語句傳送到mysql上
        int[] res = pst.executeBatch();
        System.out.println(res);
        pst.close();
    }
}

爬取的效果：
這裡寫圖片描述

但是隻是這種普通的爬取會出現請求超時的情況，
出現這種請求頭設定有誤，使用瀏覽器，分析請求資訊，對於url請求，將請求頭資訊新增到java的程式中即可。

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

爬蟲實現

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

爬蟲學習之11：爬取豆瓣電影TOP250並存入資料庫

java爬蟲問題二: 使用jsoup爬取數據class選擇器中空格多選擇怎麽解決

使用java開源工具httpClient及jsoup抓取解析網頁資料

python 批量爬取部落格資料(僅供學習)

Java爬蟲學習:利用HttpClient和Jsoup庫實現簡單的Java爬蟲程式

java爬蟲一（分析要爬取數據的網站）

Java爬蟲學習《一、爬取網頁URL》

Python爬蟲-利用正則表示式爬取貓眼電影

利用BeautifulSoup和Xpath爬取趕集網北京二手房房價資訊

Python爬蟲——4.4爬蟲案例——requests和xpath爬取招聘網站資訊

Jsoup 爬取頁面的資料和理解HTTP訊息頭

HtmlUnit、httpclient、jsoup爬取網頁資訊並解析

HtmlUnit java爬蟲入門真實案例講解爬取電商網站資料

Java爬蟲系列之實戰：爬取酷狗音樂網 TOP500 的歌曲(附原始碼)

使用Tornado和協程爬取部落格園文章

Python爬蟲爬取部落格園作業

Jsoup爬取table頁面資料

簡單程式碼爬取部落格超連結的文字，並且去除字元“原”和空格

利用scrapy輕鬆爬取招聘網站資訊並存入MySQL

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

爬蟲實現

相關推薦