1. 程式人生 > >java爬蟲之入門基礎 java讀取txt檔案,對字串進行操作後匯出txt檔案

java爬蟲之入門基礎 java讀取txt檔案,對字串進行操作後匯出txt檔案

相比於C#,java爬蟲,python爬蟲更為方便簡要,首先呢,python的urllib2包提供了較為完整的訪問網頁文件的API,再者呢對於摘下來的文章,python的beautifulsoap提供了簡潔的文件處理功能,這就成就了他爬蟲的優勢。

作為一名滿腦子要成為一名大牛的程式設計師小白來講,倒不是非要熱愛哪一門語言,還是覺得哪一個好用而用之。

那麼今天呢就來給大家分享一個我喜歡但是不好用的java爬蟲系列...

先上碼和效果圖

package org.lq.wzq.Test;
/**
 * 讀取青年網的資料,並進行分析
 * xutao   2018-11-22  09:09
 */
import java.io.*; import java.net.*; public class pachong { public static void main(String args[]){ //確定爬取的網頁地址,此處為青年網熱點新聞的網頁 //網址為 http://news.youth.cn/sz/201811/t20181121_11792273.htm String strurl="http://news.youth.cn/sz/201811/t20181121_11792273.htm"; //建立url爬取核心物件 try
{ URL url=new URL(strurl); //通過url建立與網頁的連線 URLConnection conn=url.openConnection(); //通過連結取得網頁返回的資料 InputStream is=conn.getInputStream(); System.out.println(conn.getContentEncoding()); //一般按行讀取網頁資料,並進行內容分析 //因此用BufferedReader和InputStreamReader把位元組流轉化為字元流的緩衝流
//進行轉換時,需要處理編碼格式問題 注意一般為GBK或者UTF-8(亂碼就換另外一個) BufferedReader br=new BufferedReader(new InputStreamReader(is,"GBK")); //按行讀取並列印 String line=null; while((line=br.readLine())!=null){ System.out.println(line); } br.close(); } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } } }

檢視網站原始碼,你就會發現程式爬取的其實就是整個網頁

而程式碼則是一行一行輸出的,具體的整理關鍵點在於正則表示式的應用,拿到適合自己的資料,最後在儲存到txt或者excle表格中。

具體詳情請觀看

1.java匯入excle表格,並且對錶格進行相應的修改,並對錶格資料進行整理,最後匯出本地表格等一系列操作

2.java讀取txt檔案,對字串進行操作後匯出txt檔案