java爬蟲之入門基礎 java讀取txt檔案，對字串進行操作後匯出txt檔案

阿新 • • 發佈：2018-11-22

相比於C#，java爬蟲，python爬蟲更為方便簡要，首先呢，python的urllib2包提供了較為完整的訪問網頁文件的API，再者呢對於摘下來的文章，python的beautifulsoap提供了簡潔的文件處理功能，這就成就了他爬蟲的優勢。

作為一名滿腦子要成為一名大牛的程式設計師小白來講，倒不是非要熱愛哪一門語言，還是覺得哪一個好用而用之。

那麼今天呢就來給大家分享一個我喜歡但是不好用的java爬蟲系列...

先上碼和效果圖

package org.lq.wzq.Test;
/**
 * 讀取青年網的資料，並進行分析
 * xutao   2018-11-22  09：09
 */ 

import java.io.*;
import java.net.*;

public class pachong {
    public static void main(String args[]){
        //確定爬取的網頁地址，此處為青年網熱點新聞的網頁
        //網址為       http://news.youth.cn/sz/201811/t20181121_11792273.htm
        String strurl="http://news.youth.cn/sz/201811/t20181121_11792273.htm";
        //建立url爬取核心物件
        try 
 {
            URL url=new URL(strurl);
            //通過url建立與網頁的連線
            URLConnection conn=url.openConnection();
            //通過連結取得網頁返回的資料
            InputStream is=conn.getInputStream();
            System.out.println(conn.getContentEncoding());
            //一般按行讀取網頁資料，並進行內容分析
            //因此用BufferedReader和InputStreamReader把位元組流轉化為字元流的緩衝流
             
//進行轉換時，需要處理編碼格式問題   注意一般為GBK或者UTF-8（亂碼就換另外一個）
            BufferedReader br=new BufferedReader(new InputStreamReader(is,"GBK"));
            //按行讀取並列印
            String line=null;
            while((line=br.readLine())!=null){
                System.out.println(line);
            }
            br.close();
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
    }
}

檢視網站原始碼，你就會發現程式爬取的其實就是整個網頁

而程式碼則是一行一行輸出的，具體的整理關鍵點在於正則表示式的應用，拿到適合自己的資料，最後在儲存到txt或者excle表格中。

具體詳情請觀看

1.java匯入excle表格，並且對錶格進行相應的修改，並對錶格資料進行整理，最後匯出本地表格等一系列操作

2.java讀取txt檔案，對字串進行操作後匯出txt檔案

java爬蟲之入門基礎 java讀取txt檔案，對字串進行操作後匯出txt檔案

相比於C#，java爬蟲，python爬蟲更為方便簡要，首先呢，python的urllib2包提供了較為完整的訪問網頁文件的API，再者呢對於摘下來的文章，python的beautifulsoap提供了簡潔的文件處理功能，這就成就了他爬蟲的優勢。作為一名滿腦子要成為一名大牛的程式設計師小白來講，倒不是非要

Java爬蟲之下載全世界國家的國旗圖片

stack [] trac node edr string類型微信公眾號 public 過程介紹 ??本篇博客將繼續上一篇博客：Python爬蟲之使用Fiddler+Postman+Python的requests模塊爬取各國國旗的內容，將用Java來實現這個爬蟲，下載

java讀取txt文件，對字符串進行操作後導出txt文件

file 計算機 public iter 一次 cep 行數據文件內容 txt文件嘿嘿，代碼略為簡單，不再多做解釋，直接上碼！ package org.lq.com.util; import java.io.File; import java.io.InputStre

java編程入門6 java語言基礎與流程控制

xxxx 標簽只有一個 blank htm 存儲自動隱式類型 ati 語言基礎基本數據類型 1.整數類型 1）不能以0作為十進制數的開頭（0除外） 2）八進制必須以0開頭 3）十六進制必須以0X或0x開頭 4）整型數據類型根據它所占內存大小的不同，可分為byte、s

.Net轉Java自學之路—基礎鞏固篇十五（IO）

IO：　　IO流按操作分為：位元組流、字元流。　　所有的資料都是以位元組體現的，後期產生了字元流。因為字元資料涉及到了編碼問題。所以在字元流物件中加入的編碼機制。如果處理的資料都是字元資料，那麼可以使用字元流物件來完成。　　IO流按流分為：輸入流、輸出流。字元流：　　字元流操作檔案資料，讀

java爬蟲之基於httpclient的簡單Demo(二)

延續demo1的 java爬蟲的2種爬取方式（HTTP||Socket）簡單Demo(一)，demo2出爐啦，大家想學爬蟲都可以從這個網盤學習哦：https://pan.baidu.com/s/1pJJrcqJ#list/path=%2F 免費課程，非常不錯。其實還是主要學

Java原始碼之路---基礎資料型別

Java原始碼基礎資料型別 1、Java與數先關的基礎資料型別主要分整數與浮點數，整數：byte，short，int，long，浮點數：float，double 2、資料範圍型別範圍 byte -128~127（2^7-1）

RabbitMQ之入門HelloWorld(Java)

RabbitMQ簡介 RabbitMQ是消費-生產者模型的一個典型的代表，一端往訊息佇列中不斷寫入訊息，而另一端則可以讀取或者訂閱佇列中的訊息。它是一個實現了AMQP協議的可複用的企業訊息系統。Rab

JAVA 爬蟲之httpclient post請求提交表單獲取Ajax資料

public static String httpPostWithJSON(String url) throws Exception { HttpPost httpPost = n

#Java學習之路——基礎階段（第三篇）

選擇錯誤 while 大牛更多都是 round 理解 -c 　　我的學習階段是跟著CZBK黑馬的雙源課程，學習目標以及博客是為了審查自己的學習情況，畢竟看一遍，敲一遍，和自己歸納總結一遍有著很大的區別，在此期間我會參雜Java瘋狂講義（第四版）裏面的內容。前言：此

#Java學習之路——基礎階段二（第六篇）

string 類結合類型絕對路徑一起 java 對象刪除文件夾 mkdir 我的學習階段是跟著CZBK黑馬的雙源課程，學習目標以及博客是為了審查自己的學習情況，畢竟看一遍，敲一遍，和自己歸納總結一遍有著很大的區別，在此期間我會參雜Java瘋狂講義（第四版）裏面的內

#Java學習之路——基礎階段二（第十四篇）

out 出現萬能 -c ack 分隔 status osi 版本我的學習階段是跟著CZBK黑馬的雙源課程，學習目標以及博客是為了審查自己的學習情況，畢竟看一遍，敲一遍，和自己歸納總結一遍有著很大的區別，在此期間我會參雜Java瘋狂講義（第四版）裏面的內容。前言：此隨

Java自動化測試框架-01 - TestNG之入門篇 - 大佬的雞肋，菜鳥的盛宴（詳細教程）

TestNG是什麼? TestNG按照官方的定義： TestNG是一個測試框架，其靈感來自JUnit和NUnit，但引入了一些新的功能，使其功能更強大，使用更方便。 TestNG是一個開源自動化測試框架;TestNG表示下一代(Next Generation的首字母)。 TestNG類似於JUnit

我要學python之入門基礎

入門基礎 src 處理器學python 機器碼就是業務重要一個前言我最近打算全面深入學習python。而最早我接觸Python是在2015年，到現在2018年已經三年多了，但我自己回想起來關於Python的知識不夠系統，也很亂，那個時候只是停留在能夠用Pyth

TensorFlow之入門基礎知識

一、Session會話控制定義兩個常量矩陣a，b(tf.constant) a = tf.constant([[1.0,2.0]],name = 'a') b = tf.constant([[2.0], [3.0]],name = 'a') product

2018年11月3日java學習之第一個程式 HelloWord以及註釋，API

1.用記事本寫HelloWord. .java -》javac.exe-》.class-》java.exe-》結果 main 方法是程式的入口 //單行註釋；/* */多行註釋程式碼例項 class HelloWord { public stat

java學習之helloworld以及java語法

一 java程式開發體驗-------Hello World 1 將Java程式碼編寫到副檔名為.java的檔案中。 2. 通過javac命令對該java檔案進行編譯。 3. 通過ja

java併發之----簡要介紹java對鎖的幾種優化

引言新版本java對鎖的實現引進了許多技術進行優化，如偏向鎖、輕量級鎖、自旋鎖、適應性自旋鎖、鎖消除、鎖粗化等鎖主要存在四種狀態，依次是：無鎖狀態、偏向鎖狀態、輕量級鎖狀態、重量級鎖狀態，他們會隨著競爭的激烈而逐漸升級。注意鎖可以升級不可降級，這種策略是為了提高獲得鎖和釋放鎖的效率。

Java 乾貨之深入理解Java內部類

可以將一個類定義在另一個類或方法中，這樣的類叫做內部類 --《Thinking in Java》說起內部類，大家並不陌生，並且會經常在例項化容器的時候使用到它。但是內部類的具體細節語法，原理以及實現是什麼樣的可以不少人都還挺陌生，這裡作一篇總結，希望通過這篇總結提高對內部類的認識。內部類是什麼？由文章

Java 乾貨之深入理解Java泛型

一般的類和方法，只能使用具體的型別，要麼是基本型別，要麼是自定義的類。如果要編寫可以應用多中型別的程式碼，這種刻板的限制對程式碼得束縛會就會很大。 ---《Thinking in Java》泛型大家都接觸的不少，但是由於Java 歷史的原因，Java 中的泛型一直被稱為偽泛型,因此對Java中的泛型，有

java爬蟲之入門基礎 java讀取txt檔案，對字串進行操作後匯出txt檔案

相關推薦