【OS大作業】用多執行緒統計txt檔案中字元個數（Java實現）

阿新 • • 發佈：2018-11-17

問題描述

給定一個txt檔案，利用不同個數的執行緒查詢檔案中某字元的個數，探究執行緒個數與查詢時間的關係。

本作業程式碼使用JAVA實現，版本為10.0.2，使用的IDE為Eclipse4.9.0. 結果測試所用的txt檔案內容為英文，編碼格式為UTF-8。

原始碼

第一版程式碼：（僅支援單執行緒、按行讀取、可以讀取字串/字元，速度快）

package searchtxt;	//包名稱

import java.io.BufferedReader;	//緩衝字元輸入流
import java.io.File;
import java.io.FileReader;
import java.io.IOException;

/* *
 * 讀取一txt文件，每次讀取一行，用BufferedReader(FileReader fr)
 * */

public class demo {
	static int totalCount;		//待查詢關鍵字的個數
	static String key = "a";	//帶查詢關鍵字字串
	public static void main(String[] args) throws IOException {
		Thread1 mTh1=new Thread1(); 	//建立一個執行緒
		mTh1.setTotalCount(0);			//傳參，關鍵字個數初始化為0
		mTh1.setKey(key);				//傳入要查詢的關鍵字
		mTh1.start();  					//開啟執行緒，執行run方法
		totalCount=mTh1.getTotalCount();	//獲取該執行緒查詢結果
	}

	
}

class Thread1 extends Thread{		//繼承自Thread類
	private int totalCount; 		//關鍵字個數
	private String key;				//關鍵字字串
    @SuppressWarnings("resource")
	public void run() { 
    		File f = new File("src/OneHundredYearsofSolitude.txt");	//待查詢檔案路徑
    		FileReader fr;		//該類按字元讀取流中資料
    		String str;
		try {
			long startTime=System.currentTimeMillis();   //獲取開始時間
			fr = new FileReader(f);		
			BufferedReader br = new BufferedReader(fr);
			//開始讀取檔案直到末尾
	    		while ((str = br.readLine()) != null) {
	   	 	//將每次讀取的資料放入str字串中，在其中查詢關鍵字key的個數加入totalcount
				setTotalCount(getTotalCount() + countKey(str, key));
	   	 	}
	    		long endTime=System.currentTimeMillis(); //獲取結束時間
			
	    		//輸出結果
			System.out.println("文章中一共出現了：" + key + ":" + totalCount + "次");
			System.out.println("程式執行時間： "+(endTime-startTime)+"ms");
		} catch (IOException e1) {
			e1.printStackTrace();
		}
}  
    
    //該方法從str中查詢key，返回個數
    public static int countKey(String str, String key){
		int index = 0;
		int count = 0;
		while ((index = str.indexOf(key, index)) != -1) {
			index += key.length();
			count++;
		}
		return count;
	}
	public int getTotalCount() {
		return totalCount;
	}
	public void setTotalCount(int totalCount) {
		this.totalCount = totalCount;
	}
	public void setKey(String key) {
		this.key = key;
	}
}

第二版程式碼：（可自行選擇匯流排程個數，將檔案分塊讓各個執行緒按字元查詢）

1、MultiReadTest.java（主程式）

package searchtxt;

import java.io.File;
import java.io.RandomAccessFile; 	//用於讀寫檔案
import java.util.concurrent.CountDownLatch; 	//CountDownLatch類，用於執行緒同步
  
/* *
  * 用n個執行緒讀取txt檔案，當獲取到指定關鍵字時，在指定的物件加1 
 * */  

public class MultiReadTest {  
    @SuppressWarnings("resource")
	public static void main(String[] args) {  
    	//開始時間設為0
    	long startTime=0;
    	//結束時間設為0
    	long endTime=0;
    	
    	/*
    	//可手動輸入執行緒數目，除錯時註釋掉
		Scanner input= new Scanner(System.in);   //為Scanner例項化物件input
        int n=input.nextInt();                   //掃描控制檯輸入
        final int DOWN_THREAD_NUM = n; 
    	*/
    	//
    	//指定執行緒數目
    	//final成員變數必須在宣告的時候初始化或在構造方法中初始化，不能再次賦值。
        final int DOWN_THREAD_NUM = 8; 
        //
        
        //要讀取的txt檔案路徑
        final String OUT_FILE_NAME = "src/8MB.txt";
        //要查詢的關鍵字
        final String keywords = "a";  
        
        //CountDownLatch類位於java.util.concurrent包下，利用它可以實現類似計數器的功能。
        //具體使用方法為：
        //CountDownLatch的建構函式接收一個int型別的引數作為計數器，如果你想等待N個點完成，這裡就傳入N。 
        //當我們呼叫一次CountDownLatch的countDown方法時，N就會減1，CountDownLatch的await會阻塞當前執行緒，直到N變成零。
        //在這裡，我們設定CountDownLatch的值為DOWN_THREAD_NUM
        CountDownLatch doneSignal = new CountDownLatch(DOWN_THREAD_NUM);  
        
        //RandomAccessFile是Java輸入/輸出流體系中功能最豐富的檔案內容訪問類，可以讀取檔案內容，也可以向檔案輸出資料
        //與普通的輸入/輸出流不同的是，RandomAccessFile支援跳到檔案任意位置讀寫資料
        //RandomAccessFile物件包含一個記錄指標，用以標識當前讀寫處的位置
        //當程式建立一個新的RandomAccessFile物件時，該物件的檔案記錄指標對於檔案頭（也就是0處）
        //當讀寫n個位元組後，檔案記錄指標將會向後移動n個位元組
        //除此之外，RandomAccessFile可以自由移動該記錄指標
        RandomAccessFile[] outArr = new RandomAccessFile[DOWN_THREAD_NUM];  
        
        try{  
        	//此方法用於獲取檔案長度，最大隻能獲取2g的檔案大小，因為返回值型別為long
            long length = new File(OUT_FILE_NAME).length();  
            //輸出檔案長度
            System.out.println("檔案總長度："+length+"位元組，即"+length/1024/1024+"MB");  
            
            //計算每個執行緒應該讀取的位元組數    
            long numPerThred = length / DOWN_THREAD_NUM;
            System.out.println("共有"+DOWN_THREAD_NUM+"個執行緒，每個執行緒讀取的位元組數："+numPerThred+"位元組");  
            
            //計算整個檔案整除後剩下的餘數    
            long left = length % DOWN_THREAD_NUM;
            
            //獲取開始時間
            startTime=System.currentTimeMillis();
            
            //為每個執行緒開啟一個輸入流、一個RandomAccessFile物件
            //讓每個執行緒分別負責讀取檔案的不同部分
            for (int i = 0; i < DOWN_THREAD_NUM; i++) {  
            	//rw：以讀取、寫入方式開啟指定檔案
                outArr[i] = new RandomAccessFile(OUT_FILE_NAME, "rw");   
                
                //最後一個執行緒讀取指定numPerThred+left個位元組    
                if (i == DOWN_THREAD_NUM - 1) {    
                	//輸出其要讀的位元組範圍（測試時應把這句註釋掉，因為會影響執行時間的測定）
                	//System.out.println("第"+i+"個執行緒讀取從"+i * numPerThred+"到"+((i + 1) * numPerThred+ left)+"的位置");  
                	
                	//ReadThread類用於讀取檔案，在讀取到關鍵字時，在指定的變數加一
                    new ReadThread(i * numPerThred, (i + 1) * numPerThred + left, 	//開始位置和結束位置
                    				outArr[i],	//第i個RandomAccessFile物件
                    				keywords,	//關鍵詞
                    				doneSignal	//CountDownLatch類
                    				).start();  //執行緒啟動
                } 
                //每個執行緒負責讀取一定的numPerThred個位元組    
                else {   
                	//輸出其要讀的位元組範圍（測試時應把這句註釋掉，因為會影響執行時間的測定）
                	//System.out.println("第"+i+"個執行緒讀取從"+i * numPerThred+"到"+((i + 1) * numPerThred)+"的位置");  
                    new ReadThread(i * numPerThred, (i + 1) * numPerThred-1,    
                            		outArr[i],
                            		keywords,
                            		doneSignal
                            		).start();    
                }    
            }  
        }catch(Exception e){  
            e.printStackTrace();  	//捕獲異常
        }  
        
        try {  
        	//確認所有執行緒任務完成，開始執行主執行緒的操作 
            doneSignal.await();  
            //獲取結束時間
            endTime=System.currentTimeMillis();
        } catch (InterruptedException e) {  
            e.printStackTrace();  
        }  
         
        //獲取關鍵字的計數值
        KeyWordsCount k = KeyWordsCount.getCountObject();  
        
        System.out.println("指定關鍵字"+keywords+"出現的次數："+k.getCount()); 
        System.out.println("程式執行時間："+(endTime-startTime)+"ms");
    	
    }  
  
}

2、KeyWordsCount.java（統計關鍵字的物件）

package searchtxt;

/** 
 * 統計關鍵字的物件 
 */  
  
public class KeyWordsCount {  
    //用於類的呼叫
    private static KeyWordsCount kc;  
    //總關鍵字個數
    private int count = 0;  
     
    //返回類
    public static synchronized KeyWordsCount getCountObject(){  
    	//若還沒有則建立
        if(kc == null){  
            kc = new KeyWordsCount();  
        }  
        //返回本類
        return kc;  
    }  
    
    //執行緒呼叫本方法將自己統計的個數加入總個數
    public synchronized void addCount(String str, int count){  
        //System.out.println(str+"執行緒增加了關鍵字次數："+count);  
        this.count += count;  
    }  
      
    public int getCount() {  
        return count;  
    }  
  
    public void setCount(int count) {  
        this.count = count;  
    }  
      
}

3、ReadThread.java（執行緒的實現）

package searchtxt;
import java.io.IOException;  
import java.io.RandomAccessFile;  
import java.util.concurrent.CountDownLatch;  
  
/** 
  * 這個執行緒用來讀取檔案，當獲取到指定關鍵字時，在指定的物件加1 
 **/  
public class ReadThread extends Thread{  
  
    //定義位元組陣列的長度    
    private final int BUFF_LEN = 1;    
    
    //定義讀取的起始點    
    private long start;    
    //定義讀取的結束點    
    private long end;   
    
    //將讀取到的位元組輸出到raf中，randomAccessFile可以理解為檔案流
    private RandomAccessFile raf; 
    
    //執行緒中需要指定的關鍵字  
    private String keywords;  
    //此執行緒讀到關鍵字的次數  
    private int curCount = 0;  
    
    //用於確認所有執行緒計數完成的計數類
    private CountDownLatch doneSignal; 
    
    //建構函式
    public ReadThread(long start, long end, RandomAccessFile raf, String keywords, CountDownLatch doneSignal){  
        this.start = start;  	//讀取開始位置
        this.end = end;  		//讀取結束位置
        this.raf  = raf;  		//第i個RandomAccessFile物件，將讀取到的位元組輸出到raf中
        this.keywords = keywords;  		//關鍵字
        this.doneSignal = doneSignal;  	//計數類
    }  
     
    //執行緒功能：計數
    public void run(){  
        try {  
        	//RandomAccessFile物件
        	//void seek(long pos)：將檔案記錄指標定位到pos位置
            raf.seek(start);  
            
            //計算本執行緒負責讀取檔案部分的長度   
            long contentLen = end - start;    
            
            
            //BUFF_LEN為位元組陣列的長度
            //計算最多需要讀取幾次就可以完成本執行緒的讀取    
            long times = contentLen / BUFF_LEN+1;    
            //輸出需要讀的次數
            //System.out.println(this.toString() + " 需要讀的次數："+times);  
            
            //位元組陣列
            byte[] buff = new byte[BUFF_LEN];  
            
            
            int hasRead = 0;  
            String result = null;  
            
            //遍歷每次讀取
            for (int i = 0; i < times; i++) {    
                //之前SEEK指定了起始位置，這裡用raf.read方法讀入指定位元組組buff長度的內容
            	//返回值為讀取到的位元組數
                hasRead = raf.read(buff);  
                
                 //小於0，則退出迴圈（到了位元組陣列的末尾）   
                if (hasRead < 0) {    
                    break;    
                }    
                
                //取出讀取的buff位元組陣列內容
                result = new String(buff,"utf-8");  
                //System.out.println(result);  
                
                //計算本次讀取中關鍵字的個數並累加
                int count = this.getCountByKeywords(result, keywords);  
                if(count > 0){  
                    this.curCount += count;  
                }  
            }  
              
            //將本執行緒讀取的關鍵字個數加入總關鍵字個數
            KeyWordsCount kc = KeyWordsCount.getCountObject();
            kc.addCount(this.toString(), this.curCount);  
             
            //本執行緒執行完畢，N--
            doneSignal.countDown(); 
        } catch (IOException e) {  
            e.printStackTrace();  
        }  
    }  
    
    public int getCountByKeywords(String statement, String key){ 
    	/*
    	//split函式是用於按指定字元（串）或正則去分割某個字串，結果以字串陣列形式返回
    	//.length便是分割的數目，再-1是指定字串的數目
        return statement.split(key).length-1;  
        */
    	int count = 0;
        int index = 0;
        while( ( index = statement.indexOf(key, index) ) != -1 )
        {
            index = index+key.length();
            count++;
        }
        return count;
    }  
  
    public long getStart() {  
        return start;  
    }  
  
    public void setStart(long start) {  
        this.start = start;  
    }  
  
    public long getEnd() {  
        return end;  
    }  
  
    public void setEnd(long end) {  
        this.end = end;  
    }  
  
    public RandomAccessFile getRaf() {  
        return raf;  
    }  
  
    public void setRaf(RandomAccessFile raf) {  
        this.raf = raf;  
    }  
  
    public int getCurCount() {  
        return curCount;  
    }  
  
    public void setCurCount(int curCount) {  
        this.curCount = curCount;  
    }  
  
    public CountDownLatch getDoneSignal() {  
        return doneSignal;  
    }  
  
    public void setDoneSignal(CountDownLatch doneSignal) {  
        this.doneSignal = doneSignal;  
    }  
}

結果分析

針對每個執行緒數目做十組測試，去掉最小值和最大值，取平均值畫折線圖，資料和圖表如下所示。

執行緒數/時間ms	1	2	4	5	6	7	8	16	32	64
1	4148	2317	1243	1254	1261	1246	1256	1279	1255	1288
2	4115	2255	1276	1245	1244	1248	1238	1275	1309	1283
3	4142	2257	1253	1244	1340	1233	1241	1264	1297	1297
4	4094	2296	1254	1264	1228	1282	1302	1288	1266	1306
5	4275	2240	1275	1255	1265	1268	1253	1265	1264	1307
6	4121	2295	1269	1261	1263	1254	1299	1256	1282	1316
7	4224	2276	1233	1351	1244	1239	1253	1274	1277	1302
8	4092	2316	1288	1280	1255	1347	1232	1271	1283	1296
9	4096	2280	1274	1267	1263	1272	1251	1284	1289	1289
10	4187	2292	1286	1250	1269	1279	1263	1408	1280	1280
最小值	4092	2240	1233	1244	1228	1233	1232	1256	1255	1280
最大值	4275	2317	1288	1351	1340	1347	1302	1408	1309	1316
平均值	4140.875	2283.375	1266.25	1259.5	1258	1261	1256.75	1275	1279.75	1296

由上圖可以看出，當執行緒數目小於4個時，執行緒數目每翻一倍，用時約減少50%，之後隨著執行緒數目的增長，用時趨平，在8個執行緒時達到最低點，此後緩慢上升。

結果解釋：在一定程度內增加執行緒數目會提高系統併發度，減少讀取磁碟檔案的時間開銷，緩解IO速度過慢而CPU速度極快的矛盾，從而能夠大幅度地提高時間方面的效能；但執行緒數目過多時，切換執行緒所需開銷也逐漸增大，此時反而會增加任務用時，得不償失。

【參考博文】

1、JAVA多執行緒讀寫檔案範例

2、java獲取程式執行時間

感謝大神們的無私奉獻，讓沒學過JAVA的小白也能完成大作業，程式碼經過一定修改，註釋均由百度百科和CSDN查詢得來，如有錯誤請務必指出。

【OS大作業】用多執行緒統計txt檔案中字元個數（Java實現）

問題描述給定一個txt檔案，利用不同個數的執行緒查詢檔案中某字元的個數，探究執行緒個數與查詢時間的關係。本作業程式碼使用JAVA實現，版本為10.0.2，使用的IDE為Eclipse4.9.0. 結果測試所用的txt檔案內容為英文，編碼格式為UTF-8。原始碼第一版程式碼：（

【Android開發經驗】關於“多執行緒斷點續傳下載”功能的一個簡單實現和講解

上班第一天，在技術群裡面和大家閒扯，無意中談到了關於框架的使用，一個同學說為了用xUtils的斷線續傳下載功能，把整個庫引入到了專案中，在google的官方建議中，是非常不建議這種做法的，集合框架雖然把很多功能整合起來，但是程式碼越多，出現問題的可能越大，而且無形之中

多執行緒下單例模式：懶載入（延遲載入）和即時載入

前言在開發中，如果某個例項的建立需要消耗很多系統資源，那麼我們通常會使用惰性載入機制，也就是說只有當使用到這個例項的時候才會建立這個例項，這個好處在單例模式中得到了廣泛應用。這個機制在single-threaded環境下的實現非常簡單，然而在multi-t

iOS多執行緒之超實用理論+demo演示（可下載）

[toc] # 背景簡介在初學iOS相關知識過程中，大多都對多執行緒有些恐懼的心裡，同時感覺工作中用上的概率不大。但是如果平時不多積累並學透多執行緒，當工作中真的需要用到的時候，就很可能簡單百度後把一些知識點稀裡糊塗地就用到工作中了，殊不知裡面有很多的坑，也有很多技巧

【什麼時候用多執行緒——IO篇】io多執行緒真的會降低磁碟效能麼？

什麼叫做IO? IO是在主存與外部裝置（磁碟驅動器、終端和網路）之間的資料拷貝的過程。站在主存的角度去看，I表示輸入到主存；O從主存輸出。什麼叫做IO密集型？就是IO很多唄。比如大量的“資料寫入磁碟，資料上傳到遠端伺服器，從磁碟讀取檔案”等操作。 2.磁碟IO

【Linux C/C++】第08講多執行緒TCP傳輸檔案/select模型

一、多執行緒 pthread.h libpthread.so -lpthread 1.建立多執行緒 1.1 程式碼 &nbs

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多執行緒版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from threading import Thread "

【面試題】模擬多執行緒售票系統

public class Tiket{ private int tiketNumber; public int getTiketNumber() { return tiketNumber; } public void setTiketNumber(int tiketNumber) {

【ODPS】TableTunnel多執行緒下載事例

本篇介紹多執行緒下載 1.多執行緒下載類： package bysql; import java.io.BufferedWriter; import java.io.IOException; import java.util.Date; import java.uti

【VS2010】C++多執行緒同步與互斥簡單運用

繼以往的想法，寫這點文字，貼上點程式碼，是為了增加自己的記憶，也希望能幫助到需要幫助的人。 1. 互斥量，Mutex #include <Windows.h> #include <iostream> usingnamespace

【嵌入式Linux C程式設計】Linux多執行緒程式設計

程序——資源分配的最小單位，執行緒——程式執行的最小單位。執行緒是程序的一個執行流，是CPU排程和分派的基本單位，它是比程序更小的能獨立執行的基本單位。一個程序由幾個執行緒組成（擁有很多相對獨立的執行流的使用者程式共享應用程式的大部分資料結構），執行緒與同屬一個程序的其他的執

【Python筆記】Python多執行緒程序如何正確響應Ctrl-C以實現優雅退出

相信用C/C++寫過服務的同學對通過響應Ctrl-C（訊號量SIG_TERM）實現多執行緒C程序的優雅退出都不會陌生，典型的實現偽碼如下： #include <signal.h> int main(int argc, char * argv[])

【原】對多執行緒中Wait和Join的理解

對於，wait方法的解釋，有時候覺得很矛盾。呼叫某個物件的wait時，需要獲得該物件的鎖，在執行的時候又需要釋放該物件的所有鎖。這是問題一。另外，在看Join的原始碼，會發現它利用了Wait來實現，但是它的實現原理是怎樣的呢？這是問題二。看下原始碼的英文描述：

【朝花夕拾】Android多執行緒之（三）runOnUiThread篇——程式猿們的貼心小棉襖

runOnUiThread()的使用以及原理實在是太簡單了，簡單到筆者開始都懶得單獨開一篇文章來寫它。當然這裡說的簡單，是針對對Handler比較熟悉的童鞋而言的。不過麻雀雖小，五臟俱全，runOnUiThread()好歹也算得上是一方諸侯，在子執行緒切換

【QT】 Qt多執行緒的“那些事”

[toc] # 一、前言在我們開發Qt程式時，會經常用到多執行緒和訊號槽的機制，將耗時的事務放到單獨的執行緒，將其與GUI執行緒獨立開，然後通過訊號槽的機制來進行資料通訊，避免GUI介面假死的情況。例如：使用QT實現檔案的傳送，並且GUI介面需要實時顯示傳送的進度，這時就需要將耗時的檔案資料操作放到**

【Linux系統學習】程序與執行緒

程序執行新程式程序等待 wait()函式程序執行新程式 fork()/exec()組合是典型的Linux

【Qt：語法】Qt 的執行緒與事件迴圈

週末天冷，索性把電腦抱到床上上網，這幾天看了 dbzhang800 部落格關於 Qt 事件迴圈的幾篇 Blog，發現自己對 Qt 的事件迴圈有不少誤解。從來只看到現象，這次借 dbzhang800 的部落格，就程式碼論事，因此瞭解到一些 Qt 深層的實現，

java用多執行緒批次查詢大量資料（Callable返回資料）方式

我看到有的資料庫是一萬條資料和八萬條資料還有十幾萬條，幾百萬的資料，然後我就想拿這些資料測試一下，發現如果用java和資料庫查詢就連一萬多條的資料查詢出來就要10s左右，感覺太慢了。然後網上都說各種加索引，加索引貌似是有查詢條件時在某個欄位加索引比較快一些，但是畢竟是人

用多執行緒實現多使用者同時收發的簡單socket服務端

簡單的socket程式碼和多執行緒練習用socket服務端和多執行緒實現可以連線多個客戶端並同時收發的功能。這裡要用到socket 和 threading所以，記得：import socket, threading一、建立socket服務端首先，按正常操作，建立一個socke

Java多執行緒--三個執行緒分別列印a,b,c.請用多執行緒實現迴圈列印15次abc

掃盲: 想想自己多執行緒解決生產消費者問題就知道個synchronized,真是慚愧為做此題目特意學習新的多執行緒知識–ReentrantLock跟synchronized一樣都是Java中的可重入鎖(可以在內部鎖中拿到外部鎖) Con

【OS大作業】用多執行緒統計txt檔案中字元個數（Java實現）

問題描述

原始碼

第一版程式碼：（僅支援單執行緒、按行讀取、可以讀取字串/字元，速度快）

第二版程式碼：（可自行選擇匯流排程個數，將檔案分塊讓各個執行緒按字元查詢）

結果分析

相關推薦