使用StringTokenizer分割並統計單詞個數

阿新 • • 發佈：2019-02-12

在某些時候，可能會需要統計一大串文字中出現的單詞個數。一般情況下，直接想到的是用正則表示式，但是我偶然發現了一個比用正則表示式更好的方法。

也就是使用StringTokenizer這個類，參考文件：

傳入指定字元如逗號、冒號等作為分割標誌，取出單詞。

public static HashMap<String, Integer> getWordCount(StringBuffer contents) {
		HashMap<String, Integer> map = new HashMap<String, Integer>();
		StringTokenizer tokenizer = new StringTokenizer(new String(contents));
		int count;
		String word;
		while (tokenizer.hasMoreTokens()) {
			word = tokenizer.nextToken(" ,?.!:\"\"''\n");
			if (map.containsKey(word)) {
				count = map.get(word);
				map.put(word, count + 1);
			} else {
				map.put(word, 1);
			}
		}
		return map;
	}

將取出的單詞以及它出現的頻率儲存至HashMap中，然後根據頻率大小從大至小排序。

public static ArrayList<Entry<String, Integer>> sortWordCount(
			HashMap<String, Integer> map) {
		ArrayList<Map.Entry<String, Integer>> infoIds = new ArrayList<Map.Entry<String, Integer>>(
				map.entrySet());
		Collections.sort(infoIds, new Comparator<Map.Entry<String, Integer>>() {
			public int compare(Map.Entry<String, Integer> o1,
					Map.Entry<String, Integer> o2) {
				return (o2.getValue() - o1.getValue());
			}
		});
		return infoIds;
	}

最後在main函式中呼叫函式進行單詞個數統計並輸出結果。（資料來源採用txt格式的英文小說，大小為300KB）

為了能夠使用VisualVM測試其效能，需要在呼叫統計的程式碼前呼叫如下程式碼。

System.out.println("Press any letter to start word count:");
		Scanner s = new Scanner(System.in);
		if (s.nextLine() == null) {
			s.close();
			System.exit(0);
		} else {
			s.close();
		}

最後，獲得的效能分析結果如下圖。

使用StringTokenizer分割並統計單詞個數

在某些時候，可能會需要統計一大串文字中出現的單詞個數。一般情況下，直接想到的是用正則表示式，但是我偶然發現了一個比用正則表示式更好的方法。也就是使用StringTokenizer這個類，參考文件：

IO應用——讀取文字檔案並統計單詞個數

讀取一共文字檔案，統計出其中每一個單詞出現的次數，並把結果儲存在另外的一個檔案中此處我的文字內容是：i love you,i love you 我就沒有儲存到另一個檔案了，要儲存直接用輸出流就行了 public static void main(String[] args) thr

【基礎水題】統計單詞個數

int pan 一個 else art 個數 print urn 是不是 1 //1.統計單詞的個數 2 #include <stdio.h> 3 int main(void) 4 { 5 int i, flag = 0, number =

P1026 統計單詞個數

word 截斷 area for name center 方程拆分決策 P1026 統計單詞個數題目描述給出一個長度不超過200的由小寫英文字母組成的字母串(約定;該字串以每行20個字母的方式輸入，且保證每行一定為20個)。要求將此字母串分成k份(1<k<

統計單詞個數（NOIP 2001提高組）

sample 字符串重疊 -s pre rom 長度最大的解析題目描述 Description 給出一個長度不超過200的由小寫英文字母組成的字母串(約定;該字串以每行20個字母的方式輸入，且保證每行一定為20個)。要求將此字母串分成k份(1<k<=

統計單詞個數

題目描述給出一個長度不超過200的由小寫英文字母組成的字母串(約定;該字串以每行20個字母的方式輸入，且保證每行一定為20個)。要求將此字母串分成k份(1<k≤40)，且每份中包含的單詞個數加起來總數最大(每份中包含的單詞可以部分重疊。當選用一個單詞之後，其第一個字母不能再用。例如字串this中

從零開始寫一個Spark Structured Streaming程式來統計單詞個數

本文將從零開始寫一個Spark Structured Streaming程式來統計單詞的個數。單詞的來源是socket，讀者也可以換成kafka，計算的結果輸出到控制檯，讀者也可以改成輸出到kafka的某個topic。準備環境： JDK和Scala安裝，並配置好環境變數JAVA_H

luogu1026_統計單詞個數_區間dp

題意 https://www.luogu.org/problemnew/show/P1026 solution 設f[i][j]表示1~i分成j分，最多的單詞數預處理一個sum[i][j]陣列，表示i~j包含的單詞數預處理的時候需要注意一個順序j從大到小

Java程式設計，統計單詞個數

題目統計一篇文件資料中單詞的個數（提示文件資料可放在字串中，利用正則表示式來實現） import java.util.Scanner; public class DemoTest{ String regex="[\\d\\s\\p{Punct}]+";//用正則表示式來作為分割標記

Hadoop-MapReduce初步應用-統計單詞個數

參考官網的單詞統計，上傳文字檔案讀取資料，統計等，首先準備好文字檔案，隨便寫點單詞，再看統計結果正確與否。註釋都寫在程式碼裡了，希望能幫到入門的開發人員專案結構如下，讀出的資料一起發出來了 package hadoop.com.test; import

【題解】洛谷P1026[NOIP2001]統計單詞個數區間DP+字串

題目連結參考了大佬題解中string的基操 #include<cstdio> #include<iostream> using namespace std; string str,ch,word[10]; int p,k,s,su

2015藍橋杯校選-統計單詞個數

題目：輸入一個字串，求它包含多少個單詞。單詞間以一個或者多個空格分開。第一個單詞前，最後一個單詞後也可能有0到多個空格。比如：" abc xyz" 包含兩個單詞，"ab c xyz

C語言練習題每練 1：字串統計單詞個數，單詞由空格隔開

空格隔開，所以空格是一個標誌性的符號，可以通過空格來統計單詞的個數。首先，分析一下所能遇到的各種情況。相鄰兩個字元組合情況為：空空；空字：字空；字字。特殊情況考慮有全空，全字，空空空字空空空。因為要兼顧前後所以需要兩個變數來指示，p指示前一個初始為0，C指示

【NOIP2001提高組T3】統計單詞個數-字串上的動態規劃

（本人本題完成於2016-7-19）題目大意：給定一個字串（長度為20*p，不超過200）和一個包含一些單詞（個數為n，1≤n≤6）的詞典，問如何將該字串分成K（不超過40）份，使得每份中包含的單詞

C++統計單詞個數及排序：容器按照value排序

例：給定一段英語文字，要求對其中單詞出現的個數按照從小到大進行排序，出現次數相同的按照首字母順序排列。演算法實現： #include <iostream> #include <algorithm> #include <

C經典輸入字串，並統計字母個數，首字母大寫

分析：是否是字母根據空格判斷，首字母大寫，只要把字母-32 #include <stdio.h> int main(int argc, const char * argv[]) {

Vijos1118 統計單詞個數

題目大意：給定一個長度20*p的字串以及一個字典，求將該字串分成k份後最多能包含多少個字典中的單詞（某個字母不能同時作為多個單詞的開頭）。思路：劃分型DP。先預處理出在各個區間中包含的單詞數，這裡可以只記錄最短單詞的長度，因為一個字母只能提供一個開頭。接下來

P1026 統計單詞個數 [dp]

sum line bstr sin rip 個數第一個 math length P1026 統計單詞個數這道題看上去就是要用dp的樣子。裸裸的dp題無誤。首先要把分開的字符串合成那個長度小於等於\(200\)的總字符串。然後做個預處理，預處理出任意區間內的單詞個數，

找出滿足以下性質的三位數，輸出並統計其個數：能被11整除，且三個數位上沒有兩個數相同。

#include<iostream> using namespace std; int main() { int count=0; int i,num1,num2,num3; for(i=10;i<1000;i++) { if(i%11==0)

C 單詞首字母大寫&統計單詞個數

#include <string.h> #include <stdio.h> int main(int argc, const char * argv[]){ /* * 單詞首字母大寫&統計單詞個數 */ //定義變數 char

使用StringTokenizer分割並統計單詞個數

相關推薦