7-3 詞頻統計（30 分）巧解

阿新 • • 發佈：2018-11-11

2018年8月15日于山東

7-3 詞頻統計（30 分）

請編寫程式，對一段英文文字，統計其中所有不同單詞的個數，以及詞頻最大的前10%的單詞。

所謂“單詞”，是指由不超過80個單詞字元組成的連續字串，但長度超過15的單詞將只擷取保留前15個單詞字元。而合法的“單詞字元”為大小寫字母、數字和下劃線，其它字元均認為是單詞分隔符。

輸入格式:

輸入給出一段非空文字，最後以符號#結尾。輸入保證存在至少10個不同的單詞。

輸出格式:

在第一行中輸出文字中所有不同單詞的個數。注意“單詞”不區分英文大小寫，例如“PAT”和“pat”被認為是同一個單詞。

隨後按照詞頻遞減的順序，按照詞頻:單詞

的格式輸出詞頻最大的前10%的單詞。若有並列，則按遞增字典序輸出。

輸入樣例：

This is a test.

The word "this" is the word with the highest frequency.

Longlonglonglongword should be cut off, so is considered as the same as longlonglonglonee.  But this_8 is different than this, and this, and this...#
this line should be ignored.

輸出樣例：（注意：雖然單詞`the`

也出現了4次，但因為我們只要輸出前10%（即23個單詞中的前2個）單詞，而按照字母序，`the`排第3位，所以不輸出。）

23
5:this
4:is

這道題其實不難，只是有些東西題目並沒有給清楚。

坑：看輸出格式的提示裡 “注意“單詞”不區分英文大小寫” 這句話，你既然是在輸出格式裡寫出，就會指引我們往輸出不論是da'x大小寫都是正確的結果呢？只有小寫過了，大寫卻沒過。

技巧：使用匹配攻破之。scanf


#define _CRT_SECURE_NO_WARNINGS
#include "bits/stdc++.h"
using namespace std;

struct stx {
	string t;
	int x;
}Px[100000+10];
int pxcnt = 0;
bool cmp(struct stx A, struct stx B) {
	if (A.x < B.x) return false;
	else if (A.x == B.x && A.t>B.t) return false;
	return true;
}
class newgame {
public:
	string t;
	map<string, int>KS;
	void run() {
		tsolve();
	}
private:
	void tsolve() {
		char PTS[5000];
		while (!strstr(PTS,"#")) {
			int numk = scanf("%800[A-Za-z0-9_#]", PTS); // 輸入匹配
			PTS[15] = 0;
			if (numk) {
				t = PTS;
				transform(t.begin(), t.end(), t.begin(), ::tolower); // 轉小寫
				if (strstr(PTS, "#")) t[t.size() - 1] = 0;
				if(t[0]!=0)	KS[t]++;
			}
			getchar();
		}
		printf("%d\n",KS.size());

		for (map<string, int>::iterator it = KS.begin(); it != KS.end(); it++) Px[pxcnt++] = { it->first,it->second };
		sort(Px, Px + pxcnt, cmp);
		int cdnum = KS.size()*0.1;
		for (int i = 0; i < cdnum; i++) {
			cout << Px[i].x << ":" << Px[i].t << endl;
		}
	}
};

int main() {

	newgame P;
	P.run();
	system("pause");
	return 0;
}

使用匹配時候務必小心死迴圈造成這個原因是 scanf又接收了回車造成！！！需要加上getchar()

7-3 詞頻統計（30 分）巧解

2018年8月15日于山東 7-3 詞頻統計（30 分）請編寫程式，對一段英文文字，統計其中所有不同單詞的個數，以及詞頻最大的前10%的單詞。所謂“單詞”，是指由不超過80個單詞字元組成的連續字串，但長度超過15的單詞將只擷取保留前15個單詞字元。而合法的“

7-12 樹種統計（25 分）

lib pop pen 整數 text -s asp pri 正整數隨著衛星成像技術的應用，自然資源研究機構可以識別每一棵樹的種類。請編寫程序幫助研究人員統計每種樹的數量，計算每種樹占總數的百分比。輸入格式: 輸入首先給出正整數N（≤10?5??），隨

7-11 關鍵活動（30 分）

-h 兩個 tdi 最短程序 lis 此外開始 clu 7-11 關鍵活動（30 分）假定一個工程項目由一組子任務構成，子任務之間有的可以並行執行，有的必須在完成了其它一些子任務後才能執行。“任務調度”包括一組子任務、以及每個子任務可以執行所依賴的子任務集。比

7-27 家譜處理（30 分）

tor lang -html 沒有初始實例至少 getc truct 人類學研究對於家族很感興趣，於是研究人員搜集了一些家族的家譜進行研究。實驗中，使用計算機處理家譜。為了實現這個目的，研究人員將家譜轉換為文本文件。下面為家譜文本文件的實例： John Rober

第六章樹和二叉樹--樹和森林-計算機17級 7-2 家譜處理（30 分）

7-2 家譜處理（30 分）人類學研究對於家族很感興趣，於是研究人員蒐集了一些家族的家譜進行研究。實驗中，使用計算機處理家譜。為了實現這個目的，研究人員將家譜轉換為文字檔案。下面為家譜文字檔案的例項： John Robert Frank And

7-3 括號匹配（25 分）

給定一串字元，不超過100個字元，可能包括括號、數字、字母、標點符號、空格，程式設計檢查這一串字元中的( ) ,[ ],{ }是否匹配。輸入格式: 輸入在一行中給出一行字串，不超過100個字元，可能包括括號、數字、字母、標點符號、空格。輸出格式: 如果括號配對，輸出yes，否

7-3 單詞長度（15 分）

你的程式要讀入一行文字，其中以空格分隔為若干個單詞，以.結束。你要輸出每個單詞的長度。這裡的單詞與語言無關，可以包括各種符號，比如it’s算一個單詞，長度為4。注意，行中可能出現連續的空格；最後的.不計算在內。輸入格式：輸入在一行中給出一行文字，以.結束提示：用scanf(

7-1 關鍵活動（30 分）

假定一個工程專案由一組子任務構成，子任務之間有的可以並行執行，有的必須在完成了其它一些子任務後才能執行。“任務排程”包括一組子任務、以及每個子任務可以執行所依賴的子任務集。比如完成一個專業的所有課程學習和畢業設計可以看成一個本科生要完成的一項工程，各門課程可以看成是子任務。有些課程可以同時

7-3 符號配對（20 分）

7-3 符號配對（20 分）請編寫程式檢查C語言源程式中下列符號是否配對：/*與*/、(與)、[與]、{與}。輸入格式: 輸入為一個C語言源程式。當讀到某一行中只有一個句點.和一個回車的時候，標誌著輸入結束。程式中需要檢查配對的符號不超過100個。輸出格式:

7-24 樹種統計（25 分）

隨著衛星成像技術的應用，自然資源研究機構可以識別每一棵樹的種類。請編寫程式幫助研究人員統計每種樹的數量，計算每種樹佔總數的百分比。輸入格式: 輸入首先給出正整數N（≤105），隨後N行，每行給出

PTA 7-1 Huffman Codes （30 分）

7-1 Huffman Codes （30 分） In 1953, David A. Huffman published his paper "A Method for the Construction of Minimum-Redundancy Codes", and h

7-1 Huffman Codes （30 分）

In 1953, David A. Huffman published his paper "A Method for the Construction of Minimum-Redundancy Codes", and hence printed his name in t

7-7 六度空間（30 分）

“六度空間”理論又稱作“六度分隔（Six Degrees of Separation）”理論。這個理論可以通俗地闡述為：“你和任何一個陌生人之間所間隔的人不會超過六個，也就是說，最多通過五個人你就能夠認識任何一個陌生人。”如圖1所示。圖1 六度空間示意圖 “

7-2 天梯地圖（30 分）

本題要求你實現一個天梯賽專屬線上地圖，隊員輸入自己學校所在地和賽場地點後，該地圖應該推薦兩條路線：一條是最快到達路線；一條是最短距離的路線。題目保證對任意的查詢請求，地圖上都至少存在一條可達路線。輸入格式：輸入在第一行給出兩個正整數N（2 ≤ N ≤ 500）和M，分

7-7 六度空間（30 分）(bfs)（c++簡短高效解決）

“六度空間”理論又稱作“六度分隔（Six Degrees of Separation）”理論。這個理論可以通俗地闡述為：“你和任何一個陌生人之間所間隔的人不會超過六個，也就是說，最多通過五個人你就能夠認識任何一個陌生人。”如圖1所示。圖1 六度空間示意圖 “六度空間”理論雖然得到廣泛的認

2017年團體程式設計天梯賽-大區賽 7-3 情人節（15 分）【字串】

7-3 情人節（15 分）以上是朋友圈中一奇葩貼：“2月14情人節了，我決定造福大家。第2個贊和第14個讚的，我介紹你倆認識…………咱三吃飯…你倆請…”。現給出此貼下點讚的朋友名單，請你找出那兩位要請客的倒黴蛋。輸入

7-11 關鍵活動（30 分）(拓撲排序與關鍵活動)

拓撲排序與關鍵活動參考一道題目： 7-11 關鍵活動（30 分）原題地址題目要求作者: DS課程組單位: 浙江大學時間限制: 400ms 記憶體限制: 64MB 程式碼長度限制: 16KB 假定一個工程

7-3 不能用迴圈是一件多麼悲傷的事（30 分）

軟體學院第十四次訓練 205 分程式設計題共 9 小題，共計 205 分剩餘時間: 692:04:25 剩餘時間: 692:04:25 程式設計題 7-3 不能用迴圈是一件多麼悲傷的事（30 分）下面是一個

7-24 地下迷宮探索（30 分）

有一個 lag 端點 .com 發展戰爭深度優先 ott 技術分享地道戰是在抗日戰爭時期，在華北平原上抗日軍民利用地道打擊日本侵略者的作戰方式。地道網是房連房、街連街、村連村的地下工事，如下圖所示。我們在回顧前輩們艱苦卓絕的戰爭生活的同時，真心欽佩他們的聰明才

04-樹7 二叉搜索樹的操作集（30 分）

pty clean class 結構其中 stc stack AI findmi 本題要求實現給定二叉搜索樹的5種常用操作。函數接口定義： BinTree Insert( BinTree BST, ElementType X ); BinTree Delete( Bin

7-3 詞頻統計（30 分） 巧解

輸入格式:

輸出格式:

輸入樣例：

輸出樣例：（注意：雖然單詞the 也出現了4次，但因為我們只要輸出前10%（即23個單詞中的前2個）單詞，而按照字母序，the排第3位，所以不輸出。）

相關推薦

7-3 詞頻統計（30 分）巧解

輸出樣例：（注意：雖然單詞`the`

也出現了4次，但因為我們只要輸出前10%（即23個單詞中的前2個）單詞，而按照字母序，`the`排第3位，所以不輸出。）