【現代軟件工程】第一次作業——詞頻統計

阿新 • • 發佈：2018-03-31

idt hash 統計字符最簡系統設計字符 fgetc 需求

　　1.1基本功能

　　1.2設計實現

　　1.3代碼結構

　　1.4測試運行

　　1.5性能分析

　　1.6項目總結

　　1.7 PSP展示

1.1 基本功能

　　1. 統計文件的字符數（只需要統計Ascii碼，漢字不用考慮，換行符不用考慮,‘\0‘不用考慮）（ascii碼大小在[32,126]之間）

　　2. 統計文件的單詞總數

　　3. 統計文件的總行數（任何字符構成的行，都需要統計）（不要只看換行符的數量，要小心最後一行沒有換行符的情形）（空行算一行）

　　4. 統計文件中各單詞的出現次數，輸出頻率最高的10個。

　　5. 對給定文件夾及其遞歸子文件夾下的所有文件進行統計

　　6. 統計兩個單詞（詞組）在一起的頻率，輸出頻率最高的前10個。

　　7. 在Linux系統下，進行性能分析，過程寫到blog中（附加題）

　關於字符、行數與單詞的統計規則詳情請見：http://www.cnblogs.com/denghp83/p/8627840.html

1.2 設計實現

　1.2.1 解題思路

　　1. 用命令行參數輸入文件路徑，判斷其是單個文件還是文件夾。

　　　　　若為單個文件則直接打開，統計字符、單詞與行數；若為文件夾，則遞歸遍歷該文件夾下的所有文件進行統計。

　　　　　之前用文件操作用得較少，所以對遍歷文件夾的操作不熟悉，在網上找了點資料。

（學習筆記:

　　1）存儲文件各種信息的結構體中：unsigned attrib表示文件的屬性，

_A_SUBDIR表示文件夾屬性。

　　2）_findfirst函數

　　　 long _findfirst( char*filespec,struct _finddata_t *fileinfo )；

　　　返回值：如果查找成功的話，將返回一個long型的唯一的查找用的句柄（就是一個唯一編號）。這個句柄將在_findnext函數中被使用。若失敗，則返回-1。

fileinfo ：這裏就是用來存放文件信息的結構體的指針。這個結構體必須在調用此函數前聲明，不過不用初始化，只要分配了內存空間就可以了。函數成功後，函數會把找到的文件的信息放入這個結構體中。

　　3）_findnext函數

int _findnext( long handle, struct_finddata_t *fileinfo );

返回值：若成功返回0，否則返回-1。

參數：handle：即由_findfirst函數返回回來的句柄。

fileinfo：文件信息結構體的指針。找到文件後，函數將該文件信息放入此結構體中。

　　https://blog.csdn.net/aoshilang2249/article/details/37819159）

　　　　2. 對於字符、行數與單詞數統計，將字符數、行數與單詞數作為全局變量，一開始最簡單的想法是分三次讀取文件，後來想想真的太費時間了。

　　　　最後的方案是每讀一個文件，就把字符、行數與單詞數統計好。

　　　　3. 對於單詞和詞組頻率的統計：創建兩個哈希表，使用ELFHASH哈希算法計算索引值，使用拉鏈法處理沖突。

　　　　　對詞組頻率的統計一開始沒有什麽頭緒，後來翻看了其他同學的博客，通過操作前後兩個單詞的結構體指針來實現詞組在哈希表中的存儲，才大概有了點頭緒。

　　　　4. 輸出頻率前十的單詞和詞組：通過遍歷哈希表實現。

　　1.2.2 實現細節

　　　　單詞和詞組的結構體：

typedef struct wordnode {

    int times;

    char word[MAX];//單詞原型

    char wordhash[MAX];//去掉最末尾數字且字母全為小寫

    struct wordnode *next;

}wordnode, *wordlist;



typedef struct phrasenode {

    int times;

    wordlist wordpre;//前一個單詞

    wordlist wordaft;//後一個單詞

    struct phrasenode *next;

}phrasenode, *phraselist;

　　　　1. 字符數統計：ASCII碼值在32-126之間的字符，則字符數加一。

　　　　2. 行數統計：掃描到‘\n‘,則行數加一。每個文件掃描結束，行數再加一。（自我感覺這個統計方法有點不太靠譜。）

　　　　3. 單詞數統計：當掃描到分隔符後的第一個字母或數字時，開始將該字符存儲到緩沖數組，直到遇到下一個分隔符。

　　　　　　　　　　　再對緩沖數組中的字符串做分析，如果長度（不含末尾‘\0‘）大於等於4並且前四個字符都為字母，則單詞數加一。

　　　　　　　　　　　為了便於計算哈希算法的鍵值和處理沖突，將字符串做一些處理，去掉最末尾的數字並將剩下的均轉化為小寫。

　　　　　　　　　　　根據鍵值與字符串的大小比較在哈希表中查找，若查找失敗，則創建一個新結點；若查找成功，則次數加一。

　　　　4. 詞組數統計：按上述方法記錄一下每一個單詞的結構體指針。

　　　　　　　　　　　若不是該文件的第一個單詞，將它與上一個單詞合在一起生成一個哈希鍵值，用與統計詞頻相似的方法處理哈希表。

for (i = 0; ((ch >= ‘a‘&&ch <= ‘z‘) || (ch >= ‘A‘&&ch <= ‘Z‘) || (ch >= ‘0‘&&ch <= ‘9‘)) && ch != EOF; i++)
            {
                charactercount++;
                buffer[i] = ch;
                ch = fgetc(fp);
            }
            charactercount--;
            buffer[i] = ‘\0‘;
            if (i >= 4 && ((buffer[0] >= ‘a‘&&buffer[0] <= ‘z‘) || (buffer[0] >= ‘A‘&&buffer[0] <= ‘Z‘)) && ((buffer[1] >= ‘a‘&&buffer[1] <= ‘z‘) || (buffer[1] >= ‘A‘&&buffer[1] <= ‘Z‘)) && ((buffer[2] >= ‘a‘&&buffer[2] <= ‘z‘) || (buffer[2] >= ‘A‘&&buffer[2] <= ‘Z‘)) && ((buffer[3] >= ‘a‘&&buffer[3] <= ‘z‘) || (buffer[3] >= ‘A‘&&buffer[3] <= ‘Z‘)))
            {
                wordtotal++;//此時i即為單詞原始長度
                for (k = i - 1; ; k--)
                {
                    if ((buffer[k] >= ‘a‘&&buffer[k] <= ‘z‘) || (buffer[k] >= ‘A‘&&buffer[k] <= ‘Z‘))
                        break;//k represents the last location of a character
                }
                //my_strlwr(regular, buffer, k + 1);
                current = wordFrequency(buffer, k + 1);
                if (wordtotal > 0)
                {
                    //不是第一個單詞
                    phraseFrequency(last, current);
                }
                last = current;
            }

1.3 代碼結構

　　詳細代碼地址：https://github.com/EstherXr/learngit/blob/master/homework1.cpp

1.4 測試運行

　　1. 助教給的測試集

　　上面為我的結果，下面為助教給的測試結果。

　　技術分享圖片

　　頻率前十的單詞和詞組及頻率與助教的結果相同，但是字符數、行數與單詞數都有偏差。對於單詞數，我覺得是各人的定義不同，比如ab123abcd中的abcd到底算不算單詞。

　　2. 空文件：

　　技術分享圖片

　　3. 遍歷文件夾測試一:

　　技術分享圖片

　　4. 遍歷文件夾測試二:

　　技術分享圖片

　　5. 單文件輸出所有單詞：

　　技術分享圖片

1.5 性能分析

　　CPU總使用情況

　　技術分享圖片

　　遍歷文件夾函數：

　技術分享圖片

　　　統計字符數、行數與單詞數：

　　技術分享圖片

　　分析：

　　從函數的CPU使用情況來看，大部分時間都花費在遍歷文件夾與統計函數上。

1.6 項目總結

　　到真正寫代碼和做東西的時候，就會發現自己會的東西真的太少了。（所以這次基本是用純C寫的）也因為之前寫代碼寫得太少了，所以對自己能力的估計也很不準確，導致規劃的效率很低。

　　在交代碼的那天晚上才開始做移植，但是在Linux系統上測試一直有問題，所以最後只好交了一份沒有移植的代碼。之後要把這個問題搞明白，也要開始學習如何使用虛擬機。

　　以後做項目要多些文檔，可以幫助自己梳理思路，更有條理。這也是這次作業不足的地方。

　　最後，一定要和身邊的人多交流。

1.7 PSP展示

		預估耗時/min	實際耗時/min
Planning	計劃	30	45
-Estimate	-估計這個任務需要多少時間	30	45
Development	開發	1220	1600
-Analysis	-需求分析	120	60
-Design Spec	-設計文檔	90	60
-Design Review	-設計復審	30	20
-Coding Standard	-代碼規範	20	20
-Design	-具體設計	120	240
-Coding	-具體編碼	600	900
-Code Review	-代碼復審	60	60
-Test	-測試	180	240
Reporting	報告	180	265
-Test Report	-測試報告	90	180
-Size Measurement	-計算工作量	60	40
-Postmortem	-總結反思	30	45
		1430	1910

【現代軟件工程】第一次作業——詞頻統計

idt hash 統計字符最簡系統設計字符 fgetc 需求目錄　　1.1基本功能　　1.2設計實現　　1.3代碼結構　　1.4測試運行　　1.5性能分析　　1.6項目總結　　1.7 PSP展示 1.1 基本功能　　1. 統計文件的字符數（只需

軟件工程第1次作業—詞頻統計

img 很多 strong 篩選控制文件格式 linx color xxx 作業要求的博客鏈接：https://edu.cnblogs.com/campus/nenu/2016CS/homework/2110 git倉庫地址：https://git.coding.net

【現代軟件工程】結對編程 —— 四則運算UI

否支持另一個 ftw 個人 con 代碼管理 re模塊避免 scale 結對作業 —— 用戶界面設計徐楠青 PB16120408 王馨兒 PB16060765 項目簡介：本次結對編程的任務是寫一個能自動生成小

【現代軟件工程】個人總結

如果深深 bsp 做的感受未來好的項目我們知識一個學期的軟工課程也即將進入尾聲，在整個過程當中，收獲與感觸的確不少。這裏主要寫一寫關於團隊項目的一些收獲與心的。起初，對於要做一個什麽樣的東西我們自己也沒有很好的想法。於是在機緣巧合之下，就選擇了上一屆學長

現代軟件工程第三次作業-自我評價的改進

還要生命導致 ont 大學不清楚過程代碼量們的自我評價的改進溫浩：通過調查問卷的測評，我對自己的專業技能有了較為直觀的認識，經過反思與總結，我認為自己需要做如下改進： 1. 從被動編程向主動編程轉變。拿到一個項目，要真的的了解需求，主動發掘需求中的盲

2017天津大學-現代軟件工程-第2次作業

ref 工作區郵件關聯找到如圖所示 9.png alt 分支合並孫冠群作業 1.在Mac上安裝Git，通過homebrew 安裝中。。。在homebrew中安裝git 二、創建版本庫 1創建目錄 2 把目錄變為git

3組現代軟件工程第四次作業

處理第四次作業 http 時間 logs font log 行處理 .com 四象限分析法：如圖所示根據重要性和緊急度兩個維度可以將事情劃分為四個象限：第一象限（A）的事情是首先要進行處理的第二象限（B）的事情是應該在第一象限處理後進行處理的第三象限（C）

軟件工程概論第一次作業

logs java項目 c++ new man != 輸入 ole connect 1.需要網站系統開發需要掌握的技術；（1）lJava語言（2）面向對象分析設計思想（3）設計模式和框架結構（4）XML語言（5）網頁腳本語言（6）數據庫（7）應用服務器（8）

軟件工程導論第一次作業

相關左右力學成長管理系統自己的開始國外一點第一部分問題： 1.報考專業以後被調劑過來的，剛開始想著努力學習轉系，一年的相處，讓我覺得這個專業的老師和同學都比較有人情味，很溫暖，並且對專業課的學習也挺感興趣的，不抵觸，於是也就放棄了轉專業的想法，決定好好學下

軟件工程團隊第一次作業

clas mage mark mar body 專業設計 java、 AR 團隊展示隊名：死肥宅工作室隊員：林一心（201521123055，隊長）張杭鏢（201521123046）童歡（201521123054）趙意（201521123057）團隊項目描

軟件工程實踐第一次作業

大學好的一個人就會改變計算機專業時間本科生熱門（1）回想一下你初入大學時對計算機專業的暢想當初你是如何做出選擇計算機專業的決定的？答：當初選計算機主要也是因為計算機專業比較熱門，而且當時高考成績差不多就是上福大，自己也蠻想了解這個專業所以就選擇了計

2017秋-軟件工程第五次作業（1）-【探路者】團隊選題展示

www tar ont 地址 lin 文案相關 air .html 【探路者】團隊項目名稱：貪吃蛇 2017秋-軟件工程第五次作業（1）-【探路者】團隊選題展示（視頻）鏈接： http://www.iqiyi.com/w_19rvb5njph.html 2017秋-軟件

2017秋-軟件工程第七次作業（1）-【探路者】貪吃蛇阿爾法發布

lai targe html 地址 lan www lin .html href 【探路者】團隊項目阿爾法發布：貪吃蛇 2017秋-軟件工程第七次作業（1）-【探路者】貪吃蛇阿爾法發布展示（視頻）鏈接： http://www.iqiyi.com/w_19ruzx6xu

2017秋-軟件工程第七次作業（1）-【探路者】貪吃蛇阿爾法發布展示（視頻展示）

軟件工程 lin 使用 .html -1 target 背景音樂 targe 核心 Part One 【探路者】選題展示視頻鏈接： http://www.iqiyi.com/w_19ruzx6xud.html Part Two 【貪吃蛇】阿爾法發布視頻截圖 1視頻的前半部

軟件工程概論第一次課堂測試（實發項目的開發）總結

位置重復執行驗證密碼宋體手機號 let 處理查詢條件上周四進行了開學的第一次測試，測試內容是一個實發項目的開發，主要就是利用所給的登錄界面、主界面等已經經過處理的具體素材，根據所給的要求實現題目要求的相應的具體功能。由於之前對這種實發項目開發並沒有

【北航軟件工程】Alpha階段前端頁面編寫及服務器部署

ogre 手動自己 djang 來替分享 column bootstra 是我前端頁面編寫雖然之前對html語法有過一些了解，但是完全沒有編寫前端頁面的經驗，和我合作的czy大概也是這麽個情況。在Alpha階段的前端頁面編寫過程中，我們是摸著石頭過河，html是個入

軟件工程第零次作業

提升老師更多編碼體制指令操作畢業之前第一部分：結緣計算機在進入大學之前，我的生活和計算機似乎沒有太大的關聯。要說和計算機有關的生活，也就是打遊戲了吧。因此在高考填報誌願之前，我從來沒有想過會去學習計算機。後來選擇計算機，僅僅是聽說這個專業很火，很多人學

軟件工程第三次作業 - 效能分析

字符耗時 rds words 是否有變行存儲導致分隔要求0：以戰爭與和平作為輸入文件，重讀向由文件系統讀入。連續三次運行，給出每次消耗時間、CPU參數。第一次運行結果：本次程序運行所消耗的時間為1.2秒。第二次運行結果：

2017年軟件工程第三次作業-3功能測試

查看 wid 閃退技術分享完成 == pull image 找到 one 準備工作：用git bash pull同學的代碼，如下截圖： two 找其他同學的bug：一.被檢測的同學：賈雅傑同學 1.(1)標題：按回車系統報錯 (2)內容：測試環境：win

2017年軟件工程第三次作業-2效能分析

大於閃退 font rcp 工作接下來原因 char 效果要求0 以戰爭與和平作為輸入文件，重讀向由文件系統讀入。連續三次運行，給出每次消耗時間、CPU參數首先，我下載ptime.exe，不知道什麽原因我下載下來以後運行老出現閃退現象。一直沒法使用

【現代軟件工程】第一次作業——詞頻統計

相關推薦