第一次個人作業工作記錄

阿新 • • 發佈：2018-03-29

txt ros ron .com 第一步文件操作優先行數但是

作業要求：

1. 對源文件（*.txt,*.cpp,*.h,*.cs,*.html,*.js,*.java,*.py,*.php等）統計字符數、單詞數、行數、詞頻，統計結果以指定格式輸出到默認文件中，以及其他擴展功能，並能夠快速地處理多個文件。

2. 使用性能測試工具進行分析，找到性能的瓶頸並改進

3. 對代碼進行質量分析，消除所有警告

http://msdn.microsoft.com/en-us/library/dd264897.aspx

4. 設計10個測試樣例用於測試，確保程序正常運行（例如：空文件，只包含一個詞的文件，只有一行的文件，典型文件等等）

5. 使用Github進行代碼管理

6. 撰寫博客

功能需求

1. 統計文件的字符數

2. 統計文件的單詞總數

3. 統計文件的總行數

4. 統計文件中各單詞的出現次數

5. 對給定文件夾及其遞歸子文件夾下的所有文件進行統計

6. 統計兩個單詞（詞組）在一起的頻率，輸出頻率最高的前10個。

7. 在Linux系統下，進行性能分析，過程寫到blog中（附加題）

前期的分析：

首先看到了題目就立刻想到了會有巨大的數據需要進行處理，自然就會聯想應該如何去解決數據的存放問題與查找問題，從功能需求中一步步想到了使用哈希表對此進行存儲，於是便有了初步的想法：1、打開一個文件，讀取文件內容；2、將讀取的信息進行處理；3、構造一個哈希函數，創建一個哈希表。

之後有關測試文件出來了，便遇到了一個很棘手的問題：對於文件的遍歷，這個起初是打算用C語言中的fopen函數，但仔細一分析發現並不能實現具體的要求，於是便尋求一個可以遍歷文件的操作，在查閱資料後找到了C++語言中的findfirst和findnext函數可以實現文件操作，於是便開始對其的學習，由於之前未接觸過C++，對於其中過程的了解耗費了很長的時間，於是便對測試文件進行了初步的遍歷實驗，起初的結果很不近人意，只能遍歷文件的第一個子目錄裏的文件，無法進入子文件夾，進過判定條件的修改，最終實現了所有文件的遍歷。

此刻第一步便達到了目的，於是開始了文件讀取問題的思考，找到了兩個函數，get和getline函數，首先get函數可以很好的讀取文件中的字符，依靠對文件是否結束的判定可以持續讀取，這個的好處就在於可以無所謂文件中全部的字符總量，可以一邊讀一邊根據判定條件進行對單詞與詞組的操作，並且可以按照換行符的數量判斷一個文件中的行數，這個可以說是很理想；其次是getline函數，它可以一次讀取一行，這個可以省去單獨統計換行符的工作，每次調用的時候就可以進行行數的累加，然後可以直接用一行一行的處理單詞與詞組，這個可以更加模塊化，但是缺點便是文件中會出現一行中有數十萬的字符，就會使得數組溢出導致失敗；經過考慮，我選擇了getline函數。

然後就是開始對這個項目進行框架的搭建，從字符、單詞到詞組，每一個都單獨進行搭建，互不相關，為了達到這個目的，分別為單詞與詞組設計了各自的哈希表，由於要同時對出現頻率的統計，決定構造一個結構體數組，裏面存儲字符串與整型數據，而數組的地址則用設計的哈希函數進行計算。

代碼實現

1、文件遍歷

利用已經試驗過的findfirst與findnext函數進行操作；

2、文件讀取

先利用ifstream函數打開文件，再利用getline函數對文件內容進行讀取，在文件函數中直接調用字符的函數、單詞的函數、詞組的函數；

3、字符統計

對傳入的字符數組，進行遍歷，並隨之進行數據的統計；

4、單詞統計

對傳入的字符數組進行有條件的遍歷，篩選出符合條件的單詞，調用單詞的哈希表構造函數

（1）單詞哈希表構造

消除大小寫的影響，即在計算哈希函數時使用單詞前四個字母時，全部化為小寫進行求解，利用平方取中法構造哈希函數，利用開放定址發解決沖突，其中需要調用單詞比較函數和單詞優先級比較函數；

1）單詞比較函數

比較新單詞與哈希表中同一位置單詞是否為相同單詞；

2）單詞優先比較函數

比較兩個相同單詞在字典輸出的情況下的先後次序；

5、詞組統計

對傳入的字符數組進行有條件的遍歷，篩選出符合條件的詞組，調用詞組的哈希表構造函數，其中判斷詞組需要大量的判定條件；

（1）詞組哈希表構造

消除大小寫的影響，即在計算哈希函數時使用第一個單詞與第二個單詞各前四個字母時，全部化為小寫進行求解，利用平方取中法構造哈希函數，利用開放定址發解決沖突，其中需要調用詞組比較函數和詞組優先級比較函數；

1）詞組比較函數

比較新詞組與哈希表中同一位置詞組是否為相同單詞；

2）單詞優先比較函數

比較兩個相同詞組在字典輸出的情況下的先後次序；

6、頻率統計

利用冒泡排序法對哈希結構體進行排序，將前十出現頻率的結構體返回主函數

7、文件輸出

利用fp指針；

運行結果：

可能是在哪一個函數的判定條件裏出現的錯誤，產生了死循環，導致無法正常運行。

目前在調試當中，之後還會更新blog。

第一次個人作業工作記錄

txt ros ron .com 第一步文件操作優先行數但是作業要求： 1. 對源文件（*.txt,*.cpp,*.h,*.cs,*.html,*.js,*.java,*.py,*.php等）統計字符數、單詞數、行數、詞頻，統計結果以指定格式輸出到默認文件中

第一次個人作業工作記錄

第一次個人作業工作記錄

軟工第一次個人作業需求分析、模塊規劃與時間規劃

第一次個人作業之詞頻統計

第一次個人作業【四】（代碼編寫、調試、debug相關）

第一次個人作業【六】（Linux性能分析）

第一次個人作業【七】（代碼測試）

第一次個人作業-PB15061305-liuze

第一次個人作業【八】（心得經驗）

第一次互評作業：MIPS匯編程序設計

第0次個人作業

軟工第0次個人作業

軟件工程第0次個人作業

第一次寫作業。一定寫的不好，但我會努力改進。

第一次團隊作業：小盤子的小組初長成

第一次團隊作業

第三次個人作業

SDN第一次上機作業

weekend及反位數（第一次c++作業）

軟件工程（2018）第二次個人作業

C高級第一次PTA作業要求三

第一次個人作業工作記錄

相關推薦