利用位運算統計文字文件中的漢字字數

阿新 • • 發佈：2018-11-10

在做C++教材練習題時，其中一題要求統計文字文件中的漢字個數，當我直接按char ch做的時候，發現統計出的字數和文字文件的位元組數相同。why?
也就是說，常規方法下統計的實際不是文字文件中的字元個數，而是這些字元的位元組和。
下面是我原先的程式碼：

#include <iostream>
#include <strstream>
#include <fstream>
#include <io.h>
#include <string.h>

using namespace std;

int FrequencyCounts(char 
 *);

int main()
{
    long handle;
    struct _finddata_t info;
    handle = _findfirst("*.txt", &info);
    if (handle == -1)
        return 0;
    int count[3];
    int i = 0;
    do
    {
        count[i] = FrequencyCounts(info.name);
        ++i;
    } while (_findnext(handle, &info) == 0);
    char 
 output_name[100];
    strcpy(output_name, "多個檔案漢字字頻統計結果.txt");
    ofstream out;
    out.open(output_name, ios::app);
    if (!out)
    {
        cout << "Can't open the file!" << output_name << endl;
        exit(0);
    }
    for (i = 0; i < 3; ++i)
    {
        out << "test" 
 << i+1 << ".txt" << "中共有" << count[i] << "個字" << endl;
    }
    out.close();

    cout << "統計完畢" << endl;

    return 0;
}

int FrequencyCounts(char *a)
{
    ifstream in(a);
    if (!in)
    {
        cout << "Can't open the file!" << a << endl;
        exit(0);
    }
    char ch;
    int count = 0;
    while (in.get(ch))
    {
        count++;
    }
    in.close();

    return count;
}

最後如何改正呢？參考https://blog.csdn.net/bufanq/article/details/51034156的文章，
改為：

    while (in.get(ch))
    {
        if((ch & 0x80) == 0x80)
            count++;
    }

僅此記錄。

利用位運算統計文字文件中的漢字字數

在做C++教材練習題時，其中一題要求統計文字文件中的漢字個數，當我直接按char ch做的時候，發現統計出的字數和文字文件的位元組數相同。why? 也就是說，常規方法下統計的實際不是文字文件中的字元個數，而是這些字元的位元組和。下面是我原先的程式碼： #include <io

Java學習（4）：統計一個文件中的英文，中文，數字，其他字符以及字符總數

port let args str reader 文件路徑要求 cnblogs pub 要求：統計一個文件中的英文，中文，數字，其他字符以及字符總數（此隨筆以txt文件為例） import java.io.BufferedReader; import java.io.F

Java 寫一段字元到指定的文字文件中，如果該文字文件不存在，則建立該文字文件

寫一段字元到指定的文字文件中，如果該文字文件不存在，則建立該文字文件 1 import java.io.File; 2 import java.io.FileNotFoundException; 3 import java.io.FileOutputStream; 4 import java.

輸入學生的姓名，語文成績，數學成績，英語成績，按照成績進行排序，並放到文字文件中

鍵盤錄入學生資訊（姓名，語文成績，數學成績，英語成績），按照分數從高到低進行排序。如果總分相等，按照語文成績進行排序；如果語文成績相等，按照數學成績進行排序；如果數學成績相等，按照英語成績進行排序。分析：建立學生類建立集合物件 TreeSet<Student

MATLAB中將資料寫入TXT文字文件中

matalb中開啟檔案： fid = fopen(檔名，‘開啟方式’)；說明：fid用於儲存檔案控制代碼值，如果fid>0，這說明檔案開啟成功。開啟方式有如下選擇： ‘r’：只讀方式開啟檔案（預設的方式），該檔案必須已存在。 ‘r+’：讀寫方式開啟檔案，開啟後

2017.8.19 利用python統計文件中的單詞數，行數和字元數

file_name='a.txt' line_count=0 word_count=0 character_count=0 with open(file_name,'r',encoding='utf-

統計字符串在文件中出現的次數

shell統計a出現的次數[[email protected]/* */ ~]# cat aa.txtsdkasdasasdkasdaajdksaaksldjkalsdaskdlaskdasdjjaskjdasdaskdasdkaslkdasdkalskdjaskdljalskdkalsjdkla

linux-統計文件中相同行的數量

bsp linux tro nbsp strong images src 統計文件 png cat sorttest | sort | uniq -c sorttest文件內容如下 linux-統計文件中相同行的數量

python3 簡單實現從csv文件中讀取內容，並對內容進行分類統計

tmp spa writer ict 打開文件 while 類型 spl blog 新手python剛剛上路，在實際工作中遇到如題所示的問題，嘗試使用python3簡單實現如下，歡迎高手前來優化import csv #打開文件，用with打開可以不用去特意關閉file了

awk命令之 - 統計/etc/passwd文件中各用戶所使用的shell類型及出現次數

linux 命令 awk 統計/etc/passwd文件中各用戶所使用的shell類型及出現次數awk -F: ‘BEGIN{printf"%-15s\t%s\n","ShellType","Count"}{shellType[$NF]++}END{for(i in shellType)print

在32位PE文件中的任意一個節中添加代碼

for 特定 fine lib demo 控制 num fun tar // SectionOp.cpp : 定義控制臺應用程序的入口點。 // /************************************************ *程序說明：在32位PE文

Visual Studio中根據系統區分引用64位、32位DLL動態庫文件的配置方法

問題 eight 找到下拉 float c# more 遇到語法原來使用Win7的32位系統，進行C#工程的開發，後來重裝系統，換成了win7的64位系統調試原來的工程，由於在其中引用了“SQLite”的32位的dll，導致在64為位下程序無法運行（但是編譯可以通

使用tuple統計文件中單詞的個數

dict sort txt () col div pri 文件中 turn 1 name = input("Enter file:") 2 if len(name) < 1 : name = "input.txt" 3 fhand = open(name)

python中利用pandas讀寫csv文件

and clas byte test pytho csv文件 err 文件 blog 問題1：錯誤提示：UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xb8 原因：含有中文字符 import pandas pa

利用fgetc合並2個源文件的內容，到一個新的文件中

brush printf fp3 post stdio.h 2個 turn int argv #include <stdio.h> #include <stdlib.h> //功能：合並2個源文件的內容，到一個新的文件中 int main(int

2018-08-05 期 MapReduce實現每個單詞在每個文件中坐標信息統計

line 字符 count throws ase protect clas 行處理 tostring package cn.sjq.bigdata.inverted.index;import java.io.IOException;import java.util.Iter

請大神指導從大日誌文件中統計關鍵字次數的辦法

行數據文本一次 next 自己 end 不知道 lock printf awk ‘NR==FNR{a[$0]=1;next}{if($0 in a)b[$0]++}END{for (i in b)print i,b[i]}‘ filea fileb | sort 文件

日誌監控文件中獲取ip，每一分鐘統計一次，超過200次的計入黑名單

utf-8 spl color bsp 死循環 odin 分割名單 true 一、日誌文件access.log #1、要從日誌裏面找到1分鐘之內訪問超過200次的 #2、每分鐘都運行一次 #1、讀取文件內容，獲取到ip地址 #2、把每個ip地址存起來｛｝ #3、判斷i

單詞統計：對程序設計語言源文件統計字符數、單詞數、行數，統計結果以指定格式輸出到默認文件中

let 單詞百度 cli info class bsp push lan 　項目地址：https://gitee.com/loyal888/WordCount 一.工具篇 1.1 IDEA+gitee+git　方便push和增加開發效率，自從用了idea

基於C實現Word Count 將字符數、單詞數、行數，統計結果以指定格式輸出到默認文件中

計算具體實現 post 及其 sp2 註釋程序設計 cnblogs 基本基於C實現Word Count ---系統分析與設計課程個人項目作業 1. 項目地址： [gitee地址] (https://gitee.com/little-baby/WordCount-by-

利用位運算統計文字文件中的漢字字數

相關推薦