Python程式設計入門-第11章案例研究：文字統計

阿新 • • 發佈：2019-02-10

第11章案例研究：文字統計

計算並列印有關文字檔案內容的統計資料：包含多少個字元、行和單詞，以及出現最多的10個單詞，並依此排列出。

#先定義一個規整文字字元的函式
def normalize(s):
    keep={'a','b','c','d','e','f','g','h','i','j','k','l',
          'm','n','o','p','q','r','s','t','u','v','w','x',
          'y','z',' ','-',"'"}
    result=""
    for c in s.lower():
        if 
 c in keep:
            result+=c
    return result

#接受一個字串s並生成一個字典，該字典的鍵為s中的單詞，值為對應單詞出現的次數
def make_freq_dict(s):
    s=normalize(s)
    words=s.split()
    d={}
    for w in words:
        if w in d:
            d[w]+=1
        else:
            d[w]=1
    return d

def print_file_stats(fname):
    s=open(fname,'r' 
).read()
    #在規整字串前先統計字元數量
    num_chars=len(s)
    #在規整字串前先統計行數
    num_lines=s.count('\n')

    d=make_freq_dict(s)
    #統計單詞數量
    num_words=sum(d[w] for w in d)

    #建立一個列表，元素為單詞及對應出現次陣列成的元組
    lst=[(d[w],w) for w in d]
    lst.sort()
    lst.reverse()
    num_words0=len(normalize(s).split())



    print("The file '%s' has: " 
% fname)
    print("%s characters"% num_chars)
    print("%s lines"% num_lines)
    print("%s words"% num_words)
    print("%s words"% num_words0)
    print("\nThe top 10 most frequent words are:")
    i=1
    for count,word in lst[:10]:
        print("%2d. %2s %s"%(i,count,word))
        i+=1

print_file_stats("3.txt")

練習：
1、修改函式printfilestats,使其也列印檔案中不同單詞總數。

#這裡只需要通過求字典長度即可得知不同單詞總數
print("There are %s different words."% len(d))

2、修改函式printfilestats,使其也列印檔案中單詞平均長度。

#計算單詞平均長度
    m=0
    for w in d:
        m+=len(w)*d[w]
    average_length=m/num_words

3、罕用語是指檔案中只出現過一次的單詞，修改函式，列印罕用語總數。

#計算罕用語數量
    n=0
    for w in d:
        if d[w]==1:
            n+=1

4、一般文章裡出現頻率較高的都是如the、a、and這些功能詞。可以建立一個排除詞集合（stop_words），可以在其中設定單詞。並在統計資料時，將該集合內的單詞排除在外。

#建立一個排除詞集合
stop_words={"the","a","i","of","is","in"}
#接受一個字串s並生成一個字典，該字典的鍵為s中的單詞，並且不在排除集合中
#值為對應單詞出現的次數
def make_freq_dict1(s):
    d0=make_freq_dict(s)
    d={}
    for w in d0:
        if w in stop_words:
            continue
        else:
            e={w:d0[w]}
            d.update(e)
    return d

5、函式printfilestats將一個檔名作為輸入，並且將整個檔案讀入字串中，當檔案非常大時，會佔用大量記憶體資源。請編寫一個新的函式，逐行讀取輸入檔案。

#先定義一個規整文字字元的函式
def normalize(s):
    keep={'a','b','c','d','e','f','g','h','i','j','k','l',
          'm','n','o','p','q','r','s','t','u','v','w','x',
          'y','z',' ','-',"'"}
    result=""
    for c in s.lower():
        if c in keep:
            result+=c
    return result

#採用逐行讀取的方式統計
def print_file_stats(fname):
    f=open(fname,'r')
    #先定義並初始化統計資料
    num_chars=0
    num_words=0
    num_lines=0

    #逐行統計
    for line in f:
        num_chars+=len(line)
        num_words+=len(normalize(line).split())
        d=make_freq_dict(line,d)
        num_lines+=1

    print("The file '%s' has: "% fname)
    print("%s characters"% num_chars)
    print("%s lines"% num_lines)
    print("%s words"% num_words)
print_file_stats("3.txt")

Python程式設計入門-第11章案例研究：文字統計

第11章案例研究：文字統計計算並列印有關文字檔案內容的統計資料：包含多少個字元、行和單詞，以及出現最多的10個單詞，並依此排列出。 #先定義一個規整文字字元的函式 def normalize(s): keep={'a','b','c','d

Python程式設計入門-第八章輸入和輸出 -學習筆記

第8章輸入和輸出一、設定字串格式對於之前學習的print()\input()這些函式是針對基本的控制檯I/O。 1、字串插入字串插入是一種設定字串格式的簡單方法，總是採用如下格式： format % values 其中format是包含一個或

【練習題】第九章--案例學習：單詞遊戲（Think Python）

在此強調一點： for i in range(1,5): print(i) answer： 1 2 3 4 for i in range(5): print(i) answer： 0 1 2 3 4

Python演算法入門——第2章 1，佇列

有一串經過加密的數字需要解密。解密規則是這樣的：首先將第 1 個數刪除，緊接著將第 2 個數放到這串數的末尾，再將第 3 個數刪除並將第 4 個數放到這串數的末尾，再將第 5 個數刪除……直到剩下最後一個數，將最後一個數也刪除。 class Solution(): '''

Python演算法入門——第1章 2，氣泡排序

上一篇文章已經說過，桶排序會極大地浪費資源，因此需要用一種更簡單的排序方式來完成：氣泡排序。其原理是1.從第一個數字開始，與第二個數進行比較，如果小於第二個數（按從大到小排序），則將其交換數值；2.接著，第二個數與第三個數比較，重複此步驟，直至完成與最後一個數的比較。這樣，第一個數就到了它應該呆的地

Python演算法入門——第1章 1，桶排序

假如你有7個數需要排序，最大的數為100，那麼你就需要101個桶，桶的編號為0-100。你的數列中的數是多少，就往對應的桶裡面加一，最後按照順序列印桶的編號即可。但此排序方式浪費資源極大，資料量大的時候不建議使用，本文只是介紹最基本的演算法實現原理，作為入門使用。 class Solution(

Python演算法入門——第1章 1，桶排序

假如你有7個數需要排序，最大的數為100，那麼你就需要101個桶，桶的編號為0-100。你的數列中的數是多少，就往對應的桶裡面加一，最後按照順序列印桶的編號即可。但此排序方式浪費資源極大，資料量大的時候不建議使用，本文只是介紹最基本的演算法實現原理，作為入門使用。 clas

Python程式設計入門——第五週作業

這裡記錄在網易雲課堂上的課後作業，Python環境為2.7，如果您有更好的演算法還望斧正！ 1.題目內容： “Pig Latin”是一個英語兒童文字改寫遊戲，整個遊戲遵從下述規則： (1). 母音字母是‘a’、‘e’、‘i’、‘o’、‘u’。字母‘y’在不是第一個字母的

《Python程式設計》第九章部分課後練習題

#9-4 就餐人數：程式碼：# 9-4 就餐人數 class Restaurant(): """define one restaurant class""" def __init__(self, name, cuisine_type): self.restau

Python演算法入門——第3章 3.2 快速排序

所謂快速排序，顧名思義，就是一種速度較快的排序方法，是一種常用的排序演算法。快速排序基於 D&C 策略（分而治之）即不斷把問題細分、化整為零從而把難以處理的大問題變成小問題來處理。一個非常經典的案例就是秦國一統六國，採用遠交近攻分而治之的策略。當你不能把眼前的問題解決

第11章拾遺4：IPv6和IPv4共存技術（1）_雙棧技術和6to4隧道技術

說明 images 測試結果 ges conf alt style dns服務數據 6. IPv6和IPv4共存技術 6.1 雙棧技術（1）雙協議主機的協議結構（2）雙協議棧示意圖　　①雙協議主機在通信時首先通過支持雙協議的DNS服務器查詢與目的主機名對應的

第11章拾遺5：IPv6和IPv4共存技術（3）_NAT-PT技術【全書完】

cas 不知道路由共存同時種類型並且修改添加 6.4 NAT-PT （1）NAT-PT和NAT的差別　　①NAT-PT（附帶協議轉換的網絡地址轉換）技術秉承NAT技術的思想，但在原理方面大有不同。　　②NAT-PT和NAT本質的區別在於應用場合的不同。

第11章拾遺4：IPv6（3）_配置IPv6路由

5. 配置IPv6路由 5.1 配置IPv6靜態路由（1）在路由器上配置靜態路由（以R1路由器為例） //靜態路由 R1#config t R1(config)#ipv6 unicast-routing //啟用IPv6路由功能 R1(config)#ipv6 route

第11章拾遺4：IPv6（2）_給計算機配置IPv6地址

4. 給計算機配置IPv6地址 4.1 無狀態自動配置IPv6地址（1）網路拓撲　　①無狀態地址自動配置是指不需要DHCP伺服器進行管理，由客戶端向路由器傳送字首請求（RS）詢問其所在網段。路由器收到RS後，會發送字首公告訊息（RA），客戶端根據網路RA並自己的MAC地址計算出

第11章拾遺5：IPv6和IPv4共存技術（2）_ISATAP隧道技術

6.3 ISATAP隧道技術（1）基本概念　　①在一個IPv4網路中主機與路由器之間建立一條ISATAP隧道，以便讓該主機可以訪問IPv6網路中的資源。　　②條件：IPv4中的PC主機需要支援IPv4和IPv6雙棧協議，然後需要一臺支援ISATAP的路由器。該路由器可以在網路

第11章拾遺5：IPv6和IPv4共存技術（1）_雙棧技術和6to4隧道技術

6. IPv6和IPv4共存技術 6.1 雙棧技術（1）雙協議主機的協議結構（2）雙協議棧示意圖　　①雙協議主機在通訊時首先通過支援雙協議的DNS伺服器查詢與目的主機名對應的IP地址。　　②再根據指定的IPv6或IPv4地址開始通訊。　　③Win2008

第11章拾遺4：IPv6（1）_報文格式和地址型別

1. IPv4和IPv6協議棧的比較（1）IPv6取代IPv4，支援IPv6的動態路由協議都屬於IPv6協議（如RIPng、OSPFv3）。（2）Internet控制訊息協議IPv6版（ICMPv6）取代ICMP，它報告錯誤和其他資訊以幫助你診斷不成功的資料包傳送。其主要功能有鄰居

第11章拾遺3：虛擬區域網(VLAN)

1. 虛擬區域網(VLAN) （1）VLAN是建立在物理網路基礎上的一種邏輯子網，它將把一個LAN劃分成多個邏輯的區域網（VLAN），每個VLAN是一個廣播域，VLAN內的主機間通訊就和在一個LAN內一樣，而VLAN之間不能直接互通。（2）VLAN是一種將局域裝置從邏輯上劃分成一個個網段，

第11章拾遺1：網路地址轉換(NAT)和埠對映

1. 網路地址轉換(NAT) 1.1 NAT的應用場景（1）應用場景：允許將私有IP地址對映到公網地址，以減緩IP地址空間的消耗　　①需要連線Internet，但主機沒有公網IP地址　　②更換了一個新的ISP，需要重新組織網路時，可使用NAT轉換　　③需要合

《Python程式設計：從入門到實踐》第11章-測試程式碼習題

文章目錄 11-1 城市和國家 11-2 人口數量注意： 11-3 僱員 11-1 城市和國家編寫一個函式，它接受兩個形參：一個城市名一個國家名。這個函式

Python程式設計入門-第11章 案例研究：文字統計

相關推薦

Python程式設計入門-第11章案例研究：文字統計