1. 程式人生 > >利用Python的 counter內置函數,統計文本中的單詞數量

利用Python的 counter內置函數,統計文本中的單詞數量

str 集合 地址 class 元組 正數 順序 set 而不是

counter是 colletions內的一個類

可以理解為一個簡單的計數器,可以統計字符出現的個數,例子如下

import collections
str1=[a,a,b,d]
m=collections.Counter(str1)
print(m)

str2=[,,,]
m1=collections.Counter(str2)
print(m1)

輸出:

Counter({‘a‘: 2, ‘b‘: 1, ‘d‘: 1})
Counter({‘你‘: 3, ‘好‘: 1})

這樣結合文本的讀取就可以輕松的統計文本中字符的個數。

接下來詳細介紹一下

通過學習博客:pythoner 地址:http://www.pythoner.com/205.html

collections模塊

此模塊 包含了 除了dict,set,list,tuple以外的 Python中的一些特殊容器

  • OrderedDict類:排序字典,是字典的子類。引入自2.7。
  • namedtuple()函數:命名元組,是一個工廠函數。引入自2.6。
  • Counter類:為hashable對象計數,是字典的子類。引入自2.7。
  • deque:雙向隊列。引入自2.4。
  • defaultdict:使用工廠函數創建字典,使不用考慮缺失的字典鍵。引入自2.5。

counter類

Counter類的目的是用來跟蹤值出現的次數。

它是一個無序的容器類型,以字典的鍵值對形式存儲,其中元素作為key,其計數作為value。計數值可以是任意的Interger(包括0和負數)。

首先是四個創建方法

>>> c = Counter()  # 創建一個空的Counter類
>>> c = Counter(adasdasd)  # 從一個可iterable對象(list、tuple、dict、字符串等)創建
>>> c = Counter({a: 4, b: 2})  # 從一個字典對象創建
>>> c = Counter(a=4, b=2)  #
從一組鍵值對創建

當所訪問的鍵不存在時,返回0,而不是KeyError;否則返回它的計數。

>>> c = Counter("abcdefgab")
>>> c["a"]
2
>>> c["c"]
1
>>> c["h"]
0

2.3 計數器的更新(update和subtract)

可以使用一個iterable對象或者另一個Counter對象來更新鍵值。

計數器的更新包括增加和減少兩種。其中,增加使用update()方法:

>>> c = Counter(which)
>>> c.update(witch)  # 使用另一個iterable對象更新
>>> c[h]
3
>>> d = Counter(watch)
>>> c.update(d)  # 使用另一個Counter對象更新
>>> c[h]
4

減少則使用subtract()方法:

>>> c = Counter(which)
>>> c.subtract(witch)  # 使用另一個iterable對象更新
>>> c[h]
1
>>> d = Counter(watch)
>>> c.subtract(d)  # 使用另一個Counter對象更新
>>> c[a]
-1

2.4 鍵的刪除

當計數值為0時,並不意味著元素被刪除,刪除元素應當使用del

>>> c = Counter("abcdcba")
>>> c
Counter({a: 2, c: 2, b: 2, d: 1})
>>> c["b"] = 0
>>> c
Counter({a: 2, c: 2, d: 1, b: 0})
>>> del c["a"]
>>> c
Counter({c: 2, b: 2, d: 1})

2.5 elements()

返回一個叠代器。元素被重復了多少次,在該叠代器中就包含多少個該元素。元素排列無確定順序,個數小於1的元素不被包含。

>>> c = Counter(a=4, b=2, c=0, d=-2)
>>> list(c.elements())
[a, a, a, a, b, b]

2.6 most_common([n])

返回一個TopN列表。如果n沒有被指定,則返回所有元素。當多個元素計數值相同時,排列是無確定順序的。

>>> c = Counter(abracadabra)
>>> c.most_common()
[(a, 5), (r, 2), (b, 2), (c, 1), (d, 1)]
>>> c.most_common(3)
[(a, 5), (r, 2), (b, 2)]

2.8 淺拷貝copy

>>> c = Counter("abcdcba")
>>> c
Counter({a: 2, c: 2, b: 2, d: 1})
>>> d = c.copy()
>>> d
Counter({a: 2, c: 2, b: 2, d: 1})

2.9 算術和集合操作

>>> c = Counter(a=3, b=1)
>>> d = Counter(a=1, b=2)
>>> c + d  # c[x] + d[x]
Counter({a: 4, b: 3})
>>> c - d  # subtract(只保留正數計數的元素)
Counter({a: 2})
>>> c & d  # 交集:  min(c[x], d[x])
Counter({a: 1, b: 1})
>>> c | d  # 並集:  max(c[x], d[x])
Counter({a: 3, b: 2})

利用Python的 counter內置函數,統計文本中的單詞數量