利用Python的 counter內置函數,統計文本中的單詞數量
阿新 • • 發佈:2017-10-13
str 集合 地址 class 元組 正數 順序 set 而不是
counter是 colletions內的一個類
可以理解為一個簡單的計數器,可以統計字符出現的個數,例子如下
import collections str1=[‘a‘,‘a‘,‘b‘,‘d‘] m=collections.Counter(str1) print(m) str2=[‘你‘,‘好‘,‘你‘,‘你‘] m1=collections.Counter(str2) print(m1)
輸出:
Counter({‘a‘: 2, ‘b‘: 1, ‘d‘: 1})
Counter({‘你‘: 3, ‘好‘: 1})
這樣結合文本的讀取就可以輕松的統計文本中字符的個數。
接下來詳細介紹一下
通過學習博客:pythoner 地址:http://www.pythoner.com/205.html
collections模塊
此模塊 包含了 除了dict,set,list,tuple以外的 Python中的一些特殊容器
- OrderedDict類:排序字典,是字典的子類。引入自2.7。
- namedtuple()函數:命名元組,是一個工廠函數。引入自2.6。
- Counter類:為hashable對象計數,是字典的子類。引入自2.7。
- deque:雙向隊列。引入自2.4。
- defaultdict:使用工廠函數創建字典,使不用考慮缺失的字典鍵。引入自2.5。
counter類
Counter類的目的是用來跟蹤值出現的次數。
它是一個無序的容器類型,以字典的鍵值對形式存儲,其中元素作為key,其計數作為value。計數值可以是任意的Interger(包括0和負數)。
首先是四個創建方法
>>> c = Counter() # 創建一個空的Counter類 >>> c = Counter(‘adasdasd‘) # 從一個可iterable對象(list、tuple、dict、字符串等)創建 >>> c = Counter({‘a‘: 4, ‘b‘: 2}) # 從一個字典對象創建 >>> c = Counter(a=4, b=2) #從一組鍵值對創建
當所訪問的鍵不存在時,返回0,而不是KeyError;否則返回它的計數。
>>> c = Counter("abcdefgab") >>> c["a"] 2 >>> c["c"] 1 >>> c["h"] 0
2.3 計數器的更新(update和subtract)
可以使用一個iterable對象或者另一個Counter對象來更新鍵值。
計數器的更新包括增加和減少兩種。其中,增加使用update()方法:
>>> c = Counter(‘which‘) >>> c.update(‘witch‘) # 使用另一個iterable對象更新 >>> c[‘h‘] 3 >>> d = Counter(‘watch‘) >>> c.update(d) # 使用另一個Counter對象更新 >>> c[‘h‘] 4
減少則使用subtract()方法:
>>> c = Counter(‘which‘) >>> c.subtract(‘witch‘) # 使用另一個iterable對象更新 >>> c[‘h‘] 1 >>> d = Counter(‘watch‘) >>> c.subtract(d) # 使用另一個Counter對象更新 >>> c[‘a‘] -1
2.4 鍵的刪除
當計數值為0時,並不意味著元素被刪除,刪除元素應當使用del
。
>>> c = Counter("abcdcba") >>> c Counter({‘a‘: 2, ‘c‘: 2, ‘b‘: 2, ‘d‘: 1}) >>> c["b"] = 0 >>> c Counter({‘a‘: 2, ‘c‘: 2, ‘d‘: 1, ‘b‘: 0}) >>> del c["a"] >>> c Counter({‘c‘: 2, ‘b‘: 2, ‘d‘: 1})
2.5 elements()
返回一個叠代器。元素被重復了多少次,在該叠代器中就包含多少個該元素。元素排列無確定順序,個數小於1的元素不被包含。
>>> c = Counter(a=4, b=2, c=0, d=-2) >>> list(c.elements()) [‘a‘, ‘a‘, ‘a‘, ‘a‘, ‘b‘, ‘b‘]
2.6 most_common([n])
返回一個TopN列表。如果n沒有被指定,則返回所有元素。當多個元素計數值相同時,排列是無確定順序的。
>>> c = Counter(‘abracadabra‘) >>> c.most_common() [(‘a‘, 5), (‘r‘, 2), (‘b‘, 2), (‘c‘, 1), (‘d‘, 1)] >>> c.most_common(3) [(‘a‘, 5), (‘r‘, 2), (‘b‘, 2)]
2.8 淺拷貝copy
>>> c = Counter("abcdcba") >>> c Counter({‘a‘: 2, ‘c‘: 2, ‘b‘: 2, ‘d‘: 1}) >>> d = c.copy() >>> d Counter({‘a‘: 2, ‘c‘: 2, ‘b‘: 2, ‘d‘: 1})
2.9 算術和集合操作
>>> c = Counter(a=3, b=1) >>> d = Counter(a=1, b=2) >>> c + d # c[x] + d[x] Counter({‘a‘: 4, ‘b‘: 3}) >>> c - d # subtract(只保留正數計數的元素) Counter({‘a‘: 2}) >>> c & d # 交集: min(c[x], d[x]) Counter({‘a‘: 1, ‘b‘: 1}) >>> c | d # 並集: max(c[x], d[x]) Counter({‘a‘: 3, ‘b‘: 2})
利用Python的 counter內置函數,統計文本中的單詞數量