python讀取檔案裡的單詞，統計詞頻，輸出到檔案

阿新 • • 發佈：2019-02-09

(2017-05-15 優化的程式碼）

#!/usr/bin/env python3
#-*- coding:utf-8 -*-
'''
程式用python3執行時，可將當前路徑下的aa.txt檔案讀取後，按空格分割成一系列的單詞，
然後統計這些單詞出現的次數，按頻率從大到小排序後，寫入ar.txt檔案中。
涉及的語法有：
1、中英文混合對齊；
2、collections.Counter；
3、獲取當前路徑、檔案讀寫、路徑與檔名組合、隨機數生成。。。
'''
import os
from random import choice, randint
from collections import Counter
from 
 string import ascii_letters as letters

#假設要讀取檔名為aa，位於當前路徑
filename = 'aa.txt'
dirname = os.getcwd()
fname = os.path.join(dirname, filename)

#註釋掉的程式段，用於測試指令碼，它生成20行資料，每行有1-20隨機個數字，每個數字隨機1-20
#'''
lines = []
for i in range(20): 
    line = []
    for j in range(randint(1,20)): 
        line.append(''.join([choice(letters) for 
 c in range(randint(1, 10))]))  
    lines.append(' '.join(line))
with open(fname, 'w') as f:
    f.write('\n'.join(lines))
#'''
with open(fname) as f: 
    s = f.read()

counter = Counter(s.replace('\n', ' ').split(' '))

# 格式化要輸出的每行資料，首尾各佔8位，中間佔18位
def geshi(a,b,c): 
    return alignment(str(a))+alignment(str(b),18 
)+alignment(str(c))+'\n'    

# 中英文混合對齊 ，參考http://bbs.fishc.com/thread-67465-1-1.html ，二樓
# 漢字與字母 格式化佔位 format對齊出錯 對不齊 漢字對齊數字 漢字對齊字母 中文對齊英文
# alignment函式用於英漢混合對齊、漢字英文對齊、漢英對齊、中英對齊
def alignment(str1, space=8, align = 'left'): 
    length = len(str1.encode('gbk')) 
    space = space - length if space >=length else 0 
    if align in ['left','l','L','Left','LEFT']: 
        return str1 + ' ' * space 
    elif align in ['right','r','R','Right','RIGHT']: 
        return ' '* space + str1 
    elif align in ['center','c','C','Center','CENTER','centre']: 
        return ' ' * (space // 2) + str1 + ' ' * (space - space // 2) 
    return 'Unknow align format'

title = geshi('序號', '詞', '頻率')
results = []
#要輸出的資料，每一行由：序號(佔8位)詞(佔20位)頻率(佔8位)+'\n'構成，序號=List.index(element)+1
for i, (w, c) in enumerate(counter.most_common(), 1): 
    results.append(geshi(i,w,c))    

#將統計結果寫入檔案ar.txt中
writefile = 'ar.txt'
wpath = os.path.join(dirname, writefile)
with open(wpath, 'w') as f: 
    f.write(''.join([title]+results))

(2016-11-03 寫的程式碼）

#!/usr/bin/env python3
#-*- coding:utf-8 -*-
'''
程式用python3執行時，可將當前路徑下的aa.txt檔案讀取後，按空格分割成一系列的單詞，
然後統計這些單詞出現的次數，按頻率從大到小排序後，寫入ar.txt檔案中。
涉及的語法有：
1、中英文混合對齊；
2、list高階排序，一組升，一組降；
3、獲取當前路徑、檔案讀寫、路徑與檔名組合、隨機數生成。。。
'''
import os,random

#假設要讀取檔名為aa，位於當前路徑
filename='aa.txt'
dirname=os.getcwd()
f_n=os.path.join(dirname,filename)

#註釋掉的程式段，用於測試指令碼，它生成20行資料，每行有1-20隨機個數字，每個數字隨機1-20
'''
test=''
for i in range(20): 
    for j in range(random.randint(1,20)): 
        test+=str(random.randint(1,20))+' ' 
        test+='\n'
with open(f_n,'w') as wf:
    wf.write(test)
'''
with open(f_n) as f: 
    s=f.readlines()

# 將每一行資料去掉首尾的空格和換行符，然後用空格分割，再組成一維列表
words=[]
for line in s: 
    words.extend(line.strip().split(' '))   

# 格式化要輸出的每行資料，首尾各佔8位，中間佔18位
def geshi(a,b,c): 
    return alignment(str(a))+alignment(str(b),18)+alignment(str(c))+'\n'    

# 中英文混合對齊 ，參考http://bbs.fishc.com/thread-67465-1-1.html ，二樓
# 漢字與字母 格式化佔位 format對齊出錯 對不齊 漢字對齊數字 漢字對齊字母 中文對齊英文
# alignment函式用於英漢混合對齊、漢字英文對齊、漢英對齊、中英對齊
def alignment(str1, space=8, align = 'left'): 
    length = len(str1.encode('gb2312')) 
    space = space - length if space >=length else 0 
    if align in ['left','l','L','Left','LEFT']: 
        str1 = str1 + ' ' * space 
    elif align in ['right','r','R','Right','RIGHT']: 
        str1 = ' '* space +str1 
    elif align in ['center','c','C','Center','CENTER','centre']: 
        str1 = ' ' * (space //2) +str1 + ' '* (space - space // 2) 
    return str1

w_s=geshi('序號','詞','頻率')

#由(詞,頻率)元組構成列表，先按頻率降序排序，再按詞升序排序，多級排序，一組升，一組降，高階sorted
wordcount=sorted([(w,words.count(w)) for w in set(words)],key=lambda l:(-l[1],l[0]))

#要輸出的資料，每一行由：序號(佔8位)詞(佔20位)頻率(佔8位)+'\n'構成，序號=List.index(element)+1
for (w,c) in wordcount: 
    w_s+=geshi(wordcount.index((w,c))+1,w,c)    

#將統計結果寫入檔案ar.txt中
writefile='ar.txt'
w_n=os.path.join(dirname,writefile)
with open(w_n,'w') as wf: 
    wf.write(w_s)

python讀取檔案裡的單詞，統計詞頻，輸出到檔案

(2017-05-15 優化的程式碼） #!/usr/bin/env python3 #-*- coding:utf-8 -*- ''' 程式用python3執行時，可將當前路徑下的aa.txt檔案

語料中篩選出英文單詞並統計詞頻，正則切割匹配

1.正則的使用匹配2.dic.setdefault()的使用3、內建函式enumerate(sequence,start=0)的使用4、內建函式sorted(),key,reversed引數設定5、str.lower()string大小寫轉換#coding:utf-8 im

Java正則表示式過濾、替換，將一段文字中的英語單詞分別提取出，並統計詞頻，按詞頻排序。

最近在學習自然語言處理，在建立基礎標籤庫時，遇到一個需要提取語料中的英文單詞的工作，做好了現在來和大家分享下。實現效果：讀取檔案內容，把其中的英文單詞提取出，並統計詞頻。提取時，原本不是連在一起的單詞可以分開獨立提取，例如：我的PPT和WORD,可以提取出PPT，WORD兩個單詞。基本思

python讀取excel中表結構生成sql語句，存入txt檔案

python-excel-sql-txt#coding=utf-8 from openpyxl import load_workbook #讀取excel的資料 def read_excel(): #開啟一個workbook wb = load_workboo

HTML檔案裡把所有的css、js檔案引入後，其他的HTML檔案引入該頁面後，可以使用該頁面引入的css和js

怎樣將一個HTML檔案裡把所有的css、js檔案引入後,然後其他的HTML檔案就不需要在進行引入了 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"

python讀取兩個csv文件數據，進行查找匹配出現次數

def port utf-8 true csv enc pen qrc closed 現有需求表1 表2 需要拿表1中的編碼去表2中的門票編碼列匹配，統計出現的次數,由於表2編碼列是區域間，而且列不是固定的，代碼如下 #encoding:utf-8 #

python讀取sql裡面的指定資料列，並將其轉換成列表使用

程式碼如下： import pyodbc import pandas as pd import numpy as np conn = pyodbc.connect(r'DRIVER={SQL Server Native Client 10.0};SERVER=.;DATABASE=資料庫名字

python jieba分詞(結巴分詞)、提取詞，載入詞，修改詞頻，定義詞庫

轉載請註明出處歡迎加入Python快速進階QQ群：867300100 “結巴”中文分詞：做最好的 Python 中文分片語件,分詞模組jieba，它是python比較好用的分詞模組, 支援中文簡體，繁體分詞，還支援自定義詞庫。 jieba的分詞，提取關鍵詞，

PL/sql Developer 卡死後 sql檔案裡的語句沒了，如何找回原來的內容？

在用PL/sql Developer 執行sql語句時，突然卡死了，應用程式未響應，本來打開了幾個sql檔案，有一個檔案cc_select還沒來得及將剛更改的東西儲存下來，這個檔案裡面有好多sql

python讀取xml資料庫中表內所有資料，獲取資料庫中所有表的欄位名稱

工作中需要讀取指定xml資料庫中的資料以及表所需欄位名，所以在已有例子中改進實現： xml 資料庫 xmldabase.xml： <database> <manifest> <pair key="schema_major_vsn" v

python jieba分詞並統計詞頻後輸出結果到Excel和txt文件

前兩天，班上同學寫論文，需要將很多篇論文題目按照中文的習慣分詞並統計每個詞出現的頻率。讓我幫她實現這個功能，我在網上查了之後發現jieba這個庫還挺不錯的。執行環境：具體程式碼如下： #!/usr/bin/python # -*- coding:utf-8

Python 讀取指定目錄下的所有子目錄及所有檔案

掃描指定目錄下的檔案，或者匹配指定字尾和字首的檔案。如果要掃描指定目錄下的檔案，包括子目錄，呼叫scan_files("/export/home/test/") 如果要掃描指定目錄下的特定字尾的檔案（比如jar包），包括子目錄，呼叫scan_files("/export

nginx配置檔案裡user只能是root，否則報403錯誤

yum 一個全新的nginx，版本是1.12.2的直接啟動，瀏覽器輸入localhost訪問的nginx頁面 1、當我將nginx.conf配置檔案裡root 路徑改成/root/html/index.html #mkdir /root/html #echo hel

log4j2 動態生成logger，每個logger一個輸出檔案

maven依賴 <dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-core</artifac

Redis incr實現原子自增，統計數量，執行緒安全

Redis Incr 命令將 key 中儲存的數字值增一。如果 key 不存在，那麼 key 的值會先被初始化為 0 ，然後再執行 INCR 操作。如果值包含錯誤的型別，或字串型別的值不能表示為數字，那麼返回一個錯誤。本操作的值限制在 64 位(bi

【C語言】在全系1000個學生中，徵集慈善捐款當總數達到10萬的時候，停止捐款，統計人數，並輸出平均捐款數

//在全系1000個學生中，徵集慈善捐款當總數達到10萬的時候，停止捐款，統計人數，並輸出平均捐款數 #include <stdio.h> int main() { float sum=

python實現讀取檔案英文詞頻統計並寫入到檔案

# _*_ coding: utf-8 _*_ # 作者：dcjmessi import os from collections import Counter # 假設要讀取檔名為read，位於當前路徑 filename = 'read.txt' # 當前程

如何用Python實現任一個英文的純文字檔案，統計其中的單詞出現的個數？

import re file_name = 'test.txt' lines_count = 0 words_count = 0 chars_count = 0 words_dict = {}

python 任意一個英文的純文字檔案，統計其中的單詞出現的個數

Python 練習冊，每天一個小程式第 0004 題：任一個英文的純文字檔案，統計其中的單詞出現的個數。程式碼如下： # encoding: utf-8 import collect

做一個詞頻統計程式，該程式具有以下功能基本要求：（1）可匯入任意英文文字檔案（2）統計該英文檔案中單詞數和各單詞出現的頻率（次數），並能將單詞按字典順序輸出。（3）將單詞及頻率寫入檔案。

import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileReader; import java.io.FileWriter; import java.io.IOExcep

python讀取檔案裡的單詞，統計詞頻，輸出到檔案

相關推薦