Python數據挖掘-詞頻統計-實現

阿新 • • 發佈：2018-10-02

pytho row str dict err 金庸 nump 由於 dir

詞頻：某個詞在該文檔中出現的內容

1、語料庫搭建

import jieba
jieba.load_userdict("D:\\Python\\Python數據挖掘\\Python數據挖掘實戰課程課件\\2.2\\金庸武功招式.txt")

import os
import os.path
import codecs

filePaths=[]
fileContents=[]
for root,dirs,files in os.walk("D:\\Python\\Python數據挖掘\\Python數據挖掘實戰課程課件\\2.2\\SogouC.mini\\Sample"):
    for 
 name in files:
        filePath=os.path.join(root,name)
        filePaths.append(filePath)
        f=codecs.open(filePath,"r","utf-8")
        fileContent=f.read()
        f.close()
        fileContents.append(fileContent)
        
import pandas
corpos=pandas.DataFrame({
                         "filePath 
":filePaths,
                         "fileContent":fileContents})

#分詞來源哪個文章
import jieba

segments=[]
filePaths=[]
for index,row in corpos.iterrows():
    filePath=row["filePath"]
    fileContent=row["fileContent"]
    segs=jieba.cut(fileContent)
    for seg in segs:
        segments.append(seg)
        filePaths.append(filePath)
        
segmentDataFrame 
=pandas.DataFrame({
                                   "segment":segments,
                                   "filepath":filePaths})

2、詞頻統計

import numpy
#進行詞頻統計
#by是要分組的列，[]是要統計的列
segStat=segmentDataFrame.groupby(
            by="segment"
            )["segment"].agg({
            "計數":numpy.size
            }).reset_index().sort(columns=["計數"],   #重新設置索引，再根據計數進行逆序排序
            ascending=False)

by=[“列名”]後面跟著的是要分組的列，根據方括號裏面的列的內容來進行統計；

第二個[]是要統計的列，在分組的列的基礎上進行統計的列，可以是它自己本身

3、移除停用詞，由於統計的詞語很多是我們不需要的，所以需要移除

stopwords=pandas.read_csv(
    "D:\\Python\\Python數據挖掘\\Python數據挖掘實戰課程課件\\2.3\\StopwordsCN.txt",    #改文件中包含停用詞
    encoding="utf-8",
    index_col=False)

fSegStat=segStat[
        ~segStat.segment.isin(stopwords.stopword)]

所用方法為isin()，然後在取反~

第二種分詞方法：

import jieba

segments=[]
filePaths=[]

for index,row in corpos.iterrows():
    filePath=row["filePath"]
    fileContent=row["fileContent"]
    segs=jieba.cut(fileContent)
    for seg in segs:
        if seg not in stopwords.stopword.values and len(seg.strip())>0:
            segments.append(seg)
            filePaths.append(filePath)

segmentDataFrame=pandas.DataFrame({
        "segment":segments,
        "filePath":filePaths})

segStat=segmentDataFrame.groupby(
                    by="segment"
                    )["segment"].agg({
                    "計數":numpy.size
                    }).reset_index().sort(
                        columns=["計數"],
                        ascending=False)

第二種分詞方法，是在jieba分詞後，通過if判斷，篩選除了不在stopwords裏面的分詞，然後在再輸出為數據框，再統計計數

Python數據挖掘-詞頻統計-實現

pytho row str dict err 金庸 nump 由於 dir 詞頻：某個詞在該文檔中出現的內容 1、語料庫搭建 import jieba jieba.load_userdict("D:\\Python\\Python數據挖掘\\Python數據挖掘實戰課

python 第一周（第一天）我的python成長記一個月搞定python數據挖掘！

__name__ -c pass class port .py contact 成長 class a python代碼的組織方式： .py 文件模塊文件樣式： #!/usr/bin/python#-*-coding:utf8-*- """@author: yugengde

python 第一周（第三天）我的python成長記一個月搞定python數據挖掘！(04)

數字 date .get raw dict 元素 upd 轉換成 efault 字符串 str 和 unicode str 字節流 unicode 字符流 (中文，英文，等等) => 如何轉換成計算機中的01代碼呢？　　出現了編碼 ascii, iso8859

python 第二周（第八天）我的python成長記一個月搞定python數據挖掘！(14)

num print 數據 span python rate string spa rom from lxml import etreedoubanhtml = ‘‘‘‘‘‘doc = etree.fromstring(doubanhtml)for eachbook in d

python 第二周（第八天）我的python成長記一個月搞定python數據挖掘！(15)

center project ron 高層 web 快速 art start mes scrapy爬蟲企業級爬蟲：python開發的一個快速，高層次的web抓取框架，用於抓取web站點並從頁面提取結構化的數據。 scrapy用途廣泛，可用於數據挖掘，數據監測和自動化測試

python 第二周（第十一天）我的python成長記一個月搞定python數據挖掘！(19) -scrapy + mongo

msg 步驟 [0 ssi xtra tin perl overflow tab mongoDB 3.2之後默認是使用wireTiger引擎在啟動時更改存儲引擎：　　mongod --storageEngine mmapv1 --dbpath d:\data\db 這

Python數據挖掘與機器學習技術入門實戰

機器學習摘要：什麽是數據挖掘？什麽是機器學習？又如何進行Python數據預處理？本文將帶領大家一同了解數據挖掘和機器學習技術，通過淘寶商品案例進行數據預處理實戰，通過鳶尾花案例介紹各種分類算法。課程主講簡介：韋瑋，企業家，資深IT領域專家/講師/作家，暢銷書《精通Python網絡爬蟲》作者，阿裏雲社區技術

python數據挖掘

自己 .data 表示 print nts 集合方法 child lse 數據挖掘旨在讓計算機根據已有數據做出決策。數據挖掘的第一步一般是創建數據集，數據集能夠描述真實世界的某一方面。數據集主要包括1.表示真實世界中物體的樣本。2.描述數據集中樣本的特征接下來是調整算

python數據挖掘（從數據集中抽取特征）

lec 刪除 nsf clas 世界創建模型 efault TP join 大多數數據挖掘算法都依賴於數值或類別型特征，從數據集中抽取數值和類別型特征，並選出最佳特征。特征可用於建模，模型以機器挖掘算法能夠理解的近似的方式來表示現實特征選擇的另一個優點在於：降低真實

Python數據挖掘(爬蟲強化)

雙擊分享圖片 tex .org ima 登錄 value 什麽事屬性（我喜歡雨天，因為雨天我可以回到童年踩水花！哈！） 2018年 --7月--12日：多雲又暴雨 T—T 前言我要把爬蟲的終極利器介紹一下，這個只要是我們肉眼能看到的，就算在

Python數據挖掘-中文分詞

index 一個 ins 模塊字典 pytho 漢字 font afr 將一個漢字序列切分成一個一個單獨的詞安裝分詞模塊： pip install jieba 分詞在特殊場合的實用性，調用add_word()，把我們要添加的分詞加入jieba詞庫高效方法：將t

Python數據挖掘-詞雲

pen agg val nump columns 背景 sort wordcloud 分享圖片詞雲繪制 1、語料庫的搭建、分詞來源、移除停用詞、詞頻統計使用方法：os.path.join(path,name) #連接目錄與文件名或目錄結果為path/name

Python數據挖掘-詞雲美化

round edge ner hit 數據 odin fit segments content 1、語料庫構建由於不像之前是對很多個文件進行詞頻統計，所以不需要使用os.walk()方法遍歷每一個文件；只需使用codecs.open()打開相應的文件，(記得close)

Python數據挖掘-相關性-相關分析

bsp 相關系數 div 相關性公式 nbsp font style afr 所需模塊 numpy、pandas 相關系數計算首先使用numpy.mean()方法求出均值，Xsd=numpy.std()方法求出標準差；然後在通過(X-Xmean)/Xsd公式求出z分數

Python數據挖掘—回歸—一元非線性回歸

python 顯示 mil source 地址 false eight 數據集 for 1、使用scatter_matrix判斷個特征的數據分布及其關系散步矩陣(scatter_matrix) Pandas中散步矩陣的函數原理 1 def scatter_matrix(

Python數據挖掘—回歸—邏輯回歸

dsl type near vid sselect pan input dia 取數概念針對因變量為分類變量而進行回歸分析的一種統計方法，屬於概率型非線性回歸　　優點：算法易於實現和部署，執行效率和準確度高　　缺點：離散型的自變量數據需要通過生成虛擬變量的方式來使用

Python數據挖掘—回歸—神經網絡

format 數據挖掘 school dsl iat pri sch ora view 概念：神經網絡：全稱為人工神經網絡，是一種模仿生物神經網絡（動物的中樞神經系統，特別是大腦）的結構和功能的數學模型或計算模型生物神經網絡：神經細胞是構成神經系統的基本單元，稱為生物神

Python數據挖掘—回歸—貝葉斯分類

方程分享圖片 users pytho afr port code ike 設置 pandas之get_dummies 方法：pandas.get_dummies(data,prefix=None,prefix_sep="_",dummy_na=False,columns=

Python數據挖掘—特征工程—特征選擇

from res 6.2 最好的 python features import 方差過多如何選擇特征根據是否發散及是否相關來選擇方差選擇法先計算各個特征的方差，根據閾值，選擇方差大於閾值的特征方差過濾使用到的是VarianceThreshold類，該類有個參數t

分享《Python數據挖掘入門與實踐》高清中文版+高清英文版+源代碼

講解英文版書簽英文 vpd 中英文 .com alt size 下載：https://pan.baidu.com/s/1J7DOGrjoF7HnaSZ8LvFh_A更多資料分享：http://blog.51cto.com/3215120 《Python數據挖掘入門與實

Python數據挖掘-詞頻統計-實現

相關推薦