R語言：實現文字分析例項（基礎篇）

阿新 • • 發佈：2019-01-02

#1載入軟體包：
#1.1資料欲處理包：
#Snowball（處理帶空格的語句）
#rJava（rmmseg4j的支援包）
#rmmseg4j(處理中文的分詞，把不帶空格的分為帶空格的。)
#1.2文字分析包：
#tm
 
#資料處理##
library (RODBC)
excel_file <- odbcConnectExcel("D:\\r\\lab\\tm\\data\\處理例項.xls")
sheet_data <- sqlFetch(excel_file,"data")
close (excel_file)
 
library (Snowball)
library (rJava)
library (rmmseg4j)
library (tm)
tmp <-  as.character(sheet_data[[3]])
pinglun<-tmp[which(tmp!="")]#刪除無效資料
 
#中文特色，空格分詞
#a<-mmseg4j(pinglun[1]);a      #分詞,新增空格
#b<-unlist(strsplit(a," "));b  #使用空格把字串分為list
pinglun<-mmseg4j(pinglun)#空格視為一個單詞，所以中文很吃虧，需要先分詞。否則可能會把一句話視為一個單詞（DocumentTermMatrix出現錯誤結果）
 
#建立語義庫
ovid <- Corpus(VectorSource(pinglun))#由於pinglun是向量，所以要使用VectorSource
#ovid <- Corpus(DataframeSource(as.data.frame(pinglun)))#由於pinglun是向量，所以要轉化為data.frame後再使用DataframeSource
#還可以讀取目錄DirSource引數，讀取目錄中的不同txt檔案（實際後文writeCorpus(ovid)也會產生n個txt）
#完成後，會建立length(pinglun)個 text documents。
 
#檢視建立的語義庫
#inspect(ovid)
#儲存ovid，在工作目錄中寫入length(pinglun)個txt文字，每個文字包含一個document
#writeCorpus(ovid)
 
#使用語義庫做後續處理
#去掉多餘空白
ovid <- tm_map(ovid, stripWhitespace)
#去掉停止詞,未成功？？？
#ovid<- tm_map(ovid, removeWords,)
 
#建立詞條 -文件關係矩陣
dtm <- DocumentTermMatrix(ovid)
inspect(dtm[1:5,100:105])
 
#對矩陣進行處理
#找到在“5個以上的不同文件”中出現的詞條：findFreqTerms(x, lowfreq = 0, highfreq = Inf)。
findFreqTerms(dtm, 5)
#找到同vancl這個詞條的相關係數在0.2以上的其他詞條
findAssocs(dtm, "vancl", 0.2)#如果欲比較的詞條不在總dtm中，則返回錯誤，如果相關係數設定過高，則返回1
#展示：
#   vancl   優惠券   瀏覽器   google 加減乘除   誰也不   chrome     vjia 
#    1.00     0.38     0.33     0.29     0.29     0.29     0.20     0.20 
#刪除稀疏詞條（removed which have at least a sparse percentage of empty ）
dtm_099<-removeSparseTerms(dtm, 0.99)
#返回新詞條（原有詞條dtm不變），其中刪除了“出現詞條的文件數目佔總文件數目”小於1%(1-0.99=0.01=1%)的（稀疏）詞條。
#驗證：length(which(inspect(removeSparseTerms(dtm, 0.99)[,i])==1))/4275一定大於0.01,其中i=1--
 
#使用字典提取dtm
d <- Dictionary(c("不滿意", "不值得", "不知道"))
dtm_d<-DocumentTermMatrix(ovid, list(dictionary = d))#dtm_d中只提取了字典(d)中包含的詞條。

R語言：實現文字分析例項（基礎篇）

#1載入軟體包： #1.1資料欲處理包： #Snowball（處理帶空格的語句） #rJava（rmmseg4j的支援包） #rmmseg4j(處理中文的分詞，把不帶空格的分為帶空格的。) #1.2文字分析包： #tm #資料處理## library (RODBC) excel_file <- od

R語言中文社群歷史文章整理（作者篇）

本文選取在R語言中文社群發文較多、較系統的作者整理而成，作者排名不分先後。陳丹奕：陳老師：Dwzb：ecnu劉洋：kaolixin：marxsong：杜雨：華青蓮：黃耀鵬：李佳飛：劉琉球：魯偉：麵包君：人和六棟：秦路：師爺：王亨：王吉林：尾巴AR：夏爾康：謝佳標：張聰：張丹：

R語言——實驗4-人工神經網路（更新中）

帶包實現： rm(list=ls()) setwd("C:/Users/Administrator/Desktop/R語言與資料探勘作業/實驗4-人工神經網路") Data=read.csv("sales_data.csv")[,2:5] library(nnet) colnames(

Java語言程式設計（基礎篇）第十版程式設計練習題3.3（代數：求解2*2線性方程）

**編寫程式，提示使用者輸入a,b,c,e和f,然後顯示結果。如果ad-bc=0，則方程式無解應用Cramer規則求解線性方程組** public class linearEquation { public static void main(Stri

Java語言程式設計（基礎篇）第十版程式設計練習題**3.10（遊戲：加法測驗）

import java.util.Random; public class AdditionGame { public static void main(String[] args) { // TODO Auto-generated

Java語言程式設計（基礎篇）第十版程式設計練習題**3.15（遊戲：彩票）

因為第三章還沒有陣列和迴圈，所以只能用IF語句和組合數的方法來判別使用者是否匹配到數字。 import java.util.Scanner; public class Lottery { public static void main(String[

Java語言程式設計（基礎篇）第十版綜合題 **3.23（幾何：點是否在矩形內？）

public class J3_24 { public static void main(String[] args) { // TODO Auto-generated method stub java.util.Sc

系列：如何找到自己的第一個資料分析專案（表哥篇）2

作者：接地氣的陳老師 -------------------------------------------------------------------- 這是陳老師《如何找到自己的第一個資料分析專案》系列連載第二篇。第一篇，戳{轉行的同學如何找專案經驗} 月薪6000，也配叫資

R語言分類演算法之整合學習（Bootstrap Aggregating）

1.整合學習（Bootstrap Aggregating）原理分析: Bagging是Bootstrap Aggregating的縮寫,簡單來說,就是通過使用boostrap抽樣得到若干不同的訓練集,以這些訓練集分別建立模型,即得到一系列的基分類器,這些分類器

R語言與機器學習學習筆記（分類演算法）（1）K-近鄰演算法

前言最近在學習資料探勘，對資料探勘中的演算法比較感興趣，打算整理分享一下學習情況，順便利用R來實現一下資料探勘演算法。資料探勘裡我打算整理的內容有：分類，聚類分析，關聯分析，異常檢測四大部分。其中分類演算法主要介紹：K-近鄰演算法，決策樹演算法，樸素

R語言與機器學習學習筆記（分類演算法）（3）樸素貝葉斯

演算法三：樸素貝葉斯演算法在貝葉斯決策中，對於先驗概率p(y)，分為已知和未知兩種情況。 1. p(y)已知，直接使用貝葉斯公式求後驗概率即可； 2. p(y)未知，可以使用聶曼-皮爾遜決策(N-P決策)來計算決策面。而最大最小損失規則主要就是使用解決最小損失規則時先驗概率未知或難以計算的問題的

R語言與機器學習學習筆記（分類演算法）（2）決策樹演算法

演算法二：決策樹演算法決策樹定義決策樹模型是基於特徵對例項進行分類的樹形結構。由結點和有向邊組成。結點包括內部結點和葉節點，內部結點為特徵或屬性，葉子節點表示一個類。【優點】模型具有可讀性，分類速度快。以鳶尾花為例，觀察上圖，我們判決鳶尾花的思考過程可以這麼來描述：花瓣的長度

R語言與機器學習學習筆記（分類演算法）（6）logistic迴歸

邏輯迴歸研究因變數Y為分類變數與多個自變數X之間的迴歸問題。隨機變數X的取值為實數，隨機變數Y的取值為1或0。常用於預測某隨機事件發生概率的大小。 Logistic迴歸問題的最優化問題可以表述為：尋找一個非線性函式Sigmoid的最佳擬合引數，求解過程可使用最優化演

使用TextToSpeech實現文字轉音訊（自動朗讀）

主要方法 setLanguage：設定語言的型別 speak：傳入文字播放聲音 synthesizeToFile：傳入文字儲存為音訊 shutdown：釋放TextToSpeech資源 package prictise.lxm.prictise; import andro

進階之路（基礎篇） - 009 通過底層AVR方法實現SPI數據傳輸

lean oop and return false 進階 from setup pie 主機端： /********************************* 代碼功能：通過底層AVR方法實現SPI數據傳輸(主機端) 創作時間：2016*10*17 使用資源：

（基礎篇）第1課：C#程序設計基礎——動起來的Label控件

創建文本編輯器 ble 知識項目 pac too cli 雙擊參考：學通C#的24堂課（羊皮卷系列） 1. Tool：VS2017(VS2008 VS2010 都可以) 2. 新建項目：C# -> Windows應用窗體程序 3. 在彈出的Form窗口中添加L

零基礎掌握百度地圖興趣點獲取POI爬蟲（python語言爬取）（基礎篇）

region map 基礎輸入 filter put mark page -h 實現目的：爬取昆明市範圍內的全部中學數據，包括名稱、坐標。先進入基礎篇，本篇主要講原理方面，並實現步驟分解，為python代碼編寫打基礎。因為是0基礎開始，所以講得會比較詳細。如實現目的

大數據系列博客之 --- 深入簡出 Shell 腳本語言（基礎篇）

都是判斷變量定義 pre cls logs 簡單 vim spa 首先聲明，此系列shell系列博客分為四篇發布，分別是：　　基礎篇：https://www.cnblogs.com/lsy131479/p/9914747.html 　　提升篇：https:/

Spring Boot （基礎篇）：建立一個簡單的SpringBoot專案

Spring Boot建立首先IDEA新建一個專案，File-New-Project-Spring Initializr，然後Next，如下圖：填寫專案資訊：填寫專案使用到的技術，上面的SpringBoot版本建議選擇最新的穩定版，下面勾選上Web就可

Spring Boot （基礎篇）：Spring Boot知識點總結

Spring Boot簡介 SpringBoot 以便捷開發、快速部署著稱。設計目的是用來簡化新Spring應用的初始搭建以及開發過程。 SpringBoot 致力於簡潔，讓開發者寫更少的配置，程式能夠更快的執行和啟動 SpringBoot 設計原則就是約定優於配置。並且

R語言：實現文字分析例項（基礎篇）

相關推薦