R語言安裝NLP自然語言分析包
引言: R語言是一種非常強大的分析與展示的統計科學家工具,其也提供了若干關於自然語言的分析處理工具,本文講展示如何在Linux進行安置。
1. 自然語言處理(NLP)
對於英語體系,基於空格可以直接進行分詞,而中文則不同,需要進行分詞,然後進行後續處理。NLP是natural language processing的縮寫,專指此類的工作。
自然語言處理包: Snowball, RWeka
文字挖掘: tm
分詞工具: Rwordseg
2. 所屬環境
Linux: centos 6, 已經安置Java, 由於Rwordseg需要依賴java
3. 安置指令與過程
3.1 安裝R語言環境
>> yum install R
3.2 安裝Snowball
>> install.packages(c('Snowball'))
其會提示該包沒有找到,需要使用以下包:
>> install.packages(c('SnowballC'))
3.3 安裝tm
>> install.packages(c('tm'))
3.4 安裝RWeka
>> install.packages(c('RWeka'))
3.5 安裝Rwordseg
直接執行install.packages(c('Rwordseg'))將會報錯,提示找不到此類包。
需要切換到install.packages("Rwordseg", repos ="http://R-Forge.R-project.org", type = "source"),從另外一個源中進行安裝。
3.6 結束
安裝完成了所有必須的NLP。