1. 程式人生 > >R語言安裝NLP自然語言分析包

R語言安裝NLP自然語言分析包

引言: R語言是一種非常強大的分析與展示的統計科學家工具,其也提供了若干關於自然語言的分析處理工具,本文講展示如何在Linux進行安置。

1.  自然語言處理(NLP)

  對於英語體系,基於空格可以直接進行分詞,而中文則不同,需要進行分詞,然後進行後續處理。NLP是natural language processing的縮寫,專指此類的工作。

    自然語言處理包: Snowball, RWeka

    文字挖掘: tm

    分詞工具: Rwordseg

2.  所屬環境

    Linux: centos 6, 已經安置Java, 由於Rwordseg需要依賴java

3.  安置指令與過程

   3.1  安裝R語言環境

     >> yum install R

     

   3.2  安裝Snowball

     >> install.packages(c('Snowball'))  

        其會提示該包沒有找到,需要使用以下包:

     >> install.packages(c('SnowballC'))      

   3.3  安裝tm

    >> install.packages(c('tm'))        

      

   3.4 安裝RWeka

    >> install.packages(c('RWeka'))

     

     

   3.5 安裝Rwordseg

     直接執行install.packages(c('Rwordseg'))將會報錯,提示找不到此類包。

     需要切換到install.packages("Rwordseg", repos ="http://R-Forge.R-project.org", type = "source"),從另外一個源中進行安裝。

    

     

3.6 結束

 安裝完成了所有必須的NLP。