1. 程式人生 > >基於JAVA的IKAnalyzer中文分詞運用

基於JAVA的IKAnalyzer中文分詞運用

比較 分割 大屏幕 現在 analyzer 工程 建設 發的 .com

一、前提

IKAnalyzer分詞器常應用於大數據開發的數據準備階段,它能對任意長的文字進行關鍵字提取、文字重組、數據清洗等二次處理,並將處理好的關鍵數據通過某種分割符重新拼接起來,形成一個可用於進行機器學習的數據集。

二、準備階段

使用eclipse創建一個Maven工程,通過配置pom.xml文件來導入IKAnalyzer的jar包,我這用導入的是ikanalyzer-2012_u6.jar,然後在src目錄下分別創建IKAnalyzer.cfg.xml、extend.dic、stopword.dic這三個文件,然後再去百度新聞中截取一段新聞內容進行處理。

新聞內容:

多次說幸福都是奮鬥出來的,奮鬥本身就是一種幸福。辛勤奮鬥的人生是精彩的,也值得點贊。2019年1月16日,在河北雄安新區規劃展示中心,通過大屏幕連線京雄城際鐵路雄安站建設工地現場。他對現場施工人員說:“現在是數九寒冬、天寒地凍,但我們的鐵路建設者仍然辛勤勞動著。在此,我代表黨中央,向你們並通過你們向全國所有的鐵路建設者、勞動者們致以親切的問候和良好的祝願!”他勉勵大家說,你們正在為雄安新區建設這個“千年大計”做著開路先鋒的工作,功不可沒。

配置IKAnalyzer.cfg.xml:

技術分享圖片

extend.dic:擴展詞典,是為了讓需要切分的語句裏面的詞根據擴展詞典裏的詞進行比較,對此進行拼接,不切分。

設置extend.dic:

技術分享圖片

stopword.dic:停止詞典,將語句與停用詞典進行比較,直接將無用詞進行刪除

設置stopword.dic:

技術分享圖片

三、代碼

創建一個ik.java文件,代碼如下:

技術分享圖片

四、運行結果

(1)未加載extend.dic和stopword.dic的情況:

多次 說 幸福 都是 奮鬥 出來 的 奮鬥 本身 就是 一種 幸福 辛勤 奮鬥 的 人生 是 精彩 的 也 值 得點 贊 2019年 1月 16日 在 河北 雄 安 新區 規劃 展示中心 通過 大屏幕 連線 京 雄 城際 鐵路 雄 安 站 建設 工地 現場 他 對 現場 施工人員 說 現在是 數九寒冬 天寒地凍 但 我們 的 鐵路 建設者 仍然 辛勤勞動 著 在此 我 代表 黨中央 向 你們 並 通過 你們 向 全國 所有 的 鐵路 建設者 勞動者 們 致以 親切 的 問候 和 良好 的 祝願 他 勉勵 大家 說 你們 正 在為 雄 安 新區 建設 這個 千年 大計 做著 開路先鋒 的 工作 功不可沒

(2) 加載extend.dic和stopword.dic的情況

多次說 幸福 都是 出來 本身 就是 幸福 辛勤 人生是精彩的 也 值得 點贊 2019年1月16日 在 河北 雄安新區 展示中心 通過 大屏幕 連線 京 雄 城際 鐵路 雄 安 站 建設 工地 他 對 施工人員 說 現在是 數九寒冬 天寒地凍 但 我們 鐵路 建設者 仍然 辛勤勞動 著 在此 我 代表 黨中央 向 你們 並 通過 你們 向 全國 所有 鐵路 建設者 勞動者 們 致以 親切 問候 和 良好 祝願 他 勉勵 大家 說 你們 正在為 雄安新區 建設 這個 千年 大計 做著 開路先鋒 工作 功不可沒

五、註意事項

修改extend.dic和stopword.dic文件最好使用Notepad++工具,文字編碼格式為UTF-8編碼

基於JAVA的IKAnalyzer中文分詞運用