大資料工具：IKAnalyzer分詞工具介紹與使用

阿新 • • 發佈：2019-01-12

簡單介紹IKAnalyzer分詞工具與使用

文章目錄

簡介
IKAnalyzer的引入使用
IK的兩個重要詞典
IK的使用

簡介

以下簡介參考前輩和專案文件介紹

為什麼要分詞呢，當大資料處理中要提取語句的特徵值，進行向量計算。所有我們要用開源分詞工具把語句中的關鍵詞提取出來。
IK Analyzer是什麼呢，就是我們需要的這個工具，是基於java開發的輕量級的中文分詞工具包。它是以開源專案Luence為主體的，結合詞典分詞和文法分析演算法的中文分片語件。IK有很多版本，在2012版本中，IK實現了簡單的分詞歧義排除演算法。
我們為什麼選擇IK作為我們的分詞工具呢，這裡我們簡單介紹一下。這裡我們採用了網上的一些介紹。
- 1、IK才用了特有的“正向迭代最細粒度切分演算法”，支援細粒度和智慧分詞兩種切分模式。
- 2、在系統環境：Core2 i7 3.4G雙核，4G記憶體，window 7 64位， Sun JDK 1.6_29 64位普通pc環境測試，IK2012具有160萬字/秒（3000KB/S）的高速處理能力。
- 3、2012版的只能分詞模式支援簡單的分詞排歧義處理和數量詞合併輸出。
- 4、用了多子處理器分析模式，支援英文字母數字中文詞彙等
- 5、優化詞典儲存，更小的記憶體佔用。

IKAnalyzer的引入使用

由於maven庫裡沒有ik的座標。我們需要手動新增到本地的maven倉庫中。或則lib引用

專案地址：https://github.com/wks/ik-analyzer

1、首先要clone程式碼

git clone https://github.com/wks/ik-analyzer

克隆到本地。

2、編譯並且安裝到本地的repository

mvn install -Dmaven.test.skip=true

(1)編譯後也可以將jar上傳到自己的maven私有庫（如果有maven私有庫，那麼久直接使用2012版本，直接網上下載，然後上傳到maven庫即可）。

(2)可以放在本地maven倉庫的對應座標

(3)專案lib下引用

3、在pom.xml中加入如下配置即可

<dependency>
   <groupId>org.wltea.ik-analyzer</groupId>
    <artifactId>ik-analyzer</artifactId>
    <version>3.2.8</version>
</dependency>

IK的兩個重要詞典

擴充套件詞典：為的是讓需要切分的字串的詞語根據擴充套件詞典裡的詞，不要切分開來。

例如：擴充套件詞典中有：中國的臺灣。那麼原本會切分成：中國的臺灣在東海。會切分成：中國的臺灣在東海

停止詞典：對比停止詞典，直接刪掉停止詞典中出現的詞語

IK的使用

自己案例
maven工程

resource目錄下三個配置檔案
IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
    <comment>IK Analyzer 擴充套件配置</comment>
    <entry key="ext_dict">/extend.dic</entry>
    <entry key="ext_stopwords">/stopword.dic</entry>
</properties>

extend.dic 擴充套件詞典

這是一個
巨大的牆

stopword.dic

一個
一
個
的

IKAnalyzerTest.java

package com.mym.ikanalyzer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

import java.io.IOException;
import java.io.StringReader;

public class IKAnalyzerTest {

    public static String beginAnalyzer(String line){
        IKAnalyzer analyzer = new IKAnalyzer();

        //使用智慧分詞
        //ik2012和ik3.0,3.0沒有這個方法
//        analyzer.setUseSmart(true);


        try {
            return printAnalyzerResult(analyzer, line);
        } catch (IOException e) {
            e.printStackTrace();
        }

        return null;
    }

    public static String printAnalyzerResult(Analyzer analyzer, String keyword) throws IOException {
        String resultData = "";
        String infoData = "";

        TokenStream tokenStream = analyzer.tokenStream("content",new StringReader(keyword));
        tokenStream.addAttribute(CharTermAttribute.class);
        while(tokenStream.incrementToken()){
            CharTermAttribute charTermAttribute = tokenStream.getAttribute(CharTermAttribute.class);
            infoData = infoData+ "    "+charTermAttribute.toString();

        }
        if(!"".equals(infoData)){
            resultData = resultData + infoData.trim()+"\r\n";
        }else{
            resultData = "";
        }
        return resultData;
    }

    public static void main(String[] args) {
        String line = "這是一個粗糙的柵欄，浪費錢，我想要一堵巨大的牆!”網友Mary說，還附上了“理想”中的邊境牆照片";
        String s = IKAnalyzerTest.beginAnalyzer(line);
        System.out.println(s);
    }

}

執行結果

這是一個    這是    粗糙    柵欄    浪費    費錢    我    想要    一堵    巨大的牆    巨大    網友    mary    說    還    附上    上了    理想    中    邊境    牆    照片

更詳細使用可參考github上該工程有demo和文件

大資料工具：IKAnalyzer分詞工具介紹與使用

簡單介紹IKAnalyzer分詞工具與使用文章目錄簡介 IKAnalyzer的引入使用 IK的兩個重要詞典 IK的使用簡介以下簡介參考前輩和專案文件介紹為什麼要分詞呢，當

IKAnalyzer分詞工具不能處理完所有數據，中途中斷

blank jar 什麽不知道 arc archive 進行 bubuko image 不知道為什麽，本來1萬條的數據在進行分詞時候，只分了8千就結束了。試了另一批數據2萬條的數據，可以完全分完。後來把jar包的版本更換掉：將2013版的換成2012_u6版的，就可以正

python中文分詞工具：結巴分詞jieba

結巴分詞jieba特點支援三種分詞模式：精確模式，試圖將句子最精確地切開，適合文字分析；全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提

開源中文分詞工具探析（六）：Stanford CoreNLP

inf git deb seq 效果 analysis stream fix sps CoreNLP是由斯坦福大學開源的一套Java NLP工具，提供諸如：詞性標註（part-of-speech (POS) tagger）、命名實體識別（named entity recog

搜尋框架搭建1：elasticsearch安裝和視覺化工具kibana、分詞外掛jieba安裝

elasticsearch安裝和視覺化工具kibana、分詞外掛jieba安裝 1 Windosw環境 1.1 java環境安裝 1.2 elasticsearch安裝 1.3 視覺化介面kibana安裝 1.

三大分詞工具：standford CoreNLP/中科院NLPIR/哈工大LTP的簡單使用

寫在前面的話：一個學期下來，發現寫了不少程式碼。但是都沒有好好整理，以後會慢慢整理。第一篇博文，可能也比較雜。望見諒。目的只是為了過段日子再次review時候不至於那麼生疏。如果你能幫一下各位NLPer那真的是我的榮幸。本文將簡單介紹standford CoreN

大資料分析：王者榮耀英雄背景下的分詞報告

中文分詞在中文資訊處理中是最最基礎的，無論機器翻譯亦或資訊檢索還是其他相關應用，如果涉及中文，都離不開中文分詞，因此中文分詞具有極高的地位。 NLP剛入門，想找個東西練練手，於是便看到了手邊的

北大開源全新中文分詞工具包：準確率遠超THULAC、結巴分詞

選自GitHub，作者：羅睿軒、許晶晶、孫栩，機器之心編輯。最近，北大開源了一箇中文分詞工具包，它在多個分詞資料集上都有非常高的分詞準確率。其中廣泛使用的結巴分詞誤差率高達 18.55% 和 20.42，而北大的 pkuseg 只有 3.25% 與 4.32%。 pkuseg 是由北京

開源中文分詞工具探析（七）：LTP

LTP是哈工大開源的一套中文語言處理系統，涵蓋了基本功能：分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註、語義依存分析等。【開源中文分詞工具探析】系列： 1. 前言同THULAC一樣，LTP也是基於結構化感知器（Structured Perceptron, SP），以最大熵準則建模標註序列

開源中文分詞工具探析（四）：THULAC

THULAC是一款相當不錯的中文分詞工具，準確率高、分詞速度蠻快的；並且在工程上做了很多優化，比如：用DAT儲存訓練特徵（壓縮訓練模型），加入了標點符號的特徵（提高分詞準確率）等。【開源中文分詞工具探析】系列： 1. 前言 THULAC所採用的分詞模型為結構化感知器（Structured Percep

開源中文分詞工具探析（五）：FNLP

FNLP是由Fudan NLP實驗室的邱錫鵬老師開源的一套Java寫就的中文NLP工具包，提供諸如分詞、詞性標註、文字分類、依存句法分析等功能。【開源中文分詞工具探析】系列： 1. 前言類似於THULAC，FNLP也是採用線性模型（linear model）分詞。較於對數線性模型（log-linea

開源中文分詞工具探析（三）：Ansj

Ansj是由孫健（ansjsun）開源的一箇中文分詞器，為ICTLAS的Java版本，也採用了Bigram + HMM分詞模型（可參考我之前寫的文章）：在Bigram分詞的基礎上，識別未登入詞，以提高分詞準確度。雖然基本分詞原理與ICTLAS的一樣，但是Ansj做了一些工程上的優化，比如：用DAT高效地實現檢

中文分詞工具探析（一）：ICTCLAS (NLPIR)

【開源中文分詞工具探析】系列： 1. 前言 ICTCLAS是張華平老師推出的中文分詞系統，於2009年更名為NLPIR。ICTCLAS是中文分詞界元老級工具了，作者開放出了free版本的原始碼（1.0整理版本在此). 作者在論文[1] 中宣稱ICTCLAS是基於HHMM（Hierarchical Hid

中文分詞工具探析（二）：Jieba

【開源中文分詞工具探析】系列： 1. 前言 Jieba是由fxsjy大神開源的一款中文分詞工具，一款屬於工業界的分詞工具——模型易用簡單、程式碼清晰可讀，推薦有志學習NLP或Python的讀一下原始碼。與採用分詞模型Bigram + HMM 的ICTCLAS 相類似，Jieba採用的是Unigram +

【python】使用中科院NLPIR分詞工具進行mysql資料分詞

本文主要是使用中科院的分詞工具對於資料庫中的資料文字進行分詞在電腦上安裝python，並匯入python與資料庫的連線外掛MySQLdb 以及中科院的分詞工具NLPIR import pynlpi

資料探勘乾貨總結（二）--NLP進階-詳解Jieba分詞工具

NLP進階-詳解Jieba分詞工具一、Jieba分詞工具 1. 三種模式 • 精確模式：將句子最精確的分開，適合文字分析 • 全模式：句子中所有可以成詞的詞語都掃描出來，速度快，不能解決歧義 • 搜尋引擎模式：在精確模式基礎上，對長詞再次切分，提高召回 2.實現的演算法 • 基於Tri

漢語分詞工具的研發-----

中文 analysis targe item api arc 動手 ica 8.4 當時打醬油做的大創，除了看源代碼之外，什麽數學原理，始終沒有動手實踐過，站在巨人的肩上，就這麽完成了大創。。想不到時隔兩年還要被迫回來學習，所以呀出來混還是要腳踏實地親力親為

jieba分詞工具的使用

多個 ictclas 基礎上創新需要 ica 入參標註 erb 煩煩煩( ˇ?ˇ ) http://www.oschina.net/p/jieba/ 搬運工。。。。。 jieba "結巴"中文分詞：做最好的Python中文分詞組件 "Jieba"。 Feature

PyNLPIR python中文分詞工具

命名 hub 兩個工具 ict mage ret wid tty 官網：https://pynlpir.readthedocs.io/en/latest/ github：https://github.com/tsroten/pynlpir NLPIR分詞系

大資料線上分析處理和常用工具

大資料線上分析處理的特點 . 資料來源源不斷的到來；資料需要儘快的得到處理，不能產生積壓；處理之後的資料量依然巨大，仍然後TB級甚至PB級的資料量；處理的結果能夠儘快的展現；以上四個特點可以總結為資料的收集->資料的傳輸->資料的處理-&g

大資料工具：IKAnalyzer分詞工具介紹與使用

文章目錄

簡介

IKAnalyzer的引入使用

IK的兩個重要詞典

IK的使用

相關推薦