Spark 中文文件分類(一) IKAnalyzer對文件進行分類

阿新 • • 發佈：2019-01-02

原網址：http://lxw1234.com/archives/2015/07/422.htm

程式語言 1年前 (2015-07-22) 5885℃ 0評論

關鍵字：中文分詞、IKAnalyzer

最近有個需求，需要對爬到的網頁內容進行分詞，以前沒做過這個，隨便找了找中文分詞工具，貌似IKAnalyzer評價不錯，因此就下來試試，在這裡記錄一下使用方法，備查。

關於IKAnalyzer的介紹，網上很多，搜一下就知道了。下載地址見文章最後面。

下載解壓之後主要使用和依賴以下檔案：

IKAnalyzer2012_u6.jar — IKAnalyzer核心jar包

IKAnalyzer.cfg.xml — 配置檔案，可以在這裡配置停詞表和擴充套件詞庫

stopword.dic — 停詞表

lucene-core-3.6.0.jar — lucene jar包，注意：只能使用這個3.6版本，高版本有問題

IKAnalyzer中文分詞器V2012_U5使用手冊.pdf — 使用手冊

新建Java專案，將IKAnalyzer2012_u6.jar和lucene-core-3.6.0.jar新增到Build Path，將stopword.dic和IKAnalyzer.cfg.xml新增到專案根目錄。

看一下IKAnalyzer.cfg.xml的內容：

<?xml version=”1.0″ encoding=”UTF-8″?>
<!DOCTYPE properties SYSTEM “http://java.sun.com/dtd/properties.dtd”>
<properties>
<comment>IK Analyzer 擴充套件配置</comment>
<!–使用者可以在這裡配置自己的擴充套件字典 –>
<entry key=”ext_dict”></entry>

<!–使用者可以在這裡配置自己的擴充套件停止詞字典–>
<entry key=”ext_stopwords”>stopword.dic;</entry>
</properties>

使用示例程式碼：

package com.lxw1234.wordsplit;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis

.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
/**
*
* @author lxw的大資料田地 -- lxw1234.com
*
*/
publicclassTest{
publicstaticvoid main(String[] args)throwsException{
String text ="lxw的大資料田地 -- lxw1234.com 專注Hadoop、Spark、Hive等大資料技術部落格。北京優衣庫";
Analyzer analyzer =newIKAnalyzer(false);
StringReader reader =newStringReader(text);
TokenStream ts = analyzer.tokenStream("", reader);
CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
while(ts.incrementToken()){
System.out.print(term.toString()+"|");
}
analyzer.close();
reader.close();
}
}

執行結果為：

lxw|的|大數|資料|田地|lxw1234.com|lxw|1234|com|專注|hadoop|spark|hive|等|大數|資料|技術|部落格|北京|優|衣|庫|

分詞分的很細。

看這個建構函式：Analyzer analyzer = new IKAnalyzer(false);

IKAnalyzer支援兩種分詞模式：最細粒度和智慧分詞模式，如果建構函式引數為false，那麼使用最細粒度分詞。

改成智慧分詞模式之後的結果：

Analyzer analyzer = new IKAnalyzer(true);

lxw|的|大|資料|田地|lxw1234.com|專注|hadoop|spark|hive|等|大|資料|技術|部落格|北京|優|衣|庫|

結果還是不太理想，“大資料”和“優衣庫”都被分開了，原因是IKAnalyzer自帶的詞庫裡面沒有這兩個詞。

需要配置擴充套件詞庫。

在專案根目錄新建檔案MyDic.dic，裡面內容為：

大資料

優衣庫

每行一個詞，特別注意：MyDic.dic的檔案編碼必須為UTF-8。

編輯IKAnalyzer.cfg.xml配置檔案，新增擴充套件詞庫：

<!–使用者可以在這裡配置自己的擴充套件字典 –>
<entry key=”ext_dict”>MyDic.dic;</entry>

再執行：

lxw|的|大資料|田地|lxw1234.com|專注|hadoop|spark|hive|等|大資料|技術|部落格|北京|優衣庫|

這下基本是我們想要的結果了。

下載地址：https://code.google.com/p/ik-analyzer/downloads/list

這個地址估計大家不方便，上傳了一份到網盤：

密：34w6

Spark 中文文件分類(一) IKAnalyzer對文件進行分類

原網址：http://lxw1234.com/archives/2015/07/422.htm 程式語言 1年前 (2015-07-22) 5885℃ 0評論關鍵字：中文分詞、IKAnalyzer 最近有個需求，需要對爬到的網頁內容進行分詞，以前沒做過這個，隨便找了

怎樣用excel按進行分類求和，最後再根據一列對其他列進行排序

一：實驗目的按商戶號分組，對交易筆數，交易金額，手續費進行分類求和。最後按交易筆數進行降序排序。部分原始資料如下：二：實驗步驟 2.1：用透視表實現分類彙總插入->資料透視表, 在‘選擇一個表或區域’處會自動選擇所有資料區域：新工作表是這樣形

VS2010 Chart控件（一）Chart控件在ASP.NET網站中的應用示例詳解（C#語言）

[1] 設置 cti write conf int 應用程序 itl config 步驟如下： 1、 Chart控件（一）Chart控件在ASP.NET網站中的應用示例詳解（C#語言）" title="VS2010 Chart控件（一）Chart控件在ASP.NET網站中的

TensorFlow-cifar訓練與測試（可對自己資料進行分類和測試）

第一部分：測試軟硬體硬體：NVIDIA-GTX1080 軟體：Windows7、python3.6.5、tensorflow-gpu-1.4.0 第二部分：資料下載資料集下載連結第三部分：程式碼分步展示第一步：匯入tensorflow import os fr

利用opencv呼叫tensorflow的pb模型對jpg圖片進行分類

利用的是opencv中的dnn模組進行呼叫的,之所以標題是對jpg的圖片進行分類,主要的原因是我對bmp格式的圖片分類還沒有成功,成功之後再更新, 使用比較常用的花卉分類圖片進行分類,因為只是為了實驗,並沒有對圖片分類精度進行追求,程式碼中有許多問題,比如有很多沒用的,也沒有刪掉,也只是對花進行

一種對ngx_lua請求進行開關控制的實現

為了提高效能，用OpenResty(nginx+lua)開發了一個輕量Web應用。主用用於提供統一高效能查詢介面（統一走該輕應用域名）和極大的減少瀏覽器的http連線數量（使用ngx.location.capture_multi ）。為了更

使用LogisticRegression和SGDClassifier對良/惡性腫瘤進行分類，並計算出準確率召回率和F1的值

# -*- coding: utf-8 -*- """ Created on Tue Oct 24 10:08:40 2017 @author: liuyajun """ import pandas as pd import numpy as np from sklearn

利用LSTM對腦電波訊號進行分類

最近我們在做利用LSTM網路對腦電波訊號(紡錘體)進行分類的相關工作。我們的資料集是來自於美國開源的睡眠資料集（national sleep research resource）https://sleepdata.org 我們獲得資

計算機視覺（四）：使用K-NN分類器對CIFAR-10進行分類

1 - 引言之前我們學習了KNN分類器的原理，現在讓我們將KNN分類器應用在計算機視覺中，學習如何使用這個演算法來進行圖片分類。 2 - 準備工作建立專案結構如圖所示在datasets檔案中下載資料集Cifar-10 k_nearest_neighbo

對xml佈局進行分類

//module下的buildandroid { compileSdkVersion 25 buildToolsVersion '26.0.2' defaultConfig { applicationId "com.ycjr.navpa

利用隨機森林和梯度替身決策樹對titanic資料進行分類，並對結果進行分析

import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.feature_extraction import DictVectorizer from skle

python3 簡單實現從csv文件中讀取內容，並對內容進行分類統計

tmp spa writer ict 打開文件 while 類型 spl blog 新手python剛剛上路，在實際工作中遇到如題所示的問題，嘗試使用python3簡單實現如下，歡迎高手前來優化import csv #打開文件，用with打開可以不用去特意關閉file了

對文件內容去重後寫入另一文件

list 文件 line python 內容 root oot tr1 () 對文件內容去重後寫入另一文件： vi a1.py #!/usr/bin/python list = []f = open(‘/root/ming.txt‘,‘r‘)for str1 in f.re

python 中文件輸入輸出及os模塊對文件系統的操作

imp 合成接受信息 sdi pick close 指針方法整理了一下python 中文件的輸入輸出及主要介紹一些os模塊中對文件系統的操作。文件輸入輸出 1、內建函數open(file_name，文件打開模式，通用換行符支持)，打開文件返回文件對象。 2、對打開

MongoEngine 中文文件（一）

標籤（空格分隔）： Mongodb 近來用Flask做了一個小小的Demo（目前還在做），用的是MongoDB，ORM採用的是時Flask-MongoEngine，雖然是叫做Flask-MongoEngine，但其實只是對MongoEngine的一種封裝，

JHipster中文文件（一）

介紹技術棧客戶端技術棧單頁面應用： Angular4 or AngularJS v1.x Bootstrap HTML5 國際化支援 Sass Spring Websocket 良好的開發流程：通過Yarn或Bower易於

spark中文文件

+ Spark 概述 + 程式設計指南 + 快速入門 + Spark 程式設計指南

我的第一篇學習筆記——使用樸素貝葉斯演算法對文件分類詳解

樸素貝葉斯演算法可以實現對文件的分類，其中最著名的應用之一就是過濾垃圾郵件。先做一個簡單的分類，以論壇的留言為例，構建一個快速的過濾器，來區分哪些留言是負面言論，哪些是正面言論。我對演算法思路的理解：首先計算訓練集中每個詞語分別在正面（負面）文件中出現的概率以及正面（負面

Spark機器學習實戰 (十一) - 文本情感分類項目實戰

避免 mode val logistic view cor latest 分類圖片 0 相關源碼將結合前述知識進行綜合實戰，以達到所學即所用。文本情感分類這個項目會將分類算法、文本特征提取算法等進行關聯，使大家能夠對Spark的具體應用有一個整體的感知與了解。 1

【筆記】對文件的一些操作

使用簡潔訪問權限 font 整數系統調用 nbsp 緩沖區獲取文件如何設置文件的緩沖？全緩沖：open函數的buffering設置為大於1的整數n，n為緩沖區的大小行緩沖：open函數的buffering設置為1.一旦輸入‘\n‘就會寫入文件無緩沖：open

Spark 中文文件分類(一) IKAnalyzer對文件進行分類

原網址：http://lxw1234.com/archives/2015/07/422.htm

相關推薦