php 中文分詞使用

阿新 • • 發佈：2019-01-12

1. 取得 scws-1.2.3 的程式碼

wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2

2. 解開壓縮包

[[email protected] ~]$ tar xvjf scws-1.2.3.tar.bz2

3. 進入目錄執行配置指令碼和編譯

[[email protected] ~]$ cd scws-1.2.3
[[email protected] ~/scws-1.2.3]$ ./configure --prefix=/usr/local/scws && make && make install

注：這裡和通用的 GNU 軟體安裝方式一樣，具體選項引數執行 ./configure --help 檢視。
常用選項為：--prefix=<scws的安裝目錄>

4. 順利的話已經編譯並安裝成功到 /usr/local/scws 中了，執行下面命令看看檔案是否存在

[[email protected] ~/scws-1.2.3]$ ls -al /usr/local/scws/lib/libscws.la

5. 試試執行 scws-cli 檔案

[[email protected] ~/scws-1.2.3]$ /usr/local/scws/bin/scws -h
scws (scws-cli/1.2.3)
Simple Chinese Word Segmentation - Command line usage.
Copyright (C)2007 by hightman.

6 用 wget 下載並解壓詞典，或從主頁下載然後自行解壓再將 *.xdb 放入 /usr/local/scws/etc 目錄中

[[email protected] ~/scws-1.2.3]$ cd /usr/local/scws/etc
[[email protected] /usr/local/scws/etc]$ wget http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2
[[email protected] /usr/local/scws/etc]$ wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
[ 
[email protected] /usr/local/scws/etc]$ tar xvjf scws-dict-chs-gbk.tar.bz2
[[email protected] /usr/local/scws/etc]$ tar xvjf scws-dict-chs-utf8.tar.bz2

7.8.9. 這三步是用C程式測試直接跳過我們要做的是php測試

10. 在 php 中呼叫分詞，安裝 php 擴充套件。

假設您已經將 scws 按上述步驟安裝到 /usr/local/scws 中。
安裝此擴充套件要求您的 php 和系統環境安裝了相應的 autoconf automake 工具及 phpize 。

1) 進入原始碼目錄的 phpext/ 目錄 ( cd ~/scws-1.2.3 )
這裡出現
-bash: /usr/local/src/php-5.6.3/scripts/phpize: Permission denied
解決辦法：

    $ cd ~/scws-1.2.3/phpext/
    $ locate phpize

2) 執行 phpize （在PHP安裝目錄的bin/目錄下）

$ /usr/local/php/bin/phpize

3) 執行 ./configure --with-scws=/usr/local/scws
若 php 安裝在特殊目錄 $php_prefix, 則請在 configure 後加上 --with-php-config=$php_prefix/bin/php-config
編譯出現錯誤
configure: error: Cannot find php-config. Please use --with-php-config=PATH
解決辦法：
下面第一條命令查詢php-config 目錄位置

 $ locate php-config
 $ ./configure --with-php-config=/usr/local/php/bin/php-config --with-scws=/usr/local/scws

4) 執行 make 然後用 root 身份執行 make install

   # make && make install

安裝成功後擴充套件共享目錄：/usr/local/php/lib/php/extensions/no-debug-non-zts-20131226/

5) 在 php.ini 中加入以下幾行
我的地址：/usr/local/php/etc/php.ini

[scws]
;
; 注意請檢查 php.ini 中的 extension_dir 的設定值是否正確, 否則請將 extension_dir 設為空，
; 再把 extension = scws.so 指定絕對路徑。
;
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /usr/local/scws/etc

6) 命令列下執行 php -m 就能看到 scws 了或者在 phpinfo() 中看看關於 scws 的部分，記得要重啟 web 伺服器
才能使新的 php.ini 生效。
注意可能有的php 客戶端版本比較低, 使用 php -m 顯示的是客戶端的版本並不是實際安裝的版本
那麼可以通過程式中的 phpinfo() 在瀏覽器上訪問檢視
重啟指令碼如下

    $ service php-fpm restart
    $ service nginx restart

7) 這樣就算安裝完成了，餘下的工作只是PHP程式碼編寫問題了。
關於 PHP 擴充套件的使用說明請參看程式碼中 phpext/README.md 檔案或其它文件章節。

$ cat README.md  #獲取函式使用說明

下面寫一個常用的去重的分詞結果：

<?php
$so = scws_new();
$so->set_charset('utf8');
// 這裡沒有呼叫 set_dict 和 set_rule 系統會自動試呼叫 ini 中指定路徑下的詞典和規則檔案
$so->send_text("我是一箇中國人,我會C++語言,我也有很多T恤衣服");

$words = array();
while ($tmp = $so->get_result())
{
    foreach ($tmp as $val) {
    	if(!new_in_array($val, $words,'word')){
            $words[] = array(
	    	    'word' => $val['word'],
	    	    'weight' => $val['idf'],
	    	);
    	}
    }
}


print_r($words);
$so->close();

function new_in_array($need,$array,$column=''){
	$flag = false;
	foreach ($array as $val) {
		if($val[$column] == $need[$column]){
			$flag = true;
			break;
		}
	}
	return $flag;
}


?>

php 中文分詞使用

PHP中文分詞擴展 SCWS

php+中文分詞scws+sphinx+mysql打造千萬級數據全文搜索

php 中文分詞全文搜尋引擎 xunsearch 例項

php 中文分詞使用

Ubuntu16.04下安裝elasticsearch+kibana實現php客戶端的中文分詞

SCWS中文分詞PHP擴展詳細安裝說明

scws中文分詞PHP

python 讀寫txt文件並用jieba庫進行中文分詞

.NET Core中文分詞組件jieba.NET Core

Centos下Sphinx中文分詞編譯安裝測試---CoreSeek

es5.4安裝head、ik中文分詞插件

中文分詞中的戰鬥機

11款開放中文分詞引擎大比拼

中文分詞--逆向最大匹配

elasticsearch中文分詞+全文搜索

Sphinx + Coreseek 實現中文分詞搜索

Solr6.6.0添加IK中文分詞器

搭建ELASTICSEARCH實現中文分詞搜索功能

PyNLPIR python中文分詞工具

（五）Lucene——中文分詞器

php 中文分詞使用

相關推薦