1. 程式人生 > >python3進行中文分詞和詞性標註

python3進行中文分詞和詞性標註

配置python環境(win10)

  1. 雙擊安裝,我安裝在了D:\python 中。
  2. 新增環境變數。
    在我的電腦處右鍵 -> 高階系統設定 -> 環境變數 -> 系統變數 -> 雙擊path -> 新建 ->看下圖-> 確定
    這裡寫圖片描述
  3. 因為我的電腦已經安裝了python2.7(硬要安裝python3是因為後面中文分詞簡便一點),所以這裡我把python改成了python3
    D盤-> python ->把python.exe 改成python3.exe
    這裡寫圖片描述
  4. 驗證:在cmd輸入python3,進入直譯器,然後exit()退出
    這裡寫圖片描述

安裝pip

python3 get-pip.py

安裝jieba包

  1. 我這裡有個問題,就是python2和python3的pip衝突的問題,所以我在安裝時出現了問題,如果沒有python2,那麼直接pip install jieba 即可,如果和我一樣已經給python2安裝了pip,那麼解決方法,轉自知乎匿名使用者
python3 -m pip install jieba

寫程式碼

我沒用pycharm,直接就用sublime text寫了,儲存為fenci.py ,我用了檔案輸入輸出。如果是python2,讀取中文檔案可能會出問題解決方法:jingyi130705008部落格

#encoding=utf-8
import jieba
import jieba.posseg as pseg

p = open(r'1.txt', 'r', encoding = 'gbk')   //這個在python2中語法錯誤
q = open(r'2.txt', 'w', encoding = 'gbk') 
for line in p.readlines():
    words = pseg.cut(line)
    for word, flag in words:
        q.write(str(word) + str(flag) + "  ")
    q.write('\n'
)

1.txt:我愛北京天安門
2.txt:我r 愛v 北京ns 天安門ns

相關推薦

python3進行中文詞性標註

配置python環境(win10) 雙擊安裝,我安裝在了D:\python 中。 新增環境變數。 在我的電腦處右鍵 -> 高階系統設定 -> 環境變數 -> 系統變數 ->

Python 文字挖掘:jieba中文詞性標註

#! /usr/bin/env python2.7 #coding=utf-8 import jieba import jieba.posseg #需要另外載入一個詞性標註模組 string = '其實大家買手機就是看個心情,沒必要比來比去的。' seg = jieba.posseg.cut(string

Deep Learning 在中文詞性標註任務中的應用

開源軟體包 SENNA 和 word2vec 中都用到了詞向量(distributed word representation),當時我就在想,對於我們的中文,是不是也類似地有字向

清華大學thulac詞性標註程式碼理解

     清華大學的thulac中分分詞詞法包,包含有中文分詞和詞性標註,從測試精度和速度看,效果還不錯,github上有提供c++和python程式碼,c++程式碼包含有訓練和測試程式碼,python程式碼只有測試程式碼,速度也較慢,github地址為:https://g

使用jiebawordcloud進行中文並生成《悲傷逆流成河》

因為詞雲有利於體現文字資訊,所以我就將那天無聊時爬取的《悲傷逆流成河》的評論處理了一下,生成了詞雲。 關於爬取影評的爬蟲大概長這個樣子(實際上是沒有爬完的): #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/15 16:3

使用Python+jiebajava+庖丁在Spark叢集上進行中文統計

寫在前邊的話:        本篇部落格也是在做豆瓣電影資料的分析過程中,需要對影評資訊和劇情摘要資訊進行分析而寫的一篇部落格        以前學習hadoop時,感覺做中文分詞也沒那麼麻煩,但是到了

用正向逆向最大匹配演算法進行中文(續)

一、結果分析:         1.程式執行結果,如下圖所示:         2.總體分析。         (1)正向和逆向匹配都正確的句子數目為 1731,佔句子總數的39.0%         (2)正向最大匹配完全正確的句子數目為 1917,佔句子總數的43

python 讀寫txt文件並用jieba庫進行中文

mage 亂碼 技術分享 流行 ictclas 函數 結果 class 配置 python用來批量處理一些數據的第一步吧。 對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

一套準確率高且效率高的詞性標註工具-thulac

軟體簡介 THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。THULAC具有如下幾個特點: 能力強。利用我們整合的目前世界上規模最大的人工分詞和詞性標註中文語料庫(

轉載:Spark 使用ansj進行中文

轉載:https://www.cnblogs.com/JustIsQiGe/p/8006734.html 在Spark中使用ansj分詞先要將ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj原始碼github:https://github.com/

使用Java呼叫Stanford CoreNLP 進行中文

Stanford CoreNLP 進行中文分詞 中文分詞的工具有很多,使用斯坦福的CoreNLP進行分詞的教程網上也不少,本篇部落格是記錄自己在使用Stanford CoreNLP進行中文分詞的學習筆記。 1. 工具準備 1.1 下載NLP相關包: 網址: https://stanfordn

lucene 中文結果高亮顯示

要使用中文分詞要加入新的依賴  smartcn <!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-analyzers-smartcn --> <dependency>   &

spark叢集環境下使用hanlp進行中文

標籤:zab table import shel – java standard mas tokenizer 1、將下載的hanlp-portable-1.6.2.jar複製到叢集spark/jar資料夾下面 2、啟動spark叢集 spark/bin/spark-shel

HMM與詞性標註、命名實體識別

HMM(隱馬爾可夫模型)是用來描述隱含未知引數的統計模型,舉一個經典的例子:一個東京的朋友每天根據天氣{下雨,天晴}決定當天的活動{公園散步,購物,清理房間}中的一種,我每天只能在twitter上看到她發的推“啊,我前天公園散步、昨天購物、今天清理房間了!”,那麼我可以根據她

使用IKAnalyzer進行中文

                一個完整的結構如下:其中ext.dic和chinese_stopword.dic都是自定義的,這裡ext.dic用的是百度百科的詞條【496萬個詞條】,需要在xml裡面新增dic的位置。<?xml version="1.0" encoding="UTF-8"?>&l

使用python jieba庫進行中文

jieba “結巴”中文分詞:做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word

用pyltp做詞性標註、ner

工具:win10、python2.7 主要參考官方文件 http://pyltp.readthedocs.io/zh_CN/latest/api.html# http://ltp.readthedocs.io/zh_CN/latest/install.html 1、安裝

python中使用jieba進行中文

原始碼下載的地址:https://github.com/fxsjy/jieba演示地址:http://jiebademo.ap01.aws.af.cm/ 一   “結巴”中文分詞:做最好的 Python 中文分片語件  。支援三種分詞模式:精確模式,試圖將句子最精確地切開,適

python讀寫txt檔案,並用jieba庫進行中文

在虎撲上隨便找了一段文字,貼上到word.txt檔案中,然後對這段文字進行處理。其中用到的matplotlib庫,主要是用來繪圖;jieba庫,對文字進行分詞;wordcloud庫,構建詞雲。一、引用庫

文字處理(二)詞頻統計,jieba詞性標註,snownlp情感分析

這一篇接著上一篇處理後的資料進行操作,按照(一)中的步驟,這事應該將文字資料每一行中的高頻的正面詞去掉,因為多數是描述身體健康的短句,只有少數是描述脾臟檢查異常的,所以嘗試刪除掉描述身體健康的短句,只留下少數檢查異常的資料,對異常的檢查資料進行特徵提取,這是思路。所以這一篇目