1. 程式人生 > >CountVectorizer和TfidfVectorizer注意的地方

CountVectorizer和TfidfVectorizer注意的地方

vectorizer = CountVectorizer(min_df=1)//min_df是文件詞頻,即改詞在文件中出現的文件數量,當vocabulary不為空時,該引數不起作用

corpus = [
            'I am a boy'u'我 愛 北京 天安門'
        ]
X = vectorizer.fit_transform(corpus)
feature_name = vectorizer.get_feature_names()

print feature_name

//結果是:[u'am', u'boy', u'\u5317\u4eac'
, u'\u5929\u5b89\u95e8'] //自動將‘I,a,我,愛’這些單個長度的詞過濾掉了 在英文中單個長度的詞往往屬於停用詞範圍,所以過濾掉屬於預設設定,對結果影響不大。可是在中文文字處理中,有一些單個長度的詞,比如“愛”,“恨”都有著很明顯的感情色彩。如果在做情感分析中,這些資訊都十分重要。 為了不過濾單個詞可以設定 vectorizer = CountVectorizer(token_pattern='(?u)\\b\\w+\\b') #主語 \b是詞的邊界 上面提取的特徵全部都是單個詞,同樣可以提取連詞,如下: corpus = [ '是 的 我 啊'
, '啊啊 個 的 是', '我 的','啊 愛迪生' ] X = vectorizer.fit_transform(corpus) print X.vocabulary_ // {'是': 4, '我': 3, '個': 0, '的': 6, '啊': 1, '啊啊': 2, '愛迪生': 5}

相關推薦

CountVectorizerTfidfVectorizer注意地方

vectorizer = CountVectorizer(min_df=1)//min_df是文件詞頻,即改詞在文件中出現的文件數量,當vocabulary不為空時,該引數不起作用 corpus = [ 'I am a boy',

sklearn基礎(一)文字特徵提取函式CountVectorizer()TfidfVectorizer()

CountVectorizer()函式 CountVectorizer()函式只考慮每個單詞出現的頻率;然後構成一個特徵矩陣,每一行表示一個訓練文字的詞頻統計結果。其思想是,先根據所有訓練文字,不考慮其出現順序,只將訓練文字中每個出現過的詞彙單獨視為一列特徵,構成一個詞彙表(vocabulary

sklearn文字特徵提取CountVectorizer TfidfVectorizer

fromsklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer1. CountVectorizervectorizer=CountVectorizer(analyzer = "word",

15.【進階】特徵提升之特徵抽取--CountVectorizerTfidfVectorizer

#學習目標1:使用CountVectorizer和TfidfVectorizer對非結構化的符號化資料(如一系列字串)進行特徵抽取和向量化 from sklearn.datasets import fetch_20newsgroups #從網際網路上即時下載新

物聯網通訊與普通簡訊通訊的區別注意地方

CMPP3.0中號碼欄位增加到32位,還增加了號碼型別欄位,可能是為了擴充套件不同型別的卡。 Dest_terminal_Id 32*DestUsr_tl Octet String 接收簡訊的MSISDN號碼。 Dest_terminal_ty

pthreads v3下一些坑需要注意地方

一、子執行緒無法訪問父執行緒的全域性變數,但父執行緒可以訪問子執行緒的變數 <?php class Task extends Thread { public $data; public function run() { global $n

hashCode equals 正確用法需要注意地方(面試基本都會問)

文章來源: 文章目錄: 1、hashCode()和equals()的用法 2、重寫預設實現 3、使用Apache Commons Lang包重寫hashCode()和equals() 4、需要注意記住的事情 5、當使用ORM的時候特別要注意的 has

Mysql分割槽表使用的一些限制需要注意地方

mysql分割槽策略都基於兩個非常重要的假設:查詢都能夠過濾(prunning)掉很多額外的分割槽、分割槽本身並不會帶來很多額外的代價。而事實證明,這兩個假設在某些場景下會有問題。下面介紹一些可能會遇到的問題。 NULL位會使分割槽過濾無效   關於分割槽表一個容易讓人

Confluence 6 其他需要備份恢復的地方

AC 數據庫 spl 過程 XP RoCE upgrade name 適用於 XML 備份被描述用於在 Confluence 備份使用的其他方法,例如升級和移動服務器。使用上面描述的備份和恢復方法也適用這些地方。 我們的 upgrade guide 不要求使用一個 X

iOS友盟做第三方登入分享注意事項

本人使用友盟SDK的真實經歷,全,比官方文件詳細 1.下載友盟SDK及開發文件 2. 去開放中心註冊微信/QQ/微博的AppKey,注意,必須新增測試的QQ號,才能在測試,否則QQ返回登入授權失敗 3. http傳輸安全設定 A、在info.plist中加入安全域名白名單

char陣列char指標的使用區別一些注意事項

const用法 const char* p;表示p是一個指向常量字元的指標 char* const p;表示p是一個指向字元的常量指標,p是不允許改變的 另外要注意的是 const char* p等價於 char const *p 也就是說const描述char和*p是等價的

Spring Boot日誌配置中的filepath注意事項

注意:同時配置了logging.file和logging.path只有一個生效。 例如 application.properties檔案中的日誌配置如下 logging.file=mylog.txt logging.path=/var/myapp/ 實際只有logging.

【轉】分散式事務之TCC服務設計實現注意事項

1、TCC簡介 TCC是一種比較成熟的分散式事務解決方案,可用於解決跨庫操作的資料一致性問題; TCC是服務化的兩階段程式設計模型,其Try、Confirm、Cancel 3個方法均由業務編碼實現; 其中Try操作作為一階段,負責資源的檢查和預留,Confirm操作作為二階段提交操作,執行真正的業務,C

SQVISAP查詢QUERY的區別使用注意事項

SQVI、SAP查詢QUERY都適用於簡單的表連線資料查詢,但都不能打包傳輸到PRD,不同環境需要重複建立。可以生成報表程式供T-CODE呼叫,用se93指定事務碼和程式名稱。 區別1-許可權: SQVI每個使用者建立的query只能自己檢視,別的使用者看不到,但是通過掛接事務碼可以解決。

機器學習筆記 (四)Scikit-learn CountVectorizerTfidfVectorizer

Scikit-learn CountVectorizer 與 TfidfVectorizer 在文字分類問題中,我們通常進行特徵提取,這時,我們需要利用到要介紹的工具,或者其他工具。文字的特徵提取特別重要,體現這個系統做的好壞,分類的準確性,文字的特徵需要自己

G++C++區別評測注意事項

G++和C++的區別和評測注意事項 下面摘抄自網際網路 G++ 首先更正一個概念,C++是一門計算機程式語言,G++不是語言,是一款編譯器中編譯C++程式的命令而已。 那麼他們之間的區別是什麼? 在提交題目中的語言選項裡,G++和C++都代表編譯的方式。準確地說

CountVectorizerTfidfVectorizer 對文字特徵的特徵抽取

對新聞文字資料使用CountVectorizer與TfidfVectorizer  抽取特徵,使用樸素貝葉斯進行分類。 # -*- coding:utf-8 -*- if __name__ == '__main__': print "hello" # 從sklearn.

Netty5.x中新增值得注意的點

最近事情多,OneCoder折騰了好幾天,總算翻譯完成了。 該文件會列出在Netty新版本中值得注意變化和新特性列表。幫助你的應用更好的適應新的版本。 不像Netty3.x和4.x之間的變化,5.x沒有那麼大的變化,不過也取得了

使用阿里巴巴資料來源log4j注意的事項

這個也是一個小知識。之前我發過一個資源空白maven web專案,直接寫業務程式碼即可。本來以為有了這個模板,以後直接寫業務程式碼就行了。但是我使用這個模板做了兩個不同的應用部署在同一臺TOMCAT下面,發現一個應用可以使用,另外一個卻不可以。也就是說這兩個應用,如果單獨部署的時候都可以使用,但是部

Xpath使用例項需要注意的事項

Xpath使用例項和需要注意的事項 Xpath的語法介紹就不贅述了,參考:https://blog.csdn.net/u011486491/article/details/84061432 這篇文章就以實際使用為例,對一些xpath比較複雜的情況進行討論使用。 常用的標籤提取欄位