1. 程式人生 > >《機器學習》學習第二天(程式碼學習及其分析)

《機器學習》學習第二天(程式碼學習及其分析)

(一)

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

1.匯入pandas 包

2.CountVectorizer 是對對文字特徵進行分析。

這個網址是LogisticRegression - 引數說明,用哪個引數看哪個引數  

https://blog.csdn.net/jark_/article/details/78342644     【1】

logisticRegression 邏輯迴歸 https://www.cnblogs.com/weiququ/p/8085964.html

還有正則化https://www.cnblogs.com/jianxinzhou/p/4083921.html

 

---------------------------------------------------------------------------------------------------------------------------

(二)

pandas 中 inplace 引數在很多函式中都會有,它的作用是:是否在原物件基礎上進行修改

​ inplace = True:不建立新的物件,直接對原始物件進行修改;

​ inplace = False:對資料進行修改,建立並返回新的物件承載其修改結果。

預設是False,即建立新的物件進行修改,原物件不變,和深複製和淺複製有些類似。

 axis 就是指的是列,給其賦值就是有選擇的進行刪除列的操作

pint(df.drop(['one'],axis=1))

print(df.drop(['a','c'],axis = 0))

----------------------------------------------------------------------------------------------------------------------------------------------------

(三)關鍵詞權值計算演算法

tf-idf(term frequency-inverse document frequency)用於資訊檢索與文字挖掘的常用加權技術。TF-IDF是一種統計方法,用於

評估 某一個字詞對於某一檔案集或一個語料庫中的某一份檔案的重要程度。字詞的重要性與其在 檔案中出現的次數成正比,但與其在語料庫中出現的頻率成反比。

中心思想:

如果某個詞或短語在一篇文章中出現的頻率高(即TF高),並且在其他文章中很少出現(即IDF高),則認為此詞或者短語具有很好的類別區分能力,適合用來分類。

TF(Term Frequency,詞頻)表示一個給定詞語t在一篇給定文件d中出現的頻率。TF越高,則詞語t對文件d來說越重要,TF越低,則詞語t對文件d來說越不重要。那是否可以以TF作為文字相似度評價標準呢?答案是不行的,舉個例子,常用的中文詞語如“我”,“了”,“是”等,在給定的一篇中文文件中出現的頻率是很高的,但這些中文詞幾乎在每篇文件中都具有非常高的詞頻,如果以TF作為文字相似度評價標準,那麼幾乎每篇文件都能被命中。

IDF(Inverse Document Frequency,逆向檔案頻率)的主要思想是:如果包含詞語t的文件越少,則IDF越大,說明詞語t在整個文件集層面上具有很好的類別區分能力。IDF說明了什麼問題呢?還是舉個例子,常用的中文詞語如“我”,“了”,“是”等在每篇文件中幾乎具有非常高的詞頻,那麼對於整個文件集而言,這些詞都是不重要的。對於整個文件集而言,評價詞語重要性的標準就是IDF。
(TF對於某一字詞在一片文章中出現頻率,由此反映在此文章中的重要性,而IDF是看這個字詞在整個文件集中出現的頻率,如果幾乎每篇文章都會出現,該字詞在整個文件集中 沒那麼重要。)

(四)Python:sklearn資料預處理中fit(),transform()與fit_transform()的區別

https://blog.csdn.net/anshuai_aw1/article/details/82498374