機器學習分類演算法(一)——餘弦相似度

阿新 • • 發佈：2019-01-09

概述:餘弦相似度是通過測量兩個向量點積空間夾角的餘弦值來判斷相似性。0°角的餘弦值是1，90°為0，餘弦值大小在[-1,1]區間。

數學原理:

向量:空間中有兩個點原點O和點A，OA(O指向A)就是一個向量，向量是有長度有方向的。

點積(內積): <O,A> = ∑(Oi*Ai)

向量長度: ||A||= sqrt(<A,A>) = sqrt(∑A*A)

餘弦公式: cos(α) = A*B / ||A||*||B|| = ∑Ai*Bi / sqrt(∑A*A)*sqrt(∑B*B)

應用舉例:文字新聞分類

原理:將爬出來的文章用jieba分詞庫分好詞，然後去除停用詞，再用map把詞頻進行統計，利用已分好類別的文章和當前待分類文章的詞條詞頻進行餘弦相似度計算，根據計算結果將文章分類。

步驟:

1. 用爬蟲爬好一定數量的文章

2. 先開啟已知某類文章並用jieba庫進行分詞操作

file1 = open(filename)  #先讀檔案
file_str = file1.read() #檔案字串
file_str = Unicode(file_str,’utf-8’) #文字編碼轉成utf-8
file1.close() #關閉檔案
#jieba庫的使用之cut，將目標字串分解返回一個生成器，第二個引數是是#否完全分割，預設false
seglist = jieba.cut(file_str,cut_all = False)
#jieba.cut_for_search(str) 是以搜尋引擎模式分割
strlist = “,”.join(seglist)#將返回的分詞生成器轉換成字串中間用‘，’分開

3. 載入停用詞檔案

file2  = open(tingyongci_file_at) #開啟停用詞檔案
#像操作剛才的待讀文字一樣進行處理 不過停用詞檔案每行一個停用詞
所以停用詞以換行符為單位分割儲存到stop_str裡
file2_str = file2.read()
file2_str = Unicode(file2_str,’utf-8’)
file2.close()
stop_str = file2_str.split(‘\n’)

ps：什麼是停用詞，又有什麼作用？

如圖，就是這樣的無實際意義、大多起連線作用、去除並不影響語意理解的詞

4. 去除停用詞並將有用的詞條放到map中進行詞頻統計

t_allword = {} #不計數僅僅統計詞條

allword = {} #當前文章中所有出現的有效詞條map，並且已計數

for myword in strlist.split(','):
       if not(myword.strip() in stop_str) and len(myword.strip()) > 1:
       <span style="white-space:pre">	</span>   t_allword.setdefault(myword,0)
           all_word.setdefault(myword,0)
           all_word[myword] += 1

5. 此時已知類別的標本文章已經處理完畢，接下來對未分類文章進行同樣的處理：jieba分詞、去除停用詞並加入map進行詞條詞頻統計。

6. 將已知分類文章map和當前待分類文章map進行餘弦相似度計算，也就是將map的key放到list裡，也就是對應每個詞條的詞頻，將文章特徵數字化也就可以進行餘弦相似度計算了。

def cos_like(x,y): #計算餘弦相似度函式
 tx = np.array(x)
 ty = np.array(y)
 cos1 = np.sum(tx*ty)
   cos21 = np.sqrt(sum(tx**2))
   cos22 = np.sqrt(sum(ty**2))
 returncos1/float(cos21*cos22)

完整程式碼：

# -*- coding: utf-8 -*-
'''
Created on 2015-11-17
 
@author: haoran
'''
import copy
import jieba
import numpy as np
from os import listdir
 
tingyongci_file_at = 'text_test/tingyongci.txt'
filename = 'text_test/junshi1.txt'
 
file2 = open(tingyongci_file_at)
file2_str = file2.read()
file2_str = unicode(file2_str,'utf-8')
file2.close()
stop_str = file2_str.split('\n')    #停用詞列表
 
def cos_like(x,y):
    tx= np.array(x)
    ty= np.array(y)
   cos1 = np.sum(tx*ty)
   cos21 = np.sqrt(sum(tx**2))
   cos22 = np.sqrt(sum(ty**2))
    return cos1/float(cos21*cos22)
 
def ret_main_guanjianci(filename):   #返回主樣本關鍵詞map和temp_map
   file1 = open(filename)
   file_str = file1.read()
   file_str = unicode(file_str,'utf-8')
   file1.close()
   seglist = jieba.cut(file_str,cut_all=False)
    print type(seglist)
   strlist = ",".join(seglist)
 
   t_allword = {}
   all_word = {}
    for myword in strlist.split(','):
       if not(myword.strip() in stop_str) and len(myword.strip()) > 1:
           t_allword.setdefault(myword,0)
           all_word.setdefault(myword,0)
           all_word[myword] += 1
    return t_allword,all_word
 
def ret_yangben_guanjianci(file_at,t_allword):   #返回待測樣本的關鍵字map
   ret_word = copy.deepcopy(t_allword)
    file= open(file_at)   
   string = file.read()
   string = unicode(string,'utf-8')
   file.close()
    #print string
   fenci = jieba.cut(string)
    for myword in fenci:
       if not(myword.strip() in stop_str):
           if ret_word.has_key(myword):
                ret_word[myword]+=1
    return ret_word
 
def compare_main(main_file,comp_file):
   t_allword,all_word = ret_main_guanjianci(main_file)
   alldata = []
   compdata = []
   t_word = ret_yangben_guanjianci(comp_file,t_allword)
    for key in all_word.keys():
       alldata.append(all_word[key])
       compdata.append(t_word[key])
    print alldata
    print compdata
   ans1 = cos_like(alldata,compdata)
    print '%s文字和 %s文字相似度為 %f'%(main_file,comp_file,ans1)
 
 
 
futherfolder = 'text_test'
files = listdir(futherfolder)
n = len(files)
for i in range(0,n-1):
   compare_main(futherfolder+'/'+files[3],futherfolder+'/'+files[i])

機器學習分類演算法(一)——餘弦相似度

概述:餘弦相似度是通過測量兩個向量點積空間夾角的餘弦值來判斷相似性。0°角的餘弦值是1，90°為0，餘弦值大小在[-1,1]區間。數學原理: 向量:空間中有兩個點原點O和點A，OA(O指向A)就是一個向量，向量是有長度有方向的。點積(內積):

機器學習分類演算法之K近鄰（K-Nearest Neighbor）

一、概念 KNN主要用來解決分類問題，是監督分類演算法，它通過判斷最近K個點的類別來決定自身類別，所以K值對結果影響很大，雖然它實現比較簡單，但在目標資料集比例分配不平衡時，會造成結果的不準確。而且KNN對資源開銷較大。二、計算通過K近鄰進行計算，需要： 1、載入打標好的資料集，然

機器學習分類演算法常用評價指標

# -*- coding: utf-8 -*- import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn import metrics import matplotlib.pyplot as p

python實現機器學習分類演算法原始碼————上篇

python實現機器學習分類演算法原始碼文章

機器學習分類演算法---決策樹

決策樹：樹結構，可以是二叉樹或非二叉樹，資料結構中的概念，只不過加上了判斷條件。資訊熵： 1948年，夏農提出了“資訊熵”的概念。一條資訊的資訊量大小和它的不確定性有直接的關係，即對一件事，你不知道的越多，這件事對於你來說資訊熵越大，因為你需要學的東西更多。 &nb

機器學習分類演算法之樸素貝葉斯

一、概念樸素貝葉斯模型（Naive Bayesian Model，NBM）是以條件概率為基礎的分類器，是一種監督演算法，常被用於文字分類和垃圾郵件過濾。貝葉斯理論解決的是逆向概率問題，即通過已經發生的已知的概率來推測未發生的事將會發生的概率。二、計算樸素貝葉斯各個事件發

【轉】機器學習--- 分類演算法詳解

原文連結：http://blog.csdn.net/china1000/article/details/48597469 感覺狼廠有些把機器學習和資料探勘神話了，機器學習、資料探勘的能力其實是有邊界的。機器學習、資料探勘永遠是給大公司的業務錦上添花的

相似度演算法之餘弦相似度

轉自：http://blog.csdn.net/u012160689/article/details/15341303 餘弦距離，也稱為餘弦相似度，是用向量空間中兩個向量夾角的餘弦值作為衡量兩個個體間差異的大小的度量。餘弦值越接近1，就表明夾角越接近0度，也就是兩個向量

python機器學習--分類演算法

#感知器邏輯：一個二值分類問題，分別記為1(正類別)和-1（負類別）.定義激勵函式z=wx (w為權值，x為輸入值)，當Z大於閾值時為1類，否則為-1類 #用Python實現感知器學習演算法。步驟：1、將權重初始化為0或一個極小的隨機數 2、迭代所有訓練樣本，計算出輸出值Y,更新權重。 im

機器學習-分類演算法之樸素貝葉斯

條件概率公式:P(A|B) = P(AB)/P(B) 貝葉斯定理:P(A|B) = P(B|A)P(A)/P(B) 樸素貝葉斯演算法思想:給定一個待分類的資料 X={a1,a2,……,aN},即N個特徵項，目標分類集合Y={y1,y2,……,yK}，即有K個分類通過計算P

一份非常全面的機器學習分類與迴歸演算法的評估指標彙總

本文是《機器學習寶典》第 3 篇，讀完本文你能夠掌握分類與迴歸演算法的評估指標。 PS：文末附有練習題讀完機器學習演算法常識之後，你已經知道了什麼是欠擬合和過擬合、偏差和方差以及貝葉斯誤差。在這篇給大家介紹一些機器學習中離線評估模型效能的一些指標。當我們訓練得到

機器學習_歐式距離和餘弦相似度的對比

【1】因為沒有示例自己去操作什麼情況下用餘弦距離，所以有點不透徹，用到再來複習【2】兩者主要差距 1.餘弦距離更加註重在兩個方向上的差異大小，對絕對的數值不敏感，更多的用於使用使用者對內容評分來區分興趣的相似度和差異，同時修正了使用者間可能存在的度量標準

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

機器學習三要素機器學習的三要素為：模型、策略、演算法。模型：就是所要學習的條件概率分佈或決策函式。線性迴歸模型策略：按照什麼樣的準則學習或選擇最優的模型。最小化均方誤差，即所謂的 least-squares(在spss裡線性迴歸對應的模組就叫OLS即Ordinary Least Squares)：

機器學習實戰筆記一：K-近鄰演算法在約會網站上的應用

K-近鄰演算法概述簡單的說，K-近鄰演算法採用不同特徵值之間的距離方法進行分類 K-近鄰演算法優點：精度高、對異常值不敏感、無資料輸入假定。缺點：計算複雜度高、空間複雜度高。適用範圍：數值型和標稱型。 k-近鄰演算法的一般流程收集資料:可使用任何方法

【機器學習經典演算法梳理】一.線性迴歸

【機器學習經典演算法梳理】是一個專門梳理幾大經典機器學習演算法的部落格。我在這個系列部落格中，爭取用最簡練的語言、較簡潔的數學公式，和清晰成體系的提綱，來盡我所能，對於演算法進行詳盡的梳理。【機器學習經典演算法梳理】系列部落格對於機器學習演算法的梳理，將從“基本思想”、“基本形式”、“過程推導”、“

演算法工程師修仙之路：吳恩達機器學習作業（一）

吳恩達機器學習筆記及作業程式碼實現中文版第一個程式設計作業：單變數線性迴歸（python程式碼實現）一元線性迴歸問題描述在本練習的這一部分中，您將使用只有單變數的線性迴歸方法預測餐車的利潤。假設你是一家連鎖餐廳的執行長，正在

吳恩達機器學習（十一）K-means（無監督學習、聚類演算法）

目錄 0. 前言學習完吳恩達老師機器學習課程的無監督學習，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心

機器學習實戰（一）k-近鄰演算法kNN（k-Nearest Neighbor）

目錄 0. 前言簡單案例學習完機器學習實戰的k-近鄰演算法，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心的~ 0. 前言 k-近鄰演算法kNN（k-Neare

機器學習經典演算法總結一.線性迴歸

一.基本形式 hθ(x)=θ0+θ1x1+θ2x2+....+θnxn=θTxh_θ(x)=θ_0+θ_1x_1+θ_2x_2+....+θ_nx_n=θ^Txhθ(x)=θ0+θ1x1+θ2x2+....+θnxn=θTx 二.損失函式最常用

機器學習常見演算法分類，演算法優缺點彙總

機器學習無疑是當前資料分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的演算法。本文為您總結一下常見的機器學習演算法，以供您在工作和學習中參考。機器學習的演算法很多。很多時候困惑人們都是，很多演算

機器學習分類演算法(一)——餘弦相似度

概述:餘弦相似度是通過測量兩個向量點積空間夾角的餘弦值來判斷相似性。0°角的餘弦值是1，90°為0，餘弦值大小在[-1,1]區間。

相關推薦