簡單易學的機器學習演算法——因子分解機(Factorization Machine)

阿新 • • 發佈：2019-01-04

#coding:UTF-8

from __future__ import division
from math import exp
from numpy import *
from random import normalvariate#正態分佈
from datetime import datetime

trainData = 'E://data//diabetes_train.txt'
testData = 'E://data//diabetes_test.txt'
featureNum = 8

def loadDataSet(data):
    dataMat = []
    labelMat = []
    
    fr = open(data)#開啟檔案
    
    for line in fr.readlines():
        currLine = line.strip().split()
        #lineArr = [1.0]
        lineArr = []
        
        for i in xrange(featureNum):
            lineArr.append(float(currLine[i + 1]))
        dataMat.append(lineArr)
        
        labelMat.append(float(currLine[0]) * 2 - 1)
    return dataMat, labelMat

def sigmoid(inx):
    return 1.0 / (1 + exp(-inx))

def stocGradAscent(dataMatrix, classLabels, k, iter):
    #dataMatrix用的是mat, classLabels是列表
    m, n = shape(dataMatrix)
    alpha = 0.01
    #初始化引數
    w = zeros((n, 1))#其中n是特徵的個數
    w_0 = 0.
    v = normalvariate(0, 0.2) * ones((n, k))
    
    for it in xrange(iter):
        print it
        for x in xrange(m):#隨機優化，對每一個樣本而言的
            inter_1 = dataMatrix[x] * v
            inter_2 = multiply(dataMatrix[x], dataMatrix[x]) * multiply(v, v)#multiply對應元素相乘
            #完成交叉項
            interaction = sum(multiply(inter_1, inter_1) - inter_2) / 2.
            
            p = w_0 + dataMatrix[x] * w + interaction#計算預測的輸出
        
            loss = sigmoid(classLabels[x] * p[0, 0]) - 1
            print loss
        
            w_0 = w_0 - alpha * loss * classLabels[x]
            
            for i in xrange(n):
                if dataMatrix[x, i] != 0:
                    w[i, 0] = w[i, 0] - alpha * loss * classLabels[x] * dataMatrix[x, i]
                    for j in xrange(k):
                        v[i, j] = v[i, j] - alpha * loss * classLabels[x] * (dataMatrix[x, i] * inter_1[0, j] - v[i, j] * dataMatrix[x, i] * dataMatrix[x, i])
        
    
    return w_0, w, v

def getAccuracy(dataMatrix, classLabels, w_0, w, v):
    m, n = shape(dataMatrix)
    allItem = 0
    error = 0
    result = []
    for x in xrange(m):
        allItem += 1
        inter_1 = dataMatrix[x] * v
        inter_2 = multiply(dataMatrix[x], dataMatrix[x]) * multiply(v, v)#multiply對應元素相乘
        #完成交叉項
        interaction = sum(multiply(inter_1, inter_1) - inter_2) / 2.
        p = w_0 + dataMatrix[x] * w + interaction#計算預測的輸出
        
        pre = sigmoid(p[0, 0])
        
        result.append(pre)
        
        if pre < 0.5 and classLabels[x] == 1.0:
            error += 1
        elif pre >= 0.5 and classLabels[x] == -1.0:
            error += 1
        else:
            continue
        
    
    print result
    
    return float(error) / allItem
        
   
if __name__ == '__main__':
    dataTrain, labelTrain = loadDataSet(trainData)
    dataTest, labelTest = loadDataSet(testData)
    date_startTrain = datetime.now()
    print "開始訓練"
    w_0, w, v = stocGradAscent(mat(dataTrain), labelTrain, 20, 200)
    print "訓練準確性為：%f" % (1 - getAccuracy(mat(dataTrain), labelTrain, w_0, w, v))
    date_endTrain = datetime.now()
    print "訓練時間為：%s" % (date_endTrain - date_startTrain)
    print "開始測試"
    print "測試準確性為：%f" % (1 - getAccuracy(mat(dataTest), labelTest, w_0, w, v))

2、實驗結果：

簡單易學的機器學習演算法——因子分解機(Factorization Machine)

#coding:UTF-8 from __future__ import division from math import exp from numpy import * from random import normalvariate#正態分佈 from datetime import datetime

教你6步從頭寫機器學習演算法——以感知機演算法為例

自己從頭寫一個演算法，不僅能給你帶來成就感，也能幫你真正理解演算法的原理。可能你之前用 Scikit-learn 實現過演算法，但是從零開始寫個演算法簡單嗎？絕對不簡單。有些演算法要比其它演算法複雜的多，所以在寫演算法時可以先從簡單的開始，比如單層的感知機。下面就介紹機器學家 John S

機器學習演算法——支援向量機svm，實現過程

初學使用python語言來實現支援向量機演算法對資料進行處理的全過程。 from sklearn.datasets import load_iris #匯入資料集模組 from sklearn.model_selection import train_test_spli

機器學習---演算法---支援向量機---線性SVM--第一部分

轉自：https://cuijiahua.com/blog/2017/11/ml_8_svm_1.html 什麼是SVM？ SVM的英文全稱是Support Vector Machines，我們叫它支援向量機。支援向量機是我們用於分類的一種演算法。讓我們以一個小故事的形式，開啟我們的SVM之旅吧。在很

機器學習筆記之八—— knn-最簡單的機器學習演算法以及KD樹原理

上一節結束了線性迴歸、邏輯迴歸，今天一節來介紹機器學習中最簡單的演算法： K近鄰（KNN，全稱K-nearst Neighbor）概述：判斷一個樣本的label只需要判斷該樣本週圍其他樣本的label。簡言之，朋

機器學習演算法【感知機演算法PLA】【5分鐘讀完】

本來想說3分鐘可以讀完的，但是想到自己的表達水平。我覺得可能需要多出2分鐘來理解我說的話。感知機演算法一開始這個名字，不懂的人覺得這個逼格很高，感覺很厲害的樣子，其實這個演算法很水的…. 對於這個演算法，我們只需要知道下面這幾樣東西： 1.

簡單易學的機器學習演算法——SVD奇異值分解

一、SVD奇異值分解的定義假設是一個的矩陣，如果存在一個分解：其中為的酉矩陣，為的半正定對角矩陣，為的共軛轉置矩陣，且為的酉矩陣。這樣的分解稱為的奇異值分解，對角線上的元素稱為奇異值，稱

簡單易學的機器學習演算法——極限學習機(ELM)

一、極限學習機的概念極限學習機(Extreme Learning Machine) ELM，是由黃廣斌提出來的求解單隱層神經網路的演算法。ELM最大的特點是對於傳統的神經網路，尤其是單隱層

簡單易學的機器學習演算法——Softmax Regression

Contents [hide] 1 簡介 2 代價函式 3 Softmax迴歸模型引數化的特點 4&nbs

簡單易學的機器學習演算法——梯度提升決策樹GBDT

梯度提升決策樹（Gradient Boosting Decision Tree，GBDT）演算法是近年來被提及比較多的一個演算法，這主要得益於其演算法的效能，以及該演算法在各類資料探勘以及機器學習比賽中的卓越表現，有很多人對GBDT演算法進行了開原始碼的開發，比較火的是陳

簡單易學的機器學習演算法——AdaBoost

#coding:UTF-8 ''' Created on 2015年6月15日 @author: zhaozhiyong ''' from numpy import * def loadSimpleData(): datMat = mat([[1., 2.1],

簡單易學的機器學習演算法——K-近鄰演算法

# coding:UTF-8 import cPickle as pickle import gzip import numpy as np def load_data(data_file): with gzip.open(data_file, 'rb') as f: train_set, vali

簡單易學的機器學習演算法——整合方法(Ensemble Method)

一、整合學習方法的思想前面介紹了一系列的演算法，每個演算法有不同的適用範圍，例如有處理線性可分問題的，有處理線性不可分問題。在現實世界的生活中，常常會因為“集體智慧”使得問題被很容易解決，那麼問題來了，

簡單易學的機器學習演算法——K-Means演算法

一、聚類演算法的簡介聚類演算法是一種典型的無監督學習演算法，主要用於將相似的樣本自動歸到一個類別中。聚類演算法與分類演算法最大的區別是：聚類演算法是無監督的學習演算法，而分類演算法屬於監督的學習

簡單易學的機器學習演算法——樸素貝葉斯

一、貝葉斯定理 1、條件概率條件概率是指在事件B發生的情況下，事件A發生的概率，用表示。 2、全概率公式含義是：如果和構成樣本空間的一個劃分，那麼

簡單易學的機器學習演算法——神經網路之BP神經網路

%% BP的主函式 % 清空 clear all; clc; % 匯入資料 load data; %從1到2000間隨機排序 k=rand(1,2000); [m,n]=sort(k); %輸入輸出資料 input=data(:,2:25); output1 =data(:,1); %把輸出從1維變

簡單易學的機器學習演算法——EM演算法

一、機器學習中的引數估計問題在前面的博文中，如“簡單易學的機器學習演算法——Logistic迴歸”中，採用了極大似然函式對其模型中的引數進行估計，簡單來講即對於一系列樣本，Logistic迴

簡單易學的機器學習演算法——Gibbs取樣

一、Gibbs取樣概述前面介紹的Metropolis-Hastings取樣為從指定分佈中進行取樣提供了一個統一的框架，但是取樣的效率依賴於指定的分佈的選擇，若是選擇的不好，會使得接受率比較低，大量的取樣被拒絕，影響到整體的收斂速度。 Gibbs取樣是Met

簡單易學的機器學習演算法——Logistic迴歸

一、Logistic迴歸的概述 Logistic迴歸是一種簡單的分類演算法，提到“迴歸”，很多人可能覺得與分類沒什麼關係，Logistic迴歸通過對資料分類邊界的擬合來實現分類。而“迴歸”也就

簡單易學的機器學習演算法——嶺迴歸(Ridge Regression)

一、一般線性迴歸遇到的問題在處理複雜的資料的迴歸問題時，普通的線性迴歸會遇到一些問題，主要表現在：預測精度：這裡要處理好這樣一對為題，即樣本的數量和特徵的數量時，最小二乘迴歸會有較小的

簡單易學的機器學習演算法——因子分解機(Factorization Machine)

2、實驗結果：

相關推薦