機器學習基礎（三十七） —— 處理類別特徵

阿新 • • 發佈：2019-01-28

當類別特徵仍保持原始形式時，其取值來自所有可能取值構成的集合而不是一個數字，故不能作為輸入。

當各個取值之間是沒有順序關係的並列關係，這樣的類別特徵稱為名義（nominal）變數。相反，那些存在順序關係的（比如評級，評級5的會好於評級1的），則被稱為有序（ordinal）變數。

將類別特徵表示為數字形式，常可藉助 1-of-k 這樣的編碼方法進行。

假設變數的取值有 k 個，如果對這些值用 1 到 k 編序，則可用長度為 k 的二元向量來表示一個變數的值。在這樣的向量裡，該取值所對應的序號所在的元素為1，其他元素均為0.

>>> labels = ['A+', 'A-' 
, 'B+', 'B-', 'C+','C-', 'D+', 'D-']
>>> binary_code = [0]*len(labels)
>>> binary_code[labels.index('B+')] = 1
>>> binary_code
[ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.]
                            # 根據 類別 B+ 獲得其對應的二元向量編碼
                            # [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.]

機器學習基礎（三十七） —— 處理類別特徵

當類別特徵仍保持原始形式時，其取值來自所有可能取值構成的集合而不是一個數字，故不能作為輸入。當各個取值之間是沒有順序關係的並列關係，這樣的類別特徵稱為名義（nominal）變數。相反，那些存在順序關係的（比如評級，評級5的會好於評級1的），則被稱為有序（

機器學習基礎（三十五）—— 協同過濾（從匹配使用者到匹配商品）

考慮如下的使用者對影片的打分，由巢狀字典定義： critics = {'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'J

機器學習基礎（三十四）—— 協同過濾（之獲得推薦）

為未被某人評分的電影的進行打分，我們當然可以查詢品味與此人最為接近（依據相似性度量）的人的相應評分，但是這樣做過於簡單和隨意（permissive）。這種做法的問題在於：我們會找到一個熱衷某部電影的古怪評論者，而根據 topMatch 的結果，所有其他的評論者都

機器學習基礎（五十七）—— 監督學習、無監督學習

僅使用 inputs x(t) 用於學習： automatically extract meaningful features for your data leverage the availabi

機器學習基礎（三十六）—— 非規整資料（值缺失、異常值）的處理

（1）非規整（2）值缺失（3）異常值（outlier）一般來說，現實中的資料會存在資訊不完整、資料點缺失和異常值的情況，理想情況下，我們會去嘗試修復非規整資料，但很多資料集都源於一些難以重現

機器學習基礎（三十） —— 線性迴歸、正則化（regularized）線性迴歸、區域性加權線性迴歸（LWLR）

1. 線性迴歸線性迴歸根據最小二乘法直接給出權值向量的解析解（closed-form solution）： w=(XTX)−1XTy 線性迴歸的一個問題就是有可能出現欠擬合現象，因為它求的是具有最小均方誤差（LSE，Least Square Erro

Java基礎（三十七）- 執行緒相關

多執行緒常用操作方法： 1:執行緒的命名與取得 class MyThread implements Runnable { @Override public void run() { System.out.println(Thread.currentThread()

機器學習基礎（五十八）—— 夏農熵相對熵（KL散度）與交叉熵

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

OpenCV學習筆記（三十七）——實用函式、系統函式、巨集core

如果你想在OpenCV的基礎上自己開發一些演算法，我覺得core這部分內容不得不精啊，能熟練使用OpenCV的資料結構是開發的基礎，又是重中之重。最近就又拌在這上頭了，所以再重溫一下。這次分析一下Utility and System Functions and Macros

機器學習基礎（四十二）—— 常用損失函式的設計（multiclass SVM loss & hinge loss）

損失函式，又叫代價函式（成本函式，cost function），是應用優化演算法解決問題的關鍵。 1. 0-1 損失函式誤分類的概率為： P(Y≠f(X))=1−P(Y=f(X)) 我們不妨記 m≜fθ(x)⋅y（其中 y∈{−1,1}。對於二分類

我的php學習筆記（三十七） PHP站內搜尋：多關鍵字、加亮顯示

一、SQL語句中的模糊查詢主要通過LIKE（不區分大小寫）關鍵字實現模糊查詢。LIKE條件一般用在指定搜尋某欄位的時候, 通過"%"或者" _" 萬用字元的作用實現模糊查詢功能，萬用字元可以在欄位前面也可以在後面或前後都有。只通過LIKE是無法實現模糊查詢的

機器學習基礎（二十九）—— 徑向基核函式（RBF）

儘管最佳核函式的選擇一般與問題自身有關，但對普遍問題還是有規律可循的，建議初學者在通常情況下，優先考慮徑向基核函式（RBF）： K(x,y)=exp(−γ∥x−y∥2) 主要基於以下考慮：（1

Unity3D學習筆記（三十七）：頂點偏移和溶解

mar exc car struct range pass 偏移 discard 通過頂點偏移沿向量方向偏移，沿自身坐標系方向偏移沿法線方向偏移，球體放大，立方體拆分 Shader "Lesson/VFVertOffsetVertex" { Proper

geotrellis使用（三十七）COG 基礎介紹

執行 ive google gda ring 存在基礎 acc 斷點前言 Geotrellis 已經叠代到了 2.0 版本（截止寫作此文時為 2.0.0-SNAPSHOT 版），2.0 版多了很多新的特性，其中最重要的應該就是 COG，COG 是什麽鬼？剛看到時我也是一

Java基礎系列（三十七）：泛型繼承，萬用字元，泛型反射

泛型型別的繼承規則首先，我們來看一個類和它的子類，比如 Fruit 和 Apple。但是Pair<Apple>是Pair<Fruit>的一個子類麼？並不是。比如下面的這段程式碼就會編譯失敗： Apple[] apples = ...; Pair<F

Python3學習（三十七）：python中的click模組詳解

Click模組 click模組是Flask的作者開發的一個第三方模組，用於快速建立命令列。它的作用與Python標準庫的argparse相同，但是，使用起來更簡單。基本使用 Click對argparse的主要改在在於易用性，使用click模組主要分為兩個步驟：使用

Python學習之旅（三十七）

Python基礎知識（36）：訪問資料庫（Ⅰ）程式執行的時候，資料都是在記憶體中的。當程式終止的時候，通常都需要將資料儲存到磁碟上，無論是儲存到本地磁碟，還是通過網路儲存到伺服器上，最終都會將資料寫入磁碟檔案。而如何定義資料的儲存格式就是一個大問題。為了便於程式儲存和讀取資料，而且，能直接通過條件

聊聊高併發（三十七）整理一下併發基礎中的一些知識點

最近在準備併發基礎的PPT，想到了一些知識點，記錄下來以後也可以做個參考。大部分的知識點在之前的部落格中都多少涉及到了這裡的併發基礎指的是單機多處理器的情況下的一些併發問題，不涉及到分散式環境下的併發問題。併發基礎主要解決的是可見性，有序性和原子性的問題，讓不可控的程

Python學習筆記（四十七）SMTP發送郵件

email debug lib 第一個發郵件參數 html郵件命令兼容摘抄自：https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001432005

笨辦法學Python（三十七）

相等 tar .com except com lam 返回 final 每一個習題 37: 復習各種符號現在該復習你學過的符號和 python 關鍵字了，而且你在本節還會學到一些新的東西。我在這裏所作的是將所有的 Python 符號和關鍵字列出來，這些都是值得掌

機器學習基礎（三十七） —— 處理類別特徵

相關推薦