python資料預處理：資料離散化

阿新 • • 發佈：2018-11-27

何為離散化：

一些資料探勘演算法中，要求資料是分類屬性形式。因此常常需要將連續屬性的資料通過斷點進行劃分最後歸屬到不同的分類，即離散化。

為什麼要離散化：

調高計算效率
分類模型計算需要
給予距離計算模型（k均值、協同過濾）中降低異常資料對模型的影響
影象處理中的二值化處理

ps：離散化也可以用於已經離散化的資料，就是值域的重新劃分，一切都是看業務需要

連續資料離散化方法：

分位數法：使用四分位、五分位、十分位等進行離散
距離區間法：等距區間或自定義區間進行離散，有點是靈活，保持原有資料分佈
頻率區間法：根據資料的頻率分佈進行排序，然後按照頻率進行離散，好處是資料變為均勻分佈，但是會更改原有的資料結構

聚類法：使用k-means將樣本進行離散處理
卡方：通過使用基於卡方的離散方法，找出資料的最佳臨近區間併合並，形成較大的區間
二值化：資料跟閾值比較，大於閾值設定為某一固定值（例如1），小於設定為另一值（例如0），然後得到一個只擁有兩個值域的二值化資料集。

ps：卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度，實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趨於符合，若兩個值完全相等時，卡方值就為0，表明理論值完全符合。

python實現

import pandas as pd
from sklearn. 
cluster import KMeans
from sklearn import preprocessing

#######時間序列離散#######
# 創造時間資料
date = pd.date_range('5/1/2018','11/26/2018')
df_t = pd.DataFrame(date, columns=['date'])
# 轉化為周
df_t['week'] = df_t['date'].apply(lambda x:x.weekday())
df_t.head()

在這裡插入圖片描述

# 匯入資料
df = pd.read_csv('https://raw.githubusercontent.com/ffzs/dataset/master/Mall_Customers.csv' 
, usecols=['Age', 'Annual Income (k$)', 'Spending Score (1-100)'])

# 更改列名
df.columns = ['Age', 'Income', 'Spend']

#######等距離散#######
df['Age_discretized'] = pd.cut(df.Age, 4, labels=range(4))

df.groupby('Age_discretized').count()

在這裡插入圖片描述

#####使用聚類實現離散化#######
# 資料準備
data = df['Income']

# 改變資料形狀
data_re = data.reshape((data.index.size, 1))

# 建立k-means模型並指定聚類數量
km_model = KMeans(n_clusters=4, random_state=2018)

# 模型匯入資料
result = km_model.fit_predict(data_re)

# 離散資料併入原資料
df['Income_discretized'] = result

df.groupby('Income_discretized').count()

在這裡插入圖片描述

#####使用4分位離散資料#######
df['Spend_discretized'] = pd.qcut(df.Spend, 4, labels=['C', 'B', 'A', 'S'])

df.groupby('Spend_discretized').count()

在這裡插入圖片描述

#####等頻率離散#######
# 設定離散區間數
k =4
# 獲取資料
data = df.Age
# 設定頻率範圍
w = [1.0*i/k for i in range(k+1)]
# 使用describe獲取頻率區域的分界點
w = data.describe(percentiles = w)[4:4+k+1]
w[0] = w[0]*(1-1e-10)

# 根據分界點進行資料離散處理
df['Age2'] = pd.cut(data, w, labels = range(k))

df.groupby('Age2').count()

在這裡插入圖片描述

#####資料二值化######
# 建立模型 根據平均值作為閾值
data = df['Income']
binarizer_scaler = preprocessing.Binarizer(threshold=data.mean())

# 二值化處理
result = binarizer_scaler.fit_transform(data.reshape(-1, 1))

# 資料合併
df['Income2'] = result

df.groupby('Income2').count()

在這裡插入圖片描述

python資料預處理：資料離散化

何為離散化：一些資料探勘演算法中，要求資料是分類屬性形式。因此常常需要將連續屬性的資料通過斷點進行劃分最後歸屬到不同的分類，即離散化。為什麼要離散化：調高計算效率分類模型計算需要給予距離計算模型（k均值、協同過濾）中降低異常資料對模型的影響

python資料預處理：資料標準化

何為標準化：在資料分析之前，我們通常需要先將資料標準化（normalization），利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題，對不同性質指標直接加總不能正確

python資料預處理：資料相關性

何為相關性：相關性分析是指對具備相關性關係的變數進行分析，從而衡量變數間的相關程度或密切程度。相關性可以應用到所有資料的分析過程中，任何事物之間都是存在一定的聯絡。相關性用R（相關係數）表示，R的取值範圍是[-1, 1] 相關和因果：相關並不是因果，例如商品銷售活動時，通

python資料預處理：資料共線性處理

何為共線性：共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致迴歸模型的穩定性和準確性大大降低，另外，過多無關的維度計算也很浪費時間共線性產生原因：變量出現共線性的原因：資料樣本不夠，導致共線性存在偶然性，這其實反映了缺少資料對於資料建

python資料預處理：資料抽樣

何為資料抽樣：抽樣是資料處理的一種基本方法，常常伴隨著計算資源不足、獲取全部資料困難、時效性要求等情況使用。抽樣方法：一般有四種方法：隨機抽樣直接從整體資料中等概率抽取n個樣本。這種方法優勢是，簡單、好操作、適用於分佈均勻的場景；缺點是總體大時無法一一編

python資料預處理：資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都需要對資料做降維處理。資料降維有兩種方式：特徵選擇，維度轉換特徵選擇

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

主要內容：格式轉換缺失資料異常資料資料標準化操作格式轉換如Python記錄時間的方式，不能夠直接實現減運算，就需要進行轉換 pandas.to_datetime 缺失資料忽略缺失資料直接標記利用平均值、最常出現值進行填充異常資料處

機器學習小組知識點27：資料預處理之資料離散化（Data Discretization）

離散化和概念分層產生通過將屬性域劃分為區間，離散化技術可以用來減少給定連續屬性值的個數。區間的標號可以替代實際的資料值。如果使用基於判定樹的分類挖掘方法，減少屬性值的數量特別有好處。通常，這種方法是遞迴的，大量的時間花在每一步的資料排序上。因此，待排序的不同

python資料預處理：樣本分佈不均（過取樣和欠取樣）

何為樣本分佈不均：樣本分佈不均衡就是指樣本差異非常大，例如共1000條資料樣本的資料集中，其中佔有10條樣本分類，其特徵無論如何你和也無法實現完整特徵值的覆蓋，此時屬於嚴重的樣本分佈不均衡。為何要解決樣本分佈不均：樣本分部不均衡的資料集也是很常見的：比如惡意刷單、黃牛訂

python資料預處理：字元變數獨熱編碼(one-hot encoding)

許多的資料取樣中會有很多以以字串形式出現的資料，這樣的資料沒有辦法直接跟其他數值變數合併成向量，這些值一般是分類資料或是順序資料。分類資料：分類資料指某些資料類別的只能歸於某一類非數值型資料，例如男、女。分類資料中的值沒有明顯高低好壞之分，只是由來區分兩個或多個具有相同或相

python資料預處理：使用pandas 進行資料清洗

問題：介紹資料清洗方法。。解答：所謂資料清洗主要處理的是資料中的缺失值、異常值和重複值：缺失值處理資料缺失值指由於各種原因導致資料中存在的空缺值：資料庫中的null，python返回物件none，pandas或numpy中的nan；另空字串是有實體的不算是缺

資料預處理之資料離散化

資料離散化的意義資料離散化是指將連續的資料進行分段，使其變為一段段離散化的區間。分段的原則有基於等距離、等頻率或優化的方法。資料離散化的原因主要有以下幾點： 1**.演算法需要：** 比如決策樹、樸素貝葉斯等演算法，都是基於離散型的資料展開的。如果要使用

Python資料預處理：機器學習、人工智慧通用技術（1）

Python資料預處理：機器學習、人工智慧通用技術白寧超 2018年12月24日17:28:26 摘要：大資料技術與我們日常生活越來越緊密，要做大資料，首要解決資料問題。原始資料存在大量不完整、不一致、有異常的資料，嚴重影響到資料建模的執行效率，甚至可能導致模型

資料預處理：讀取檔案資料，並存為python陣列

檔案的簡單讀取 # 定義一個將檔案中的資料轉化為陣列的類 import numpy as np class DataUtil: # =============================================================================

資料預處理：原始資料集，特徵數值化，特徵值數值化

原始資料集，特徵數值化在原始資料集中，feature是多種多樣的，為了方便處理，我們必須把feature數值化，而且還需要把特徵值數值化。示例： x=[[黃色,小,成人,用手打] ,[黃色,小,成人,用腳踩] ,[黃色,小,小孩,用手打] ,[黃色,小,小孩,用腳踩] ,[黃

京東豬臉識別比賽資料預處理：用Python將視訊每一幀提取儲存為圖片

最近參加京東的豬臉識別比賽，訓練集是30個視訊，需要將視訊的每一幀提取出來儲存為圖片，存入對應的資料夾（分類標籤）。本例是直接呼叫了cv2 模組中的 VideoCapture。一次執行，大概10分鐘，就能得到預處理後的分類圖片了，具體程式碼如下。

機器學習（一）：用sklearn進行資料預處理：缺失值處理、資料標準化、歸一化

在我們平時進行資料資料探勘建模時，一般首先得對資料進行預處理，其中就包括資料缺失值、異常值處理、資料的標準化、歸一化等等。下面主要介紹如何對一個數據檔案進行資料的缺失值處理、標準化和歸一化 MID_SP MID_AC MID_R25 MID_COND LITHO1 55.

【Python資料預處理】歸一化（按列減均值，除方差），標準化（按列縮放到指定範圍），正則化（範數）

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同

資料預處理：One-Hot Encoding

機器學習中，在對資料進行訓練之前，都會對資料進行預處理，也就是特徵提取，個人認為特徵提取是訓練模型中非常非常重要的一步！在迴歸，分類，聚類等機器學習演算法中，特徵之間距離的計算或相似度的計算是非常重要的，而我們常用的距離或相似度的計算都是在歐式空間的相似度計算，計算餘弦相似性，基於的就是歐

資料預處理--輸入歸一化/標準化/放縮

輸入歸一化/標準化 Alex 和 Caffe中的初始化引數都是基於均值歸一化的，如果不做歸一化，會因為輸入大了一半，導致訓練失敗。這也是為什麼Caffe強制為樣本計算影象均值的原因。這樣，畫素值[0,255]被調整成了近似[-128,128]。儘管影象資料格式規整，但是做一

python資料預處理 ：資料離散化

何為離散化：

為什麼要離散化：

連續資料離散化方法：

python實現

相關推薦

python資料預處理：資料離散化