python實現資料離散化

阿新 • • 發佈：2018-12-22

資料探勘中有些演算法，特別是分類演算法，只能在離散型資料上進行分析，然而大部分資料集常常是連續值和離散值並存的。因此，為了使這類演算法發揮作用，需要對資料集中連續型屬性進行離散化操作。

那麼，如何對連續型屬性離散化呢?常見的有等寬分箱法，等頻分箱法：

等寬分箱法的思想是，將資料均勻劃分成n等份，每份的間距相等。

等頻分箱法的思想是，將觀察點均勻分成n等份，每份的觀察點數相同。

在對資料離散化前，需要先處理異常點敏感問題，即我們需要首先設定一個閾值將異常資料移除。有兩種思路：

1.設定閾值為90%，將資料從小到大排序，移除全部資料最小的5%和最大的5%資料

2. 設定閾值為90%，將資料從小到大排序，然後對所有資料求和，並計算每個資料佔總和的比例，移除佔比10%的資料

在這裡，我們實現的方法是等寬分箱法，針對連續型資料集，程式碼比較簡單基礎，在此拋磚引玉，大家可以在程式碼的基礎上增添自己需要的功能。

def dataDiscretize(dataSet):
    m,n = shape(dataSet)    #獲取資料集行列（樣本數和特徵數)
    disMat = tile([0],shape(dataSet))  #初始化離散化資料集
    for i in range(n-1):    #由於最後一列為類別，因此遍歷前n-1列，即遍歷特徵列
        x = [l[i] for l in dataSet] #獲取第i+1特徵向量
        y = pd.cut(x,10,labels=[0,1,2,3,4,5,6,7,8,9])   #呼叫cut函式，將特徵離散化為10類，可根據自己需求更改離散化種類
        for k in range(n):  #將離散化值傳入離散化資料集
            disMat[k][i] = y[k]    
    return disMat

python實現資料離散化

資料探勘中有些演算法，特別是分類演算法，只能在離散型資料上進行分析，然而大部分資料集常常是連續值和離散值並存的。因此，為了使這類演算法發揮作用，需要對資料集中連續型屬性進行離散化操作。那麼，如何對連

[Python--]用Python實現時間離散化

最近在分析日誌的時候遇到這樣一個需求。統計每小時的角色建立總數和每10分鐘的線上人數。需求具體實現不做討論，這裡主要記錄如何將日誌時間離散到相應區間的問題。先解釋每小時的概念，按24小時算，一天可以分這麼幾個時間點：00:00:00，01:00:00,02:00:00,.

Python實現資料視覺化，繪製各種圖案

環境系統：windows10 python版本：python3.6.1 使用的庫：matplotlib，numpy numpy庫產生隨機數幾種方法學習Python中有不明白推薦加入交流裙

Python連續資料離散化處理和pandas.cut函式用法

連續資料離散化場景：資料分析和統計的預處理階段，經常的會碰到年齡、消費等連續型數值，我們希望將數值進行離散化分段統計，提高資料區分度，那麼下面介紹一個簡單使用的pandas中的 cut() 方法函式用法： **cut(series, bins, right=True, lab

python資料預處理：資料離散化

何為離散化：一些資料探勘演算法中，要求資料是分類屬性形式。因此常常需要將連續屬性的資料通過斷點進行劃分最後歸屬到不同的分類，即離散化。為什麼要離散化：調高計算效率分類模型計算需要給予距離計算模型（k均值、協同過濾）中降低異常資料對模型的影響

Python資料分析與挖掘學習筆記（5）資料規範化與資料離散化實戰

一、相關理論： 1、資料規範化的常見方法：（1）離差標準化（最小-最大標準化）--消除量綱（單位）影響以及變異大小因素的影響。（最小-最大標準化） x1=（x-min）/（max-min）（2）標準差標準化--消除單

python資料離散化

#資料規範化 import pandas as pd datafile = 'C:/Users/Administrator/Desktop/demo/data/discretization_data.xls' #引數初始化 data = pd.read_excel(data

資料離散化模板（用STL實現）

最近在練習一道提的時候，資料比較大，總過不了，後來瞭解得需要用離散化，對視拋棄沒有用到資料只存取有用的資料，並且用簡單好記的東西去儲存，例如：有些資料本身很大，自身無法作為陣列的下標儲存對

利用 Python 中 Bokeh 實現資料視覺化，第二部分：互動

原文地址：Data Visualization with Bokeh in Python, Part II: Interactions 原文作者：Will Koehrsen 譯文出自：掘金翻譯計劃本文永久連結：github.com/xitu/gold-m… 譯者：Sta

[譯] 利用 Python中的 Bokeh 實現資料視覺化，第三部分：製作一個完整的儀表盤

原文地址：Data Visualization with Bokeh in Python, Part III: Making a Complete Dashboard 原文作者：Will Koehrsen 譯文出自：掘金翻譯計劃本文永久連結：github.com/xitu/g

python專案實戰:實現資料視覺化三維擬合

前言今天為大家介紹一個利用python實現資料視覺化三維擬合,具有一定的參考價值,下面就來看看具體的實現過程吧, 匯入第三方

python實現資料庫序列化儲存帶有漢字的列表

import pymysql import json b = ["你","好"] b = json.dumps(b,ensure_ascii=False) conn = pymysql.connect(host="",port=3306,user='',password='',db='',char

《資料結構》-python實現-資料的插入與刪除

資料插入 #資料插入：在list中的第i個位置插入元素e def Insert(list, i, e): if i>len(list)-1: return False list.append([]) for k in range(len(l

[SQL Server玩轉Python] 二.T-SQL查詢表格值及Python實現資料分析

在開發專案過程中，更多的是通過Python訪問SQL Server資料庫介面，進行資料探勘的操作；而SQL Server2016版本之後，嵌入了強大的R、Python、Machine Learning等功能，尤其是Python程式碼置於儲存過程中，可以實現一些便捷資料分析功能。本系

python之資料視覺化

各種圖形簡介線性圖:plt.plot(x,y,*argv) 條形圖：plt.bar(x,y)x和y的長度應相等水平條形圖：plt.barh(x,y)x軸成垂直,y軸水平而已條形圖高度表示某專案內的資料個數，由於分組資料具有連續性，直方圖的各矩形通常是連續排列，而條形圖則是分開排

Python進行資料視覺化分析快速教程例項

Jupyter Notebook介紹 Jupyter Notebook是一個互動式筆記本，支援執行 40 多種程式語言。IPython notebook 是一個基於 IPython REPL 的 web 應用，安裝 IPython 後在終端輸入 ipython notebook 即可啟動服務。j

neo4j圖形資料庫第七彈——整合vis.js實現資料視覺化

正經學徒，佛系記錄，不搞事情基於上文：https://blog.csdn.net/qq_31748587/article/details/84232352 vis.js的專案基於上文：https://blog.csdn.net/qq_31748587/artic

用Python實現資料驅動的介面自動化測試

在介面測試的過程中，很多時候會用到對CSV的讀取操作，本文主要說明Python3對CSV的寫入和讀取。在介面測試的過程中，很多時候會用到對CSV的讀取操作，本文主要說明Python3對CSV的寫入和讀取。 1. 需求某API，GET方法，token,mobile,email三個引數 tok

Python實現資料結構佇列約瑟夫環問題

問題描述: 人們站在一個等待被處決的圈子裡。計數從圓圈中的指定點開始，並沿指定方向圍繞圓圈進行。在跳過指定數量的人之後，執行下一個人。對剩下的人重複該過程，從下一個人開始，朝同一方向跳過相同數量

利用pandas對資料離散化

在實際的工作場景中，我們經常會遇到這樣一種場景：想要將某些欄位進行離散化即分桶，簡單來說就是講年齡分成幾個區間。pandas中的cut方法能很好地完成此操作。 #匯入相關庫，並建立資料集 import pandas as pd import numpy as np in

python實現資料離散化

相關推薦