在分類過程中對連續資料的類劃分

阿新 • • 發佈：2019-01-04

分類中對連續資料的類劃分：

在 C4.5 演算法中採用二分法對連續值進行處理。
Markdown Code

對於連續的屬性 XX 假設共出現了 n 個不同的取值，將這些取值從小到大排序{x1,x2,x3,…,xn}{x1,x2,x3,…,xn}，其中找一點作為劃分點 t ，則將資料劃分為兩類，大於 t 的為一類，小於 t 的為另一類。而 t 的取值通常為相鄰兩點的平均數

t=xi+xi+12t=xi+xi+12。

則在 n 個連續值之中，可以作為劃分點的 t 有 n-1 個。通過遍歷可以像離散型一樣來考察這些劃分點。

Gain(D,X)=Ent(D)−||D

def get_splitpoint(data, base_ent, feature):
    """
    引數:
    data -- 資料集
    base_ent -- 根節點的資訊熵
    feature -- 需要劃分的連續特徵

    返回:
    final_t -- 連續值最優劃分點
    """
    continues_value = data[feature].sort_values().astype(np.float64)  # 將連續值進行排序並轉化為浮點型別
    continues_value = [i for i in continues_value]  # 不保留原來的索引 

    t_set = []
    t_ent = {}
    for i in range(len(continues_value)-1):  # 得到劃分點 t 的集合
        temp_t = (continues_value[i]+continues_value[i+1])/2
        t_set.append(temp_t)
    for each_t in t_set:  # 計算最優劃分點
        temp1_data = data[data[feature].astype(np.float64) > each_t]  # 將大於劃分點的分為一類 

        temp2_data = data[data[feature].astype(np.float64) < each_t]  # 將小於劃分點的分為一類
        weight1 = len(temp1_data)/len(data)
        weight2 = len(temp2_data)/len(data)
        temp_ent = base_ent-weight1 * \
            get_Ent(temp1_data)-weight2*get_Ent(temp2_data)  # 計算每個劃分點的資訊增益
        t_ent[each_t] = temp_ent
    print("t_ent:", t_ent)
    final_t = max(t_ent, key=t_ent.get)
    return final_t
final_t=get_splitpoint(data,base_ent,'height')

#得到final_t後，對資料進行預處理：
def choice_1(x, t):
    if x > t:
        return ">{}".format(t)
    else:
        return "<{}".format(t)
deal_data = data.copy()
# 使用lambda和map函式將 height 按照final_t劃分為兩個類別
deal_data["height"] = pd.Series(
    map(lambda x: choice_1(int(x), final_t), deal_data["height"]))
deal_data

在分類過程中對連續資料的類劃分

分類中對連續資料的類劃分：在 C4.5 演算法中採用二分法對連續值進行處理。 Markdown Code 對於連續的屬性 XX 假設共出現了 n 個不同的取值，將這些取值從小到大排序{x1,x2,x3,…,xn}{x1,x2,x3,…,xn}，其中找一點作為劃分點 t ，則將資料

關於資料集製作過程中對圖片的一些操作

#給圖片建立資料名稱列表: ls > list.txt 給當目錄下的圖片在當前目錄下一個名為list.txt的圖片名稱列表文字檔案 #在已建立圖片名稱列表文字檔案的前提下，給圖片增添型別號在圖片所在的資料夾下開啟終端，執行下列命令： sed -i “1

Python中對複雜資料結構排序

Python中排序主要有兩個函式：sorted和列表成員函式sort，最顯著的區別是sorted會新建一個排序好的列表並返回，而sort是修改原列表並排好序。sorted的原型是： sorted(iterable, cmp=None, key=None, reverse=False) sor

sql語句中對json資料的操作

sql語句中對json資料的操作 1.獲取指定json字串中指定的屬性值，以下三種寫法等價： //attributes_json欄位的值為一個json字串，下面的

SpringMvc中對json資料的處理

1、使用@ResponseBody實現資料輸出 @ResponseBody的作用：將標註此註解的處理方法的返回值結果直接寫入HTTP ResponseBody (Re

django使用過程中獲取資料庫資料（models的注意事項）

首先說下一個表結構。 django 中用於匹配的結構。表名有以下幾點說明： 1.在匹配選擇過程中models中不必全部都進行獲取，通常獲取部分即可。 2.查詢過程中如果指定了預設引數那麼查詢時

iOS Http傳輸過程中對特殊字元的處理

在進行http傳輸的過程，如果有特殊的符合，例如“+，&。*”,不會進行處理，都直接替換掉了。原因：預設的系統不會對這些特殊符號進行轉義，只會進行替換解決辦法：在post之前對這些特殊符

golang中對map操作類

轉自https://github.com/astaxie/beeku/blob/master/map.go,依然出自beego的作者之手 package beeku import ( "sort" ) type MapSorter struct { Keys []s

Intellij IDEA中Hibernate中建立的資料類中，無法發現table和列

積累，小白也能成為大神最近在用spring整合hibernate寫東西的時候，突然出現這麼一個奇葩的問題。在寫*.hdm.xml中，對映表的時候，表上面有紅線。滑鼠放上去提示無法發現table。根據提示很明顯可以猜測出來，是因為類和資料庫沒有關聯，但

Object-C中對自定義類實現協議

如果嘗試使用自定義類（例如，人類（person類）、地址簿類（myBook類）、分數類（Fraction類））中的copy方法，如 myBook = [myBook mutableCopy]; person = [Person copy];等類似的操作，將會收到一條異

Excel中對可見資料求和，SUBTOTAL函式完美逆襲！

使用篩選功能時，如果使用常規的sum函式求和，那些被隱藏的行也被被計算進去，得到的是所有資料的總計。一、為什麼要留個空行？有人要問了，為什麼第14行為空行呢，因為如果沒有這個空行，在篩選時合計會被隱藏，所以這個空行是要留的。二、篩選問題？這個時候我們想求財

AndroidTV開發過程中對Wifi網路及Pppoe網路的開關狀態進行判斷

在AndroidTV的開發過程中,需要對網路的開關狀態進行判斷,現將判斷程式碼歸納如下: 匯入一個jar包,為了支援Pppoe的Api的呼叫 jar包附在後面的Demo裡面.匯入Demo會出現方法數超過65535的提示,具體的解決方法見:**

golang 中對json資料讀寫

程式設計中，我們很常會把資料以json格式儲存在檔案中或者讀取json檔案，golang有內建對json資料的處理包 encoding/json // file name: test.go pa

usb 驅動安裝過程中對登錄檔的改動

假設硬體ID為 USB/VID_aaaa&PID_bbbb/PRODUCTNAME 系統會在登錄檔HKEY_LOCAL_MACHINE / SYSTEM / CurrentControlSet / Enum 下為每個欄位生成一個目錄，比如ID中的第一個欄位為USB，

ArcGIS Engine 中對柵格資料的波段資訊統計

先開啟柵格檔案所在的工作空間(檔案),然後獲取其所有的波段,訪問每一個波段有時候波段中已經有直方圖或統計資訊,有時候沒有這些資訊,可以使用ComputeStatsAndHist()函式對其進行計算(資料量較大時,可能耗時較長)IWorkspaceFactory workspa

redis中對基本資料型別的操作

一、redis中對字串型別的資料結構的操作與使用字串是redis的最基礎的資料結構，其他的集中型別的資料結構都是在字串的基礎上構建的。字串型別的值可以是字串、數字、二進位制，但是指最大不能超過512M。 1、字串的基本操作（1）設定值命令：SET

JS 中對變量類型判斷的幾種方式

function jpg http 4.0 推薦是不是 undefined () 轉換文章整理搬運，出處不詳，如有侵犯，請聯系~ 數據類型判斷和數據類型轉換代碼工具在 JS 中，有 5 種基本數據類型和 1 種復雜數據類型，基本數據類型有：Undefin

mysql利用儲存過程實現對資料庫資料的遷移

CREATE DEFINER=`root`@`localhost` PROCEDURE `insertXX`() BEGIN declare AA int default 0; #聲明後續

mybatis中對枚舉類型的處理

end 位置 https spa pan details nal tle passport EnumTypeHandler存入數據庫的是枚舉的name，EnumOrdinalTypeHandler存入數據庫的是枚舉的位置。例如下方的枚舉，當我們有一個枚舉值是EStatu

【原創】Python 對象創建過程中元類, new, call, init 的處理

diff regular luci 自定義 weight ica 一般來說 att ray 原始type: type是最原始的元類，其__call__方法是在你使用" t_class = type(classname_string, base_classes_tuple,

在分類過程中對連續資料的類劃分

分類中對連續資料的類劃分：

相關推薦