統計機器學習標註圖片中各個類別的樣本樣以及檢查特殊樣本數量

阿新 • • 發佈：2018-11-01

在進行機器學習或深度學習中,對於那種邊訓練邊增加圖片樣的情況,我們要經常需要獲知目前資料量中樣本的分佈以及處理特殊情況(比如標註框面積小於指定閾值的標註等),為此寫了個簡單程式方面後面使用,特記錄於此.由於程式簡明扼要有些python基礎的童鞋都能看得懂,在此不多說.具體見如下程式碼:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
#2018/09/12 by DQ
import os
try:
    import xml.etree.cElementTree as ET
except ImportError:
    import xml.etree.ElementTree as ET

BoxLenTol=30
BoxAreaTol=BoxLenTol**2											
ImSize=[640,480]
fileIdLen=6
ImExpName='.jpg'
AnotExpName='.xml'
ClsNameSet=('blis','cosd','nake','break')
AnotFolder='/home/KingMe/project/py-faster-rcnn/data/FABdevkit2017/FAB2017/Annotations'#Annotations' 
TrainValTestAssignFolder='/home/KingMe/project/py-faster-rcnn/data/FABdevkit2017/FAB2017/ImageSets/Main'
TrainValTestFiles={'train':'train.txt','val':'val.txt','test':'test.txt'}             

##get object annotation bndbox loc start 
def GetAnnotBoxLoc(AnotPath):
    #open xml 
    tree = ET.ElementTree(file=AnotPath)
    root = tree.getroot()
    ObjectSet=root.findall('object')
    ObjBndBoxSet={}
    for Object in ObjectSet:
        ObjName=Object.find('name').text
        BndBox=Object.find('bndbox')
        x1 = int(BndBox.find('xmin').text)-1
        y1 = int(BndBox.find('ymin').text)-1
        x2 = int(BndBox.find('xmax').text)-1
        y2 = int(BndBox.find('ymax').text)-1
        BndBoxLoc=[x1,y1,x2,y2]
        if ObjBndBoxSet.has_key(ObjName):
        	ObjBndBoxSet[ObjName].append(BndBoxLoc)
        else:
        	ObjBndBoxSet[ObjName]=[BndBoxLoc]#why not ues dict(key=val)?
    return ObjBndBoxSet
##get object annotation bndbox loc end


def CalSampleNum(BoxSet,BoxNumSet):
	for Key,Val in BoxSet.iteritems():
		if BoxNumSet.has_key(Key):
			BoxNumSet[Key]=BoxNumSet[Key]+len(Val)

#計算標記樣本中小面積樣本數目(我這個是自己標記的可能會存在,標準資料應該不存在)
def CalSmallAreaSampleNum(BoxSet,SmallBoxNumSet):
    for Key,Val in BoxSet.iteritems():
        if SmallBoxNumSet.has_key(Key):
            for Box in Val:
                X1=Box[0]
                Y1=Box[1]
                X2=Box[2]
                Y2=Box[3]
                BoxArea=(X2-X1)*(Y2-Y1)
                if BoxArea<BoxAreaTol:
                   SmallBoxNumSet[Key]=SmallBoxNumSet[Key]+1



############################################ 
def GetTotalSampleNum():
    AnotFileNum=len(os.listdir(AnotFolder))
    TotalSampleNum=dict.fromkeys(ClsNameSet, 0)
    SmallBoxNumSet=dict.fromkeys(ClsNameSet, 0)
    MeanSampleNum=dict.fromkeys(ClsNameSet, 0) 
    BigAreaSampleNum=dict.fromkeys(ClsNameSet, 0) 

    ImIdSet=range(1,AnotFileNum+1)
    for ImId in ImIdSet:
    	ImIdStr=str(ImId).zfill(fileIdLen)
    	AnotName=ImIdStr+AnotExpName
    	AnotPath=os.path.join(AnotFolder,AnotName)
    	AnotBoxSet=GetAnnotBoxLoc(AnotPath)
    	CalSampleNum(AnotBoxSet,TotalSampleNum)
        CalSmallAreaSampleNum(AnotBoxSet,SmallBoxNumSet)

    for Key,Val in TotalSampleNum.iteritems():
        if MeanSampleNum.has_key(Key):
            MeanSampleNum[Key]=round(Val*1.0/AnotFileNum,2)
    for Key,Val in TotalSampleNum.iteritems():
        if BigAreaSampleNum.has_key(Key):
            BigAreaSampleNum[Key]=TotalSampleNum[Key]-SmallBoxNumSet[Key]

    print 'ImNum='+str(AnotFileNum)
    print 'TotalSampleNum='+str(TotalSampleNum)
    print 'MeanSampleNum='+str(MeanSampleNum)
    print 'BoxAreaTol='+str(BoxLenTol)+'*'+str(BoxLenTol)
    print 'SmallAreaSampleNum='+str(SmallBoxNumSet)    
    print 'BigAreaSampleNum='+str(BigAreaSampleNum)



def GetTrainValTestSample(SampleNumSet,ImIdFilePath):
    with open(ImIdFilePath,'r') as FId:
        k=0
        TxtList=FId.readlines()
        for LineStr in TxtList:
            PureStr=LineStr.strip()
            AnotFileName=PureStr+AnotExpName
            AnotFilePath=os.path.join(AnotFolder,AnotFileName)
            AnotBoxSet=GetAnnotBoxLoc(AnotFilePath)
            CalSampleNum(AnotBoxSet,SampleNumSet)
            k=k+1
        FileName=os.path.basename(ImIdFilePath)
        print FileName +' ImageNum='+str(k)+';',


def GetTrainValTestSampleMain():
    for Key,FileName in TrainValTestFiles.iteritems():
        ImIdFilePath=os.path.join(TrainValTestAssignFolder,FileName)
        SampleNumSet=dict.fromkeys(ClsNameSet, 0)
        GetTrainValTestSample(SampleNumSet,ImIdFilePath)
        print FileName[:-4]+'SampleNumSet='+str(SampleNumSet)


GetTotalSampleNum()
GetTrainValTestSampleMain()

統計機器學習標註圖片中各個類別的樣本樣以及檢查特殊樣本數量

在進行機器學習或深度學習中,對於那種邊訓練邊增加圖片樣的情況,我們要經常需要獲知目前資料量中樣本的分佈以及處理特殊情況(比如標註框面積小於指定閾值的標註等),為此寫了個簡單程式方面後面使用,特記錄於此.由於程式簡明扼要有些

摘錄-Introduction to Statistical Learning Theory(統計機器學習導論)

證明 learn mac 關於 nbsp 進行 rod 最大公約數 ros 機器學習目標：（二分類）經驗風險：過度擬合：經驗風險最小化：結構風險最小化：正則：特點：

有關機器學習的論文中的英語詞匯

process war counter Language 數據防禦訓練自然檢測 machine learning : 機器學習 deep learning : 深度學習 image processing : 圖像處理 natural language proc

《機器學習實戰》中的程序清單2-1 k近鄰算法classify0都做了什麽

列表關鍵字難解 items 位置 class 做了 ict top k def start(): group,labels = createDataSet() return classify0([3,3], group, l

機器學習數學知識中令人費解的notation符號註解

算法 left ati 返回 ext 知識符號 bsp style $argmin_xf(x), min(f(x))$ $min(f(x))$的意思是函數$f(x)$的最小值 $argmin$的意思是返回使得表達式取得最小值時對應的輸入變量值。例如$argmin_xf(x

機器學習-推薦系統中基於深度學習的混合協同過濾模型

近些年，深度學習在語音識別、影象處理、自然語言處理等領域都取得了很大的突破與成就。相對來說，深度學習在推薦系統領域的研究與應用還處於早期階段。攜程在深度學習與推薦系統結合的領域也進行了相關的研究與應用，並在國際人工智慧頂級會議AAAI 2017上發表了相應的研究成果《A Hy

機器學習算法中的評價指標（準確率、召回率、F值、ROC、AUC等）

html eight inf 曲線 mba cor 方法指標 pan 參考鏈接：https://www.cnblogs.com/Zhi-Z/p/8728168.html 具體更詳細的可以查閱周誌華的西瓜書第二章，寫的非常詳細~ 一、機器學習性能評估指標 1.準確率(A

機器學習---scikit-learn中KNN演算法的封裝

1，工具準備，python環境，pycharm 2，在機器學習中，KNN是不需要訓練過程的演算法，也就是說，輸入樣例可以直接呼叫predict預測結果，訓練資料集就是模型。當然這裡必須將訓練資料和訓練標籤進行擬合才能形成模型。 3 3，在pycharm中建立新的專案工程

機器學習在社會科學中的應用

AI綜述專欄簡介在科學研究中，從方法論上來講，都應先見森林，再見樹木。當前，人工智慧科技迅猛發展，萬木爭榮，更應系統梳理脈絡。為此，我們特別精選國內外優秀的綜述論文，開闢“綜述”專欄，敬請關注。我們都希望找到那些彩色的小石子兒注：機器學習領域的文獻日

機器學習模型評估中的精確率、召回率、F1、ROC、AUC

文章目錄 1 混淆矩陣 1.2 多分類的例子 2.2 二分類的例子 2.3 二分類真實數值計算 2 各類指標的優缺點 1 混淆矩陣準確率對於分類器的效能分析來說，並不是一個很好地衡量指標，因為如果資料

【機器學習】pyspark中RDD的若干操作

1，讀取檔案 from pyspark import SparkContext sc = SparkContext('local', 'pyspark') a，text = sc.textFile(“file:///d:/test.txt”) b，rd

【opencv、機器學習】opencv中的SVM影象分類（二）

上一篇博文對影象分類理論部分做了比較詳細的講解，這一篇主要是對影象分類程式碼的實現進行分析。理論部分我們談到了使用BOW模型，但是BOW模型如何構建以及整個步驟是怎麼樣的呢？可以參考下面的部落格http://www.cnblogs.com/yxy8023ustc/p/33

【opencv、機器學習】opencv中的SVM影象分類（一）

一、影象分類概述本模組是用在影象內容識別的部分，影象分類是利用計算機對影象進行定量分析，把影象中的每個像元或區域劃歸為若干個類別中的一種，以代替人工視覺判讀的技術。從目視角度來說，對影象進行提高對比度、增加視覺維數、進行空間濾波或變換等處理的目的就是使人們能夠憑藉知識

ubuntu執行《機器學習實戰》中需修改程式碼的地方

ubuntu中執行《機器學習實戰》需要修改的地方： P66頁：第二行程式碼應該寫為：emailText = open(‘email/ham/6.txt’,’rb’).read().decode(‘GBK’)

【機器學習】影象中的降噪方法之一：低秩降噪

概述近幾年，低秩矩陣恢復（LRMR）廣泛用於影象處理用途影象恢復，比如去噪、去模糊等。一幅清晰的自然影象其資料矩陣往往是低秩或者近似低秩的，但存在隨機幅值任意大但是分佈稀疏的誤差破壞了原有資料的低秩性。低秩矩陣恢復是將退化影象看做一組低維資料加上噪聲形成的，因此退化前的資料就可以通過低秩矩陣來

淺談對統計機器學習的認識

最早是在《資料處理與優化演算法》課堂上接觸到資料探勘（Data Mining），接著自學Pang-Ning Tan et al.的《資料探勘導論》入門資料探勘。所以我先講一下資料探勘、機器學習(Machine Learning)和統計學(Statistics)

從8800個機器學習開源專案中精選出Top30，推薦給你

A. 神經網路：深度學習 A-ZTM : 親手搭建人工神經網路（推薦次數68,745 , 4.5/5 stars） B.用Python進行深度學習的TensorFlow的完整指南（推薦次數17,834, 4.6/5 stars）接下來是Mybridge精選的Top 30的專案： 1. FastT

機器學習庫sklearn中整合學習模型引數釋義

''' scikit-learn基於AdaBoosts演算法提供了兩個模型： 1.AdaBoostClassifier用於解決分類問題 2.AdaBoostRegressor用於解決迴歸問題 ''' from sklearn.ensemble import AdaBoostC

[機器學習]決策樹中的資訊增益和資訊增益比

一、特徵選擇中的資訊增益什麼是資訊增益？資訊增益是特徵選擇中的一個重要的指標，它定義為一個特徵能為分類系統帶來多少資訊，資訊越多，該特徵就越重要。這樣就又有一個問題：如何衡量一個特徵為分類系統帶來了多少資訊呢？對一個特徵而言，系統有它的時候和沒有它的時候資訊量將會發

機器學習線性迴歸中，用矩陣求導方法求最小二乘法的方法

在我們推導最小二乘法的時候，Andrew提供了兩種方法，一個是梯度下降法則，另一個是矩陣求導法則。後來在《機器學習實戰裡》面看線性迴歸程式碼的時候，裡面就是用了矩陣求導法則。要看懂矩陣求導法則，是需要一些矩陣論的知識的，還記得今年夏天我在苦逼地到處求矩陣論地速成

統計機器學習標註圖片中各個類別的樣本樣以及檢查特殊樣本數量

相關推薦