【ADNI】資料預處理（6）ADNI_slice_dataloader ||| show image

阿新 • • 發佈：2018-11-04

ADNI Series

1、【ADNI】資料預處理（1）SPM，CAT12

2、【ADNI】資料預處理（2）獲取 subject slices

3、【ADNI】資料預處理（3）CNNs

4、【ADNI】資料預處理（4）Get top k slices according to CNNs

5、【ADNI】資料預處理（5）Get top k slices (pMCI_sMCI) according to CNNs

6、【ADNI】資料預處理（6）ADNI_slice_dataloader ||| show image

本文總結的功能：

1）將來自同一個 subject MRI image 的 slice concatenate 到同一陣列；

2）顯示 slices image；

subject ID and relevant label：儲存與 .txt 文字中，如下所示

141_S_1137 1
141_S_1152 1
002_S_0295 0
002_S_0559 0

subject id ||| slice path ||| label name：

141_S_0696|||/home/hcq/alzheimer_disease/ADNI_825/experiments_FineTunning/majority_select_top51_slices_folder_02_AD_NC/validation/AD/141_S_0696_slice_Y74.jpg|||AD
141_S_0696|||/home/hcq/alzheimer_disease/ADNI_825/experiments_FineTunning/majority_select_top51_slices_folder_02_AD_NC/validation/AD/141_S_0696_slice_Z46.jpg|||AD
002_S_0413|||/home/hcq/alzheimer_disease/ADNI_825/experiments_FineTunning/majority_select_top51_slices_folder_02_AD_NC/validation/NC/002_S_0413_slice_X46.jpg|||NC
002_S_0413|||/home/hcq/alzheimer_disease/ADNI_825/experiments_FineTunning/majority_select_top51_slices_folder_02_AD_NC/validation/NC/002_S_0413_slice_X50.jpg|||NC

效果：

1）subject：image = [batch_size, slice_num, img_w, img_h]

2）label：AD or NC

原始碼：

import random
import os
import numpy as np
import matplotlib.image as mpimg
import matplotlib.pyplot as plt  
import cv2


def read_lists(file_path):
    dataset_list = np.loadtxt(file_path, dtype=str).tolist()
    subjectID_path, labels  = zip(*[(l[0], int(l[1])) for l in dataset_list])
    return subjectID_path, labels

class Dataset_ADNI_TopK:


    def __init__(self, subjectID_list, subjectID_labels, folder_name):

        self.subjectID_list = subjectID_list
        self.subjectID_labels = subjectID_labels

        self.slice_path = os.path.join("./path_txt", folder_name + "_majority_select_top51_slices_folder_02.txt")
        self.shuffled = False


    def slice_concatenate(self, batch_size, slice_num):

        # for subjectID in self.subjectID_list:
        #     print(subjectID)

        slice_list = np.loadtxt(self.slice_path, dtype=str).tolist()

        x = np.zeros((batch_size, slice_num, 227, 227))
        y = np.zeros(batch_size)
        
        for bs in range(batch_size):
            
            subjectID = self.subjectID_list[bs]
            subjectID_label = self.subjectID_labels[bs]
            # print(subjectID)
            for i, slice_strcut in enumerate(slice_list):
                # print(slice_strcut.split("|||")[1])
                image = mpimg.imread(slice_strcut.split("|||")[1])
                # image = np.reshape(image, (227, 227))
                image = cv2.resize(image, (227, 227))
                # print(image.shape)
                # print(i%slice_num)
                x[bs, i%slice_num, :, :] = image
                y[bs] = subjectID_label

        # print(x[0, 0, 0, 90:100, 90:100])
        return x, y



train_subject_ID = './path_txt/train_sujectID_majority_select_top51_slices_folder_02.txt'
val_subject_ID = './path_txt/val_sujectID_majority_select_top51_slices_folder_02.txt'
train_subject_ID_list, train_subject_ID_label_list = read_lists(train_subject_ID)
val_subject_ID_list, val_subject_ID_lable_list = read_lists(val_subject_ID)

# dataset_train = Dataset_ADNI_TopK(train_subject_ID_list, train_subject_ID_label_list, "train")
# dataset_train.slice_concatenate()

dataset_val = Dataset_ADNI_TopK(val_subject_ID_list, val_subject_ID_lable_list, "val")
batch_size_subject = 2
slice_num = 51
image, label = dataset_val.slice_concatenate(batch_size_subject, slice_num)


### show image
for i in range(16):
    plt.subplot(4, 4, i+1)
    plt.imshow(image[0, i, :, :], cmap = 'gray')
#plt.imshow(image[0, 0, :, :], cmap = 'gray')
#i = 1
#plt.subplot(2, 2, i)
#plt.imshow(image[0, 0, :, :])
#
#plt.subplot(222)
#plt.imshow(image[0, 1, :, :])
#
#plt.subplot(223)
#plt.imshow(image[0, 2, :, :])
#
#plt.subplot(224)
#plt.imshow(image[0, 3, :, :])

hcq_data_processing.py

# -*- coding: utf-8 -*-
import random
import os
import numpy as np
import matplotlib.image as mpimg
import matplotlib.pyplot as plt  
import cv2


def read_lists(file_path):
    dataset_list = np.loadtxt(file_path, dtype=str).tolist()
    subjectID_path, labels  = zip(*[(l.split("|||")[0], int(l.split("|||")[1])) for l in dataset_list])
    return subjectID_path, labels

class Dataset_ADNI_TopK:

    def __init__(self, subjectID_list, subjectID_labels, folder_name, shuffled, batch_size, slice_num):

        self.subjectID_list = subjectID_list
        self.subjectID_labels = subjectID_labels
        self.shuffled = shuffled
        self.batch_size = batch_size
        self.len_dataset = len(self.subjectID_list)
        self.slice_num = slice_num
        self.folder_name = folder_name
        self.batch_size_used = batch_size
        
        
        if shuffled == True:
#            len_subjectID_list = len(subjectID_list)
#            random.shuffle(len_subjectID_list)
#            print("original list...")
#            print(self.subjectID_list)
            z = list(zip(self.subjectID_list, self.subjectID_labels))
            random.shuffle(z)
            self.subjectID_list, self.subjectID_labels = [list(l) for l in zip(*z)]
#            print("random list...")
#            print(self.subjectID_list)


    def slice_concatenate(self, index):

        # for subjectID in self.subjectID_list:
        #     print(subjectID)

        root_path = "/home/reserch/documents/deeplearning/alzheimers_disease_DL/pytorch/dataset_path/original_825_top_entropy51"
        model_img_size = 224


        x = np.zeros((self.batch_size, self.slice_num, model_img_size, model_img_size))
        y = np.zeros(self.batch_size)
        
        for bs in range(self.batch_size):
            
            if (index*self.batch_size + bs) >= self.len_dataset:
                # print("break....")
# ### hcq ###
# ### 20180528 ###
# ### dataloader ###

# batch_size = 16
# train_dataset_num = 344      --> iter_num = train_dataset_num / batch_size = 21
# validation_dataset_num = 86  --> iter_num = validation_dataset_num / batch_size = 5

# # As for train_dataset_num: 
# - iter_num = train_dataset_num / batch_size = 21
# - range(iter_num)[0, 20]: for _iter in iter_num: dealed with = 21 iterations --> 21 x 16 = 336
# - remained samples: 344 - 336 = 8  <-- train_dataset_num % batch_size
# - range(iter_num+1)[0, 21]: 
                
                delete_samples_num = self.batch_size - (self.len_dataset % self.batch_size)
                for ii in range(delete_samples_num):
                    index_delete = self.batch_size - ii - 1
                    x = np.delete(x, index_delete, axis=0)
                    y = np.delete(y, index_delete, axis=0)

                self.batch_size_used = bs
                break
            
#            print("index = {}, dataset_len = {} ||| index*self.batch_size + bs = {}".format(index, self.len_dataset, index*self.batch_size + bs))
            subjectID = self.subjectID_list[index*self.batch_size + bs]
            subjectID_label = self.subjectID_labels[index*self.batch_size + bs]
                
            y[bs] = subjectID_label
            # print(subjectID)
            
            new_slice_txt_path = os.path.join(root_path, self.folder_name + "_slice_txt", subjectID + "_" + self.folder_name + ".txt")
            slice_list = np.loadtxt(new_slice_txt_path, dtype=str).tolist()
                
            
            for i, slice_strcut in enumerate(slice_list):
                # print(slice_strcut.split("|||")[1])
                image = mpimg.imread(slice_strcut.split("|||")[1])
                # image = np.reshape(image, (227, 227))  ## Not work
                image = cv2.resize(image, (model_img_size, model_img_size))
                # print(image.shape)
                # print(i%slice_num)
                x[bs, i%self.slice_num, :, :] = image
                

        
        ## return a batch_size  pair(images, labels)
        # print("x.shape = {}, y.shape = {}".format(x.shape, y.shape))
        return x, y

    def iter_len(self):
        iter_num = self.len_dataset / self.batch_size
#        print("iter_len = {} ||| len_dataset = {}, batch_size = {}".format(num, self.len_dataset, self.batch_size))
        return iter_num


#train_subject_ID = './path_txt/train_sujectID_majority_select_top51_slices_folder_02.txt'
#val_subject_ID = './path_txt/val_sujectID_majority_select_top51_slices_folder_02.txt'
#train_subject_ID_list, train_subject_ID_label_list = read_lists(train_subject_ID)
#val_subject_ID_list, val_subject_ID_lable_list = read_lists(val_subject_ID)
#
## dataset_train = Dataset_ADNI_TopK(train_subject_ID_list, train_subject_ID_label_list, "train")
## dataset_train.slice_concatenate()
#
#batch_size_subject = 1
#dataset_val = Dataset_ADNI_TopK(val_subject_ID_list, val_subject_ID_lable_list, "val", True, batch_size_subject)
#slice_num = 51
#image, label = dataset_val.slice_concatenate(slice_num)
#dataset_val.iter_len()

Reference：

PyTorch ImageFolder：https://github.com/pytorch/vision/blob/master/torchvision/datasets/folder.py

【ADNI】資料預處理（6）ADNI_slice_dataloader ||| show image

ADNI Series 1、【ADNI】資料預處理（1）SPM，CAT12 2、【ADNI】資料預處理（2）獲取 subject slices 3、【ADNI】資料預處理（3）CNNs 4、【ADNI】資料預處理（4）Get top k slices according to CNN

【ADNI】資料預處理（5）Get top k slices (pMCI_sMCI) according to CNNs

【ADNI】資料預處理（4）Get top k slices according to CNNs

【ADNI】資料預處理（3）CNNs

【ADNI】資料預處理（2）獲取 subject slices

【ADNI】資料預處理（1）SPM，CAT12

【ADNI】資料預處理（1）SPM，CAT12；資料集

ADNI Series 1、【ADNI】資料預處理（1）SPM，CAT12 2、【ADNI】資料預處理（2）獲取 subject slices 3、【ADNI】資料預處理（3）CNNs 4、【ADNI】資料預處理（4）Get top k slices accordin

python機器學習：：資料預處理（1）【轉】

轉載自：http://2hwp.com/2016/02/03/data-preprocessing/ 常見的資料預處理方法，以下通過sklearn的preprocessing模組來介紹; 1. 標準化（Standardization or Mean Removal and

【資料探勘】【筆記】資料預處理之類別特徵編碼

定義類別特徵：如['male', 'female']等，模型不能直接識別的資料。處理的目的是將不能夠定量處理的變數量化。特別的比如星期[1, 2, ... , 7]雖然是數字，但是數值之間沒有大小順序關係，需要視為類別特徵。處理編碼為模型可識

【Trick】資料預處理的常用方法

前言本篇博文將介紹資料預處理的常用方法，這些方法僅根據本人接觸過的資料探勘專案中總結而來，如有疏漏或不合適的，望大佬們提出。資料預處理與我們從課本中獲得的資料集不同，實際應用中遇到的資料集常常是帶有噪聲、帶有缺失值、不符合相應的資料探勘模型的，我

面向物件【day08】：異常處理（六）

本節內容 1、概述 2、異常梳理 3、異常梳理流程圖 4、異常大全 5、自定義異常一、概述　　異常處理是當程式出錯了，但是我們又不想讓使用者看到這個錯誤，而且我在寫程式的時候已經預料到了它可以出現這樣的錯誤，出現這樣的錯誤代表著什麼，我們可以提前處理這些個錯誤二、異常處理 2.1 處理

程世東老師TensorFlow實戰——個性化推薦，程式碼學習筆記之資料匯入&資料預處理（上）

程式碼來自於知乎:https://zhuanlan.zhihu.com/p/32078473 /程式碼地址https://github.com/chengstone/movie_recommender/blob/master/movie_recommender.ipynb 下一篇有一些資料的

程世東老師TensorFlow實戰——個性化推薦，程式碼學習筆記之資料匯入&資料預處理（下）

這篇主要是進行程式碼中的一些數值視覺化，幫助理解程式碼來自於知乎:https://zhuanlan.zhihu.com/p/32078473 /程式碼地址https://github.com/chengstone/movie_recommender/blob/master/movie_re

資料預處理（2）資料整合和資料變換資料規約

資料整合資料探勘的過程中往往需要的資料分佈在不同的資料庫，資料整合就是將多個數據源合併存放在一個一致的資料儲存（如資料倉庫）中的過程。實體識別同名異義名字相同但實際代表的含義不同異名同義名字不同但代表的意思相同單位不統一冗餘屬性識別

資料預處理（1）資料清洗

資料預處理的內容主要包括資料清洗，資料整合，資料變換和資料規約。資料清洗資料清洗主要是刪除原始資料集中的無關資料、重複資料，平滑噪聲資料，帥選掉與挖掘主題無關的資料，處理缺失值、異常值等。缺失值處理缺失值處理的方法可分為三類：刪除記錄、資料插補和不處理。常用的

【Springboot】之非同步處理（@Async）

前言使用非同步是為了縮短等待時間。即：主執行緒儘早處理完並返回資訊，能更快響應；而副執行緒執行其他操作用於完善。一、配置類作用：配置執行緒池，實現執行緒複用。通過 @EnableAsy

【專欄】- Win8Metro影象處理（C#）

Win8Metro影象處理（C#）使用Win8 Metro C#程式設計，由簡到難，給大家系統介紹數字影象處理這門學科的各種基礎知識。

【mxGraph】原始碼學習：（6）mxGraphModel

1. 概覽 mxGraphModel繼承自mxEventSource以實現graph model。graph model是負責儲存graph資料結構的包裝器。graph model充當事務包裝器，其中包含所有更改的事件通知，而cell包含用於更新實際資料結構的原

【20171011】python_語言設計（6）程式設計方法與面向物件程式設計

1.程式設計方法計算思維：給定有限資源、設定並行流程、得出最好效果 2.自頂向下的設計 from random import* def main(): printIntro() probA,probB,n=getInputs() winsA,winsB=

資料預處理（3） ——資料歸約使用python（sklearn，pandas，numpy）實現

資料預處理的主要任務有：一、資料預處理 1.資料清洗 2.資料整合 3.資料轉換 4.資料歸約 4.資料歸約資料規約技術可以用來得到資料集的規約表示，它小得多，但仍接近於保持原始資料的完整性。也就是說，在規約後的資料集挖掘將更加有效。（1）資料立方體

【ADNI】資料預處理（6）ADNI_slice_dataloader ||| show image

ADNI Series

本文總結的功能：

效果：

原始碼：

hcq_data_processing.py

Reference：

相關推薦