-深度學習--影象五大技術
CNN淺析和歷年ImageNet冠軍模型解析
http://www.infoq.com/cn/articles/cnn-and-imagenet-champion-model-analysis解讀Keras在ImageNet中的應用:詳解5種主要的影象識別模型
https://yq.aliyun.com/articles/78726
Keras中最新的深度學習影象分類器
Keras提供了五種開箱即用型的CNN:
1.VGG16
2.VGG19
3.ResNet50
4.Inception V3
5.Xception
視覺識別是計算機視覺的關鍵組成部分,如:
影象分類
分類的種類:
影象分類包括通用影象分類、細粒度影象分類等。圖1展示了通用影象分類效果,即模型可以正確識別影象上的主要物體。分類的難點
對於人來說,識別出一個像“貓”一樣視覺概念是簡單至極的,然而從計算機視覺演算法的角度來看就值得深思了。我們在下面列舉了計算機視覺演算法在影象識別方面遇到的一些難點,要記住影象是以3維陣列來表示的,陣列中的元素是亮度值。
- 視角變化(Viewpoint variation):同一個物體,攝像機可以從多個角度來展現。
- 大小變化(Scale variation):物體可視的大小通常是會變化的(不僅是在圖片中,在真實世界中大小也是變化的)。
- 形變(Deformation):很多東西的形狀並非一成不變,會有很大變化。
- 遮擋(Occlusion):目標物體可能被擋住。有時候只有物體的一小部分(可以小到幾個畫素)是可見的。
- 光照條件(Illumination conditions):在畫素層面上,光照的影響非常大。
- 背景干擾(Background clutter):物體可能混入背景之中,使之難以被辨認。
- 類內差異(Intra-class variation):一類物體的個體之間的外形差異很大,比如椅子。這一類物體有許多不同的物件,每個都有自己的外形。
-
PASCAL VOC 資料集
PASCAL VOC從2005年到2012年每年都發布關於分類、檢測、分割等任務的資料庫,並在相應資料庫上舉行了演算法競賽,極大地推動了視覺研究的發展進步.最初2005年PASCAL VOC資料庫只包含人、自行車、摩托車、汽車共4類,2006年類別數目增加到10類,2007年開始類別數目固定為20類,以後每年只增加部分樣本.PACAL VOC資料庫中物體類別均為日常生活中常見的物體,如交通工具、室內傢俱、人、動物等.PASCAL VOC資料庫共包含9963張圖片,圖片來源包括filker等網際網路站點以及其他資料庫,每類大概包含96~2008張影象,均為一般尺寸的自然影象.PASCAL VOC資料庫與Caltech-101相比,雖然類別數更少,但由於影象中物體變化極大,每張影象可能包含多個不同類別物體例項,且物體尺度變化很大,因而分類與檢測難度都非常大.該資料庫的提出,對物體分類與檢測的演算法提出了極大的挑戰,也催生了大批優秀的理論與演算法,將物體識別的研究推向了一個新的高度.
ImageNet 資料集
隨著分類與檢測演算法的進步,很多演算法在以上 提到的相關資料庫上效能都接近飽和,同時隨著大 資料時代的到來、硬體技術的發展,也使得在更大規 模的資料庫上進行研究和評測成為必然.ImageNet是由Li主持構建的大規模影象資料庫,影象類別按照WordNet構建,全庫截止2013年共有1400萬張影象,2.2萬個類別,平均每類包含1000張影象.這是目前視覺識別領域最大的有標註的自然影象解析度的資料集,儘管影象本身基本還是以目標為中心構建的,但是海量的資料和海量的影象類別,使得該資料庫上的分類任務依然極具挑戰性.除此 之外,ImageNet還構建了一個包含1000類物體 120萬影象的子集,並以此作為ImageNet大尺度視 覺識別競賽的資料平臺,也逐漸成為物體分類演算法 評測的標準資料集.
TensorFlow之CNN影象分類及模型儲存與呼叫
https://blog.csdn.net/Enchanted_ZhouH/article/details/74116823
資料集中總共有五種花,分別放在五個資料夾下。
#將所有的圖片resize成100*100