1. 程式人生 > >計算機視覺(一)概述

計算機視覺(一)概述

一、什麼是計算機視覺

計算機視覺(Computer Vision)是一門如何使計算機“看”的學問,讓攝像頭和電腦代替人眼對目標進行識別、跟蹤、測量等機器視覺。計算機視覺能夠模擬人類視覺的優越的能力,如識別物體、估計立體空間與距離、躲避障礙、理解影象、想象影象的能力,一定程度上,計算機視覺模擬的是人眼和人腦,不僅讓計算機“看”,還要讓計算機“思”。此外,計算機視覺還能夠彌補人類視覺的缺陷,如不擅長長時間觀察同一事物、容易忽略細節。

二、計算機視覺的主要目標

解決“畫素值”與“語義”之間的差距(Gap)。計算機所接收到的影象是一個個畫素值矩陣,如何讓計算機通過這些數值矩陣認識圖片並完成特定的任務是計算機視覺的主要的目標。

三、計算機視覺的主要任務

傳統的計算機視覺的經典任務主要是三大類:分類(Classification)、檢測(Detection)、分割(Segmentation),分類解決的是“是什麼”的問題,檢測和分割解決的是“在哪裡的問題”。

現在,更多的問題湧現出來,像影象描述(Image Captioning)、影象問答(Image Q&A)、影象生成(Image Generation)、影象檢索(Content-based Image Retrieval)等。上述無論是傳統經典任務還是這些新出現的任務都屬於語義層面的問題,還有一類問題也屬於計算機視覺研究的範疇,屬於三維幾何領域內的問題,如三維建模

增強現實雙目視覺等。

四、深度學習在計算機視覺中的應用

深度學習是引領計算機視覺的技術,各式各樣的神經網路方法解決著計算機視覺領域中各式各樣的問題。
影象分類——卷積神經網路(CNN),目標檢測——區域卷積神經網路(R-CNN),影象分割——全卷積神經網路(FCN),影象生成——生成對抗網路(GAN),影象問答——迴圈神經網路(RNN),我們將在後邊的學習中深入瞭解這些深度學習方法。