1. 程式人生 > >(轉)計算機視覺與影象處理、模式識別、機器學習學科之間的關係

(轉)計算機視覺與影象處理、模式識別、機器學習學科之間的關係

在我的理解裡,要實現計算機視覺必須有影象處理的幫助,而影象處理倚仗於模式識別的有效運用,而模式識別是人工智慧領域的一個重要分支,人工智慧與機器學習密不可分。縱觀一切關係,發現計算機視覺的應用服務於機器學習。各個環節缺一不可,相輔相成。

邏輯線路:計算機視覺→影象處理→模式識別;模式識別∈人工智慧領域,→機器學習。

計算機視覺(computervision),用計算機來模擬人的視覺機理獲取和處理資訊的能力。就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,用電腦處理成為更適合人眼觀察或傳送給儀器檢測的影象。計算機視覺研究相關的理論和技術,試圖建立能夠從影象或者多維資料中

獲取‘資訊’的人工智慧系統。計算機視覺的挑戰是要為計算機和機器人開發具有與人類水平相當的視覺能力。機器視覺需要圖象訊號,紋理和顏色建模,幾何處理和推理,以及物體建模。一個有能力的視覺系統應該把所有這些處理都緊密地整合在一起。

影象處理(imageprocessing),用計算機對影象進行分析,以達到所需結果的技術。又稱影像處理。基本內容影象處理一般指數字影象處理。數字影象是指用數字攝像機、掃描器等裝置經過取樣和數字化得到的一個大的二維陣列,該陣列的元素稱為畫素,其值為一整數,稱為灰度值。影象處理技術的主要內容包括影象壓縮,增強和復原,匹配、描述和識別3個部分。常見的處理有影象數字化、影象編碼、影象增強、影象復原、影象分割和影象分析等。影象處理一般指數字影象處理。

模式識別(PatternRecognition)是指對錶徵事物或現象的各種形式的(數值的、文字的和邏輯關係的)資訊進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程,是資訊科學和人工智慧的重要組成部分。模式識別又常稱作模式分類,從處理問題的性質和解決問題的方法等角度,模式識別分為有監督的分類(Supervised Classification)和無監督的分類(UnsupervisedClassification)兩種。模式還可分成抽象的和具體的兩種形式。前者如意識、思想、議論等,屬於概念識別研究的範疇,是人工智慧的另一研究分支。我們所指的模式識別主要是對語音波形、地震波、心電圖、腦電圖、圖片、照片、文字、符號、生物感測器等物件的具體模式進行辨識和分類。模式識別研究主要集中在兩方面,一是研究生物體(包括人)是如何感知物件的,屬於認識科學的範疇,二是在給定的任務下,如何用計算機實現模式識別的理論和方法。應用計算機對一組事件或過程進行辨識和分類,所識別的事件或過程可以是文字、聲音、影象等具體物件,也可以是狀態、程度等抽象物件。這些物件與數字形式的資訊相區別,稱為模式資訊。模式識別與統計學、心理學、語言學、電腦科學 、生物學、控制論等都有關係。它與 人工智慧 、 影象處理的研究有交叉關係。

機器學習(MachineLearning)是研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。機器學習是人工智慧的核心,是使計算機具有智慧的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。機器學習在人工智慧的研究中具有十分重要的地位。一個不具有學習能力的智慧系統難以稱得上是一個真正的智慧系統,但是以往的智慧系統都普遍缺少學習的能力。隨著人工智慧的深入發展,這些侷限性表現得愈加突出。正是在這種情形下,機器學習逐漸成為人工智慧研究的核心之一。它的應用已遍及人工智慧的各個分支,如專家系統、自動推理、自然語言理解、模式識別、計算機視覺、智慧機器人等領域。機器學習的研究是根據生理學、認知科學等對人類學習機理的瞭解,建立人類學習過程的計算模型或認識模型,發展各種學習理論和學習方法,研究通用的學習演算法並進行理論上的分析,建立面向任務的具有特定應用的學習系統。這些研究目標相互影響相互促進。

人類研究計算機的目的,是為了提高社會生產力水平,提高生活質量,把人從單調複雜甚至危險的工作中解救出來。今天的計算機在計算速度上已經遠遠超過了人,然而在很多方面,特別是在人類智慧活動有關的方面例如在視覺功能、聽覺功能、嗅覺功能、自然語言理解能力功能等等方面,還不如人。

這種現狀無法滿足一些高階應用的要求。例如,我們希望計算機能夠及早地發現路上的可疑情況並提醒汽車駕駛員以避免發生事故,我們更希望計算機能幫助我們進行自動駕駛,目前的技術還不足以滿足諸如此類高階應用的要求,還需要更多的人工智慧研究成果和系統實現的經驗。

什麼是人工智慧呢?人工智慧,是由人類設計並在計算機環境下實現的模擬或再現某些人智慧行為的技術。一般認為,人類智慧活動可以分為兩類:感知行為與思維活動

模擬感知行為的人工智慧研究的一些例子包括語音識別、話者識別等與人類的聽覺功能有關的“計算機聽覺”,物體三維表現的形狀知識、距離、速度感知等與人類視覺有關的“計算機視覺”,等等。

模擬思維活動的人工智慧研究的例子包括符號推理、模糊推理、定理證明等與人類思維有關的“計算機思維”,等等。

從影象處理和模式識別發展起來的計算機視覺研究物件之一是如何利用二維投影影象恢復三維景物世界。計算機視覺使用的理論方法主要是基於幾何、概率和運動學計算與三維重構的視覺計算理論,它的基礎包括射影幾何學、剛體運動力學、概率論與隨機過程、影象處理、人工智慧等理論。計算機視覺要達到的基本目的有以下幾個:

    (1)      根據一幅或多幅二維投影影象計算出觀察點到目標物體的距離;

    (2)      根據一幅或多幅二維投影影象計算出目標物體的運動引數;

    (3)      根據一幅或多幅二維投影影象計算出目標物體的表面物理特性;

    (4)      根據多幅二維投影影象恢復出更大空間區域的投影影象。

計算機視覺要達到的最終目的是實現利用計算機對於三維景物世界的理解,即實現人的視覺系統的某些功能。

在計算機視覺領域裡,醫學影象分析、光學文字識別對模式識別的要求需要提到一定高度。又如模式識別中的預處理和特徵抽取環節應用影象處理的技術;影象處理中的影象分析也應用模式識別的技術。在計算機視覺的大多數實際應用當中,計算機被預設為解決特定的任務,然而基於機器學習的方法正日漸普及,一旦機器學習的研究進一步發展,未來“泛用型”的電腦視覺應用或許可以成真。

人工智慧所研究的一個主要問題是:如何讓系統具備“計劃”和“決策能力”?從而使之完成特定的技術動作(例如:移動一個機器人通過某種特定環境)。這一問題便與計算機視覺問題息息相關。在這裡,計算機視覺系統作為一個感知器,為決策提供資訊。另外一些研究方向包括模式識別和機器學習(這也隸屬於人工智慧領域,但與計算機視覺有著重要聯絡),也由此,計算機視覺時常被看作人工智慧與電腦科學的一個分支。

機器學習是研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心,是使計算機具有智慧的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演譯。

為了達到計算機視覺的目的,有兩種技術途徑可以考慮。第一種是仿生學方法,即從分析人類視覺的過程入手,利用大自然提供給我們的最好參考系——人類視覺系統,建立起視覺過程的計算模型,然後用計算機系統實現之。第二種是工程方法,即脫離人類視覺系統框框的約束,利用一切可行和實用的技術手段實現視覺功能。此方法的一般做法是,將人類視覺系統作為一個黑盒子對待,實現時只關心對於某種輸入,視覺系統將給出何種輸出。這兩種方法理論上都是可以使用的,但面臨的困難是,人類視覺系統對應某種輸入的輸出到底是什麼,這是無法直接測得的。而且由於人的智慧活動是一個多功能系統綜合作用的結果,即使是得到了一個輸入輸出對,也很難肯定它是僅由當前的輸入視覺刺激所產生的響應,而不是一個與歷史狀態綜合作用的結果。

不難理解,計算機視覺的研究具有雙重意義。其一,是為了滿足人工智慧應用的需要,即用計算機實現人工的視覺系統的需要。這些成果可以安裝在計算機和各種機器上,使計算機和機器人能夠具有“看”的能力。其二,視覺計算模型的研究結果反過來對於我們進一步認識和研究人類視覺系統本身的機理,甚至人腦的機理,也同樣具有相當大的參考意義。