資料探勘

         資料探勘從字面上就已經很好理解了,就是從一堆資料中,挖掘出一些有用的資訊來的過程。比如說,我們的搜尋資料,如果某個地區大部分人都在搜尋MH370,表示他們在關注這個事情。我們就可以推薦一些安全知識,飛機知識過去。同樣的也可能會有蠟燭銷售高潮,提前給他們提供便利。這個就是資料探勘的工作內容。

        資料探勘這些書的主要內容,資料有多少種,什麼是有效資料,資料的維度,離散性,相似性。有很大的篇幅是在講述資料的有效提取等有關資料的性質。剩下的一大部分篇幅就是這些資料的處理。資料的處理,整合,分析,預測等就是機器學習的範圍了。

模式識別

著重物體的識別,基本模式識別都急於影象的,語音的,模式識別裡面的資料,大部分都是畫素點資料,聲音。資料探勘都是指標類資料,升高,體重,點選率,回覆率,關注度等。模式識別的主要內容,比如說,相片裡面的這個人是誰,我們手上拿的兩種魚,用電腦識別開,都是模式識別的工作。

       模式識別這類書的主要內容,都是機器學習的演算法,這兩本書是沒有多少差別的。可是機器學習,它的內容不僅僅針對影象,還針對其他型別的資料。而模式識別就只針對影象類的資料進行識別分析。在你google的過程中,模式識別的書很少,因為可以直接由機器學習的書全部代替。

影象處理

      影象處理,是模式識別的前期 工作,比如影象上面黯淡無光,就需要進行對比度提升等等。影象處理的書大部分人都看過了,內容就是形態學變換,影象增強,降噪,銳化,直方圖分析,影象壓縮等等。

     做完影象處理後,影象上的內容是什麼就交給模式識別了,或者機器學習來進行分類了。

機器視覺

       機器視覺的書籍和影象處理有一部分交叉,可是也有機器視覺也有自己特有的東西,就是座標定位,三維距離等。這些都是影象處理沒有的。從字面上看,機器視覺,主要是針對機器人用攝像頭識別類的,它與模式識別比,偏重的是視覺前端,模式識別是後端識別。無論怎麼講,機器人都是需要移動,如何定位當前位置,如何運動都是機器視覺的內容。

人工智慧

人工智慧算最寬泛的一種領域了,資料探勘,模式識別都可以籠統的放到人工智慧裡面。舉例子:文字的理解,表情的分析都是人工智慧裡面的,人工智慧寫詩歌,這些都是人工智慧。其他的資料探勘,都是從人工智慧裡面提取出來的分支而已。人工智慧是一個非常大的領域。

       至於人工智慧的書,都是很寬泛的講解那些,什麼是人工智慧,它的歷史,有什麼難點,文字怎麼理解,和人的智慧有什麼差別等,很理論的東西。

機器學習

      機器學習的書,就是一群數學演算法,貝葉斯,均值聚類,神經網路,深度學習,支援向量機等。也是做到分析,推理的核心了。模式識別,最後的識別就是靠它。資料探勘,最後的分析也是靠它。人工智慧,最後的智慧現象也要靠它。模式識別,資料探勘,人工智慧都是領域,而最後完成的處理都是機器學習。

基本內容呢??就是這些了,各位想從事哪個方向呢???自己去選擇吧。不過我還是分析一下目前的情況吧。

目前的社會情況

百度,阿里,騰訊和各類金融,網際網路公司,大部分的機器學習工程師,都是用於資料探勘的。也是目前最火爆,待遇最好的方向。所以,偏向於資料探勘更好一些。

而模式識別類機器學習就比較少了。比如說三維重構,好像目前就沒有公司在做,google到影象搜尋和智慧汽車涉及到了一些外,其他公司的都是基於大資料的分析,推薦系統等。

-------------------------------------------------------------------------------------------------------------------

這學期分別學習了《資料探勘》《機器學習》和《模式識別》三門課程,為了搞明白這三者的關係,就google了下,一下為一些從網上獲得的資料。

      資料探勘和機器學習的區別和聯絡,周志華有一篇很好的論述《機器學習與資料探勘》可以幫助大家理解。資料探勘受到很多學科領域的影響,其中資料庫、機器學習、統計學無疑影響最大。簡言之,對資料探勘而言,資料庫提供資料管理技術,機器學習和統計學提供資料分析技術。由於統計學往往醉心於理論的優美而忽視實際的效用,因此,統計學界提供的很多技術通常都要在機器學習界進一步研究,變成有效的機器學習演算法之後才能再進入資料探勘領域。從這個意義上說,統計學主要是通過機器學習來對資料探勘發揮影響,而機器學習和資料庫則是資料探勘的兩大支撐技術。從資料分析的角度來看,絕大多數資料探勘技術都來自機器學習領域,但機器學習研究往往並不把海量資料作為處理物件,因此,資料探勘要對演算法進行改造,使得演算法效能和空間佔用達到實用的地步。同時,資料探勘還有自身獨特的內容,即關聯分析。

而模式識別和機器學習的關係是什麼呢,傳統的模式識別的方法一般分為兩種:統計方法和句法方法。句法分析一般是不可學習的,而統計分析則是發展了不少機器學習的方法。也就是說,機器學習同樣是給模式識別提供了資料分析技術。

至於,資料探勘和模式識別,那麼從其概念上來區分吧,資料探勘重在發現知識,模式識別重在認識事物。

機器學習的目的是建模隱藏的資料結構,然後做識別、預測、分類等。

因此,機器學習是方法,模式識別是目的

(前面為百度得到 )