1. 程式人生 > >人工智慧、機器學習、深度學習、資料探勘、資料分析

人工智慧、機器學習、深度學習、資料探勘、資料分析

在開始學習python大資料之前,先要搞清楚人工智慧、機器學習、深度學習、資料探勘、資料分析都是什麼意思。

人工智慧大家族包含著豐富的內容,分清楚了每一項都是做什麼的,才能選對路線。

人工智慧AI
人工智慧分為強人工智慧和弱人工智慧。

強人工智慧是通過計算機來構造複雜的、擁有與人類智慧同樣本質特性的機器,它有著我們所有的感知(甚至比人更多),我們所有的理性,可以像我們一樣思考,也就是電影裡面的機器人。

弱人工智慧 (ANI) 是指擅長於單個方面的人工智慧。垃圾郵件的自動識別,iPhone的助手siri,Pinterest上的影象分類,Facebook的人臉識別都屬於弱人工智慧,也就是我們現在大多是在從事的領域。

人工智慧的研究領域在不斷擴大,各個分支主要包括專家系統、機器學習、進化計算、模糊邏輯、計算機視覺、自然語言處理、推薦系統等。

機器學習ML
那麼如何實現這種人工智慧的智慧呢,這就需要機器學習了。機器學習是一種實現人工智慧的方法。

機器學習最基本的做法,是使用演算法來解析資料、從中學習,然後對真實世界中的事件做出決策和預測。與傳統的為解決特定任務、硬編碼的軟體程式不同,機器學習是用大量的資料來“訓練”,通過各種演算法從資料中學習如何完成任務。類似人類在接觸過很多事物、經歷後獲得的“經驗”和“規定”一樣。例如有經驗的老師在教書多年以後知道如何因材施教(經驗),例如我們在看到STOP以後知道這是停止的意思(規定)。

傳統的機器學習演算法包括決策樹、聚類、貝葉斯分類、支援向量機、EM、Adaboost等等。從學習方法上來分,機器學習演算法可以分為監督學習(如分類問題)、無監督學習(如聚類問題)、半監督學習、整合學習、深度學習和強化學習。

傳統的機器學習演算法雖然在指紋識別、人臉檢測、機器視覺等領域的應用基本達到了商業化的要求或者特定場景的商業化水平,但每前進一步都異常艱難,直到深度學習演算法的出現。

機器學習應用十分廣泛,例如:資料探勘、計算機視覺、自然語言處理、生物特徵識別、語音、手寫識別和機器人運用上都有應用。

深度學習DL

我們知道要想具有好的智慧,除了有具有大量的資料以外還要有好的經驗總結方法。深度學習就是一種實現機器學習的優秀技術。深度學習本身是神經網路演算法的衍生。

深度學習本來並不是一種獨立的學習方法,其本身也會用到有監督和無監督的學習方法來訓練深度神經網路。但由於近幾年該領域發展迅猛,一些特有的學習手段相繼被提出(如殘差網路),因此越來越多的人將其單獨看作一種學習的方法。

最初的深度學習是利用深度神經網路來解決特徵表達的一種學習過程。深度神經網路本身並不是一個全新的概念,可大致理解為包含多個隱含層的神經網路結構。為了提高深層神經網路的訓練效果,人們對神經元的連線方法和啟用函式等方面做出相應的調整。其實有不少想法早年間也曾有過,但由於當時訓練資料量不足、計算能力落後,因此最終的效果不盡如人意。

深度學習摧枯拉朽般地實現了各種任務,使得似乎所有的機器輔助功能都變為可能。無人駕駛汽車,預防性醫療保健,甚至是更好的電影推薦,都近在眼前,或者即將實現。

當前,業界有一種錯誤的較為普遍的意識,即“深度學習最終可能會淘汰掉其他所有機器學習演算法”。這種意識的產生主要是因為,當下深度學習在計算機視覺、自然語言處理領域的應用遠超過傳統的機器學習方法,並且媒體對深度學習進行了大肆誇大的報道。

深度學習,作為目前最熱的機器學習方法,但並不意味著是機器學習的終點。起碼目前存在以下問題:

1. 深度學習模型需要大量的訓練資料,才能展現出神奇的效果,但現實生活中往往會遇到小樣本問題,此時深度學習方法無法入手,傳統的機器學習方法就可以處理;

2. 有些領域,採用傳統的簡單的機器學習方法,可以很好地解決了,沒必要非得用複雜的深度學習方法;

3. 深度學習的思想,來源於人腦的啟發,但絕不是人腦的模擬,人腦不需要大量的資料訓練支援,我們只要看過一張貓的圖就認識了貓,而機器必須經過幾百萬張貓的圖才能“認識”貓。

資料探勘
資料探勘利用各種技術與統計方法,將大量的歷史資料,進行整理分析,歸納與整合,是從海量資料中“挖掘”隱藏資訊,如趨勢、特徵及相關的一種過程。工作BI(商業智慧)、資料分析、市場運營都可以做這個工作。

之所以經常和機器學習合在一起講是因為現在好多資料探勘的工作是通過機器學習提供的演算法工具實現的。例如廣告的ctr預估,PB級別的點選日誌在通過典型的機器學習流程可以得到一個預估模型,從而提高網際網路廣告的點選率和回報率;個性化推薦,還是通過機器學習的一些演算法分析平臺上的各種購買,瀏覽和收藏日誌,得到一個推薦模型,來預測你喜歡的商品。

我們可以把資料探勘理解為一種型別的工作,或工作中的某種成分,機器學習是幫助完成這個工作的方法。

統計學、資料庫和人工智慧共同構造了資料探勘技術的三大支柱,許多成熟的統計方法構成了資料探勘的核心內容。

資料分析
資料分析只是在已定的假設,先驗約束上處理原有計算方法,統計方法,將資料轉化為資訊,而這些資訊需要進一步的獲得認知,轉化為有效的預測和決策,這時就需要資料探勘,也就是我們資料分析師系統成長之路的“更上一樓”。

資料分析是把資料變成資訊的工具,資料探勘是把資訊變成認知的工具,如果我們想要從資料中提取一定的規律(即認知)往往需要資料分析和資料探勘結合使用。

舉個例子:你有50塊錢,去買菜,經過一一問價,你知道了50塊錢能買多少蔬菜,能買多少肉,能吃多少天,心裡得出一組資訊,這就是資料分析。根據自己的偏好,營養價值,用餐時間計劃,最有價效比的組合確定了一個購買方案,這就是資料探勘。

中國的人工智慧發展
人工智慧企業可以在應用層、技術層、基礎上進行區分。

在應用層的中國人工智慧公司按照領域劃分包括:

機器人:Geek+、 Rokid、圖靈機器人、優必選。

自動駕駛:百度、天瞳威視、地平線機器人、馭勢科技。

無人機:大疆、億航、Hover Camera、零度智控。

語音助手:百度、出門問問。

商業智慧:永洪科技、Data KM。

消費者服務:AiKF。

產業應用:碳雲智慧、Maxent、今日頭條、學霸君。

在技術層的中國人工智慧公司按照領域劃分包括:

語音識別&自然語言處理:

思必馳、百度、科大訊飛、出門問問、捷通華生、騰訊、三角獸、雲知聲。

機器學習&深度學習:深鑑科技、中科視拓。

人工智慧平臺:達闥科技、第四正規化。

計算機視覺:依圖科技、格靈深瞳、曠視科技、商湯科技。

在基礎層的中國人工智慧公司按照領域劃分包括:

感測器:ICE DRINK、LeiShen、SLAMTEC、北醒光子。

AI 晶片:寒武紀科技、地平線機器人。

資料:DataDouDou、資料堂計算力:阿里巴巴、百度。


作者:資料架構師
來源:CSDN
原文:https://blog.csdn.net/luanpeng825485697/article/details/78769184
版權宣告:本文為博主原創文章,轉載請附上博文連結!