1. 程式人生 > >從大資料到AI:AI的現狀和未來

從大資料到AI:AI的現狀和未來

從大資料到AI:AI的現狀和未來

 

http://blog.sina.com.cn/s/blog_cfa68e330102zd0j.html

 

 

作者|George Anadiotis

整理|薛命燈

編輯|Debra

 

導讀:事實證明,從大資料到資料分析再到 AI 的轉變是一個很自然的過程。這不僅是因為這個過程有助於調整人類的思維模型,或者因為大資料和資料分析在被 AI 奪去光彩之前浸淫在 AI 的各種炒作中,主要還是因為我們需要通過大資料來構建 AI。

 

AI 走向主流只用了幾年時間,儘管在很多方面已經取得了快速進展,但真正瞭解 AI 的人並不多,能夠掌握 AI 的人就更少了。

 

2016 年,AI 炒作剛剛開始,很多人在提到“AI”一詞時仍然十分謹慎。畢竟,多年來我們一直被灌輸要儘量避免使用這個術語,因為這些事情已經引起了混亂,它們承諾過度,卻無法兌現。事實證明,從大資料到資料分析再到 AI 的轉變是一個很自然的過程。

 

這不僅是因為這個過程有助於調整人類的思維模型,或者因為大資料和資料分析在被 AI 奪去光彩之前浸淫在 AI 的各種炒作中,主要還是因為我們需要通過大資料來構建 AI。

 

讓我們回顧一下 Big Data Spain(BDS)大會,它是歐洲最大和最具前瞻性的大會之一,標誌著從大資料到 AI 的轉變,並嘗試回答一些與 AI 相關的問題。

 

在真正成功之前,我們能先假裝成功嗎?

簡單地說:不行。Gartner 分析成熟度模型的一個要點是,如果你想構建 AI 功能,就必須在可靠的大資料基礎上進行。

 

其中一部分是關於儲存和處理大量資料的能力,但這真的只是冰山一角。現在的技術解決方案已經琳琅滿目,但要構建 AI,你不能忘了人和流程。

 

更具體地說:不要忘了組織中的資料素養和資料治理。如果你認為可以通過某種方式跨過資料分析的演化鏈在你的組織中開發 AI 解決方案,那麼請三思。

 



Stratio 執行長 Oscar Mendez 在他的主題演講中強調,要超越華而不實的 AI,需要採取整體方法。做好資料基礎設施和資料治理,並在此基礎上訓練正確的機器學習(ML)模型,這樣可以獲得令人印象深刻的結果。但這些可以帶給你的好處是有限的,Alexa、Cortana 和 Siri 的日常失誤足以證明這一點。

 

關鍵是要具備上下文和推理能力,以便更接近地模擬人類智慧。並不是 Mendez 一個人這麼認為,因為這也是 AI 研究人員同樣持有的觀點,例如深度學習領域頂級的思想家之一 Yoshua Bengio。深度學習(DL)在模式匹配方面表現優異,資料和計算能力的爆發讓它在基於模式匹配的任務中勝過人類。

 

然而,智慧並非只是關於模式匹配。推理能力不能只通過 ML 方法來建立——至少現在不行。因此,我們需要整合遠離炒作的 AI 方法:知識表示和推理、本體論等。這是我們一直在倡導的,並且看到了它在 BDS 上很受推崇,這是一種正面的肯定。

 

應該將 AI 外包嗎?

 

簡單地說:也許可以,但應該要十分謹慎。我們可以直截了當地說:AI 其實很難。是的,AI 絕對應該建立在資料治理的基礎之上,因為這無論如何對你的組織來說都是有好處的。有些組織,比如 Telefonica,通過執行戰略計劃設法從大資料轉向 AI,但這並非易事。

 

這一點已經被一份相當可靠的 ML 採用調查報告所證實,超過 1 萬 1 千多個受訪者參與了這次調查。來自 Derwen 的 Paco Nathan 展示了 O'Reilly 的一份調查的結果,這或多或少地證實了我們的想法:採用 AI 和沒有采用 AI 的組織之間的差距越來越大。

 

在 AI 採用頻譜的一邊是谷歌和微軟這樣的領導者:他們將 AI 作為其戰略和運營的核心要素。他們的資源、資料和技術成為他們領導 AI 競賽的先決條件。然後是 AI 採用者,他們在自己的領域中應用 AI。然後是落後者,他們陷於技術債務之中,無法在 AI 採用方面做出任何有意義的事情。

 

 

從表面上看,AI 領導者提供的產品似乎是在普及“AI”。谷歌和微軟都在 BDS 上展示了這些,他們做了一些演示,在幾分鐘內通過點選的方式就構建出一個影象識別應用程式。

 

很明顯,他們在向我們傳達這樣的一個資訊:讓我們來操心模型和培訓的事,你只要專注在你領域內的細節上。我們可以識別機械部件——只需要提供給我們特定的機械部件就可以了,然後你該幹什麼幹什麼去。

 

谷歌還在 BDS 上釋出了一些新產品:Kubeflow 和 AI Hub。它們背後的想法是編排 ML 管道,類似於 Kubernetes 為 Docker 容器提供的應用程式。這些並不是唯一能夠帶來類似優勢的產品。它們看起來有點誘人,但你應該使用它們嗎?

 

誰不想直接跳過 AI 這道坎,拿到想要的結果,而且不需要面對那麼多麻煩?這確實是一種可以讓你領先於競爭對手的方法。但問題是,如果你完全將 AI 外包,那麼你就無法獲得在中長期內自給自足所需的技能。

 

想想數字化轉型。是的,數字化、探索技術和重新設計流程也是很難的。並非所有組織都能做到,或者有能力投入足夠的資源,但那些做到的組織現在已經跑在了前面。AI 具有類似甚至更大的顛覆潛力。因此,可以立即獲得成果固然好,但 AI 的投資仍然應該被視為戰略的重點。

 

當然,你可以考慮外包基礎設施。對於大多陣列織而言,維護自己的基礎設施的數量並未增加。在雲端執行基礎設施所帶來的規模經濟性和領先優勢將帶來實質性好處。

 

我們將去向何處?

簡單地說:就像登月一樣。ML 反饋閉環似乎正在全面展開,因此,採用者試圖跟上,落後者保持滯後,但領導者卻越來越領先。

 

Pablo Carrier 在演講指出,如果你嘗試線性提高 DL 的準確率,計算量將呈指數級增長。在過去六年中,計算量增加了 1000 萬倍。即使是谷歌雲也很難跟上,更不用說其他的了。

 

Google Cloud AI 技術主管 Viacheslav Kovalevskyi 在開始他的“分散式 DL 理論和實踐”演講之前,警告說:如果有可能,請避免使用它。如果你真的必須這麼做,請注意與分散式相關的開銷,並準備在計算和複雜性以及基礎賬單方面付出代價。

 

Kovalevskyi 提供了一些不同的使用分散式 DL 的歷史視角——分佈資料、模型或二者。分佈資料是最簡單的方法,分佈兩者是最難的。但是,無論如何,分散式 DL 仍然是一個“童話之地”——通過增加 k 倍計算時間,你並不會獲得 k 倍的效能提升。

 

當然,Google 的演示主要關注 Google Cloud 上的 TensorFlow,但這不是唯一可用的方法。Databricks 剛剛宣佈支援 HorovodRunner,通過 Horovod 來輔助分散式 DL。Horovod 是一個開源框架,由 Uber 推出,谷歌也在使用它。

 

微軟資料科學家和 Azure 資料 /AI 技術專家 Marck Vaisman 在他的演講中提出了替代方案,他使用了 Python 和 R,而不使用 Spark。他介紹了 Dask,一個 Python 開源庫。Dask 承諾為分析提供高階並行性,可以與 Numpy、Pandas 和 Scikit-Learn 等專案協同工作。

 

最後,圖和圖資料庫也是整個 BDS 的關鍵主題:微軟的知識圖、AWS Neptune 和 Oracle Labs。

 

雲端計算、分發式以及在 ML 中引入圖結構是未來需要關注的一些關鍵主題。

 

英文原文:

https://www.zdnet.com/article/from-big-data-to-ai-where-are-we-now-and-what-is-the-road-forward/