2019 年關於資料科學、機器學習和人工智慧的五大預測
總結:以下是我們對 2019 年關於資料科學、機器學習和人工智慧的五大預測。我們還會回顧一下我們去年的預測情況。
每年的這個時候,我們都會回顧過去,展望未來。對於資料科學、機器學習和人工智慧來說,則是看看什麼趨勢會加快、什麼事情會真正發生、什麼事情在未來一年不會發生。
我們一整年都在觀察和報道這些趨勢,並且我們搜尋了網路,諮詢了我們的一些專家以瞭解其他人的想法。
以下是我們對去年預測的快速回顧。
- 我們曾預測:模型製作和資料準備都將變得越來越自動化。更大的資料科學操作將彙集到單個平臺上(有很多可用的平臺)。這兩個趨勢都是對追求效率和效益的響應。簡而言之,就是少數幾名資料科學家可以做許多科學家的工作。
預測正確。無程式碼資料科學正在崛起,高階分析平臺中端到端的整合也是如此。
- 我們曾預測:資料科學將越來越專業化,這意味著神話般的“全棧”資料科學家將消失。
預測正確。現在談論更多的是資料工程師而非資料科學家。資料工程師是讓資料科學模型在現實世界中工作的那些人。
- 我們曾預測:非資料科學家將比資料科學家做更多相當複雜的分析工作。
預測正確。資料視覺化和視覺化分析技術的流行,讓非資料科學家可以從複雜的資料科學工具中獲取更多價值。
- 我們曾預測:深度學習是複雜且艱難的。沒有很多資料科學家專長於此領域,這將阻礙人工智慧的應用,直到深度學習平臺明顯地得到簡化和產品化。
微軟和谷歌都於 2018 年推出了自動化深度學習平臺。這些平臺都是從遷移學習開始,但在向著全面 AutoDL 的方向發展。還有一些整合了 AutoDL 平臺的初創企業。今年早些時候,我們考察了具有全面 AutoML 和 AutoDL 平臺的 OneClick.AI 。Gartner 最近提名 DimensionalMechanics 為具有 AutoDL 平臺的“5 大酷公司”之一。
- 我們曾預測:儘管有炒作,但人工智慧和深度學習在更廣闊市場的滲入比我們想象的更有限而且速度也更慢。
除了聊天機器人的出現,真正的人工智慧在企業中的應用是有限的。它們在實現的路上,但還未完成。我所見過的 最全面的研究表明 ,只有 1/5 或 1/3 的大型企業在“大規模”地實施人工智慧,這意味著他們在實施全場緊逼戰術,給對手以最大的壓力。在規模小一點的公司中,這樣的公司所佔的比例要小得多。我們也不能真正確定它們是否意味著“真正的”人工智慧。
- 我們曾預測:公眾(和政府)將會認真看待人工智慧對社交和隱私的影響,包括有意和無意的影響。
只要看看新聞和報道,那些頂級社交媒體的高管們被政府和歐盟召喚去參加聽證會。開始看起來像遊街示眾。政府將開始監管,如果不在聯邦政府層面,那麼會更加混亂,每個州各行其是,如即將生效的加州隱私規定或澳洲的強制性反加密要求。
因此,我們去年的 6 個預測都實現了。儘管去年的很多預測對明年來說也有效,但是,我們打算做得更具體些。
以下是我們對 2019 年的趨勢預測。
預測 1:資料變得比演算法更重要
無論是在深度學習還是在經典機器學習領域,我們已經有 1 年多時間沒有取得任何重大突破。有一些漸進的改進,比如,利用時間卷積網路(Temporal Convolutional Nets,簡稱 TCN)而不是 RNN 來減少 NLP 中的延遲,但是沒有重大創新。效能最好的演算法都是眾所周知的演算法,或者利用自動機器學習很容易發現。
隨著各個企業踏上數字化轉型之旅,擁有更多更好的資料是成功的關鍵,而我們正處於這樣的時期。實際上,這給向不同方向發展的資料相關的解決方案提供了競爭機會。
一方面,獲取準確標記的影象或文字訓練資料仍然相當昂貴和耗時。像 Figure Eight 這樣專注於標記資料的公司正在推廣智慧成本效益策略,如:主動學習,它讓客戶決定標記資料和模型準確性之間的最佳權衡。這涉及新增人工標記或機器標記資料,然後重新訓練,通過多次迭代以找到最佳權衡。
另一方面是對第三方資料的訪問。像 DymstData 這樣的服務公司已經進入了該領域,作為數百種附加資料的結算機構。他們還承擔著保護敏感 PII 這個任務繁重的角色,其使用者能夠基於角色以訪問在金融和健康服務領域特別重要的敏感資訊。
第三個方面是自動跟蹤和記錄模型中所用的資料來源。特別地,當整合來自很多資料來源並隨著時間而變化的流資料時,瞭解資料的來源以及如何使用資料,對準確性和合規性都至關重要。Tibco 和其他一些分析平臺正在引入這個功能。
圍繞資料的服務產品今年今年有望大幅增長。
預測 2:隨著人工智慧 / 機器學習從分析平臺轉移到特定於行業或流程的應用程式,一切都將變得更容易。
縱觀人工智慧 / 機器學習初創企業的世界,就能看出競爭正在轉向特定於行業或流程的應用程式。這些應用程式或迷你平臺專注於解決行業中特定的業務問題,如市場營銷、B2B 銷售、醫療保健、金融科技以及其他大約十幾個已經明確定義的領域。要想有一個快速地瞭解,請參考下圖(CB Insights 年度人工智慧 100 家優勝者)以及他們按行業或流程進行分類的方式。

這些新的應用程式專注於嵌入式人工智慧 / 機器學習,因此,使用者所在的組織就不需要一大組內部資料科學家的支援,並且可以依賴這些開發人員繼續提供更新和改進。
有些人把這稱為人工智慧 / 機器學習的商品化,但是,把它們稱為人工智慧 / 機器學習的專業化更準確。
如果你一直從事類似的工作,那麼你可能還記得 90 年代後期從再造工程(Reengineering)到 ERP 的轉變,現在的情況和當時非常相似。最初,再造工程要求企業用複雜的定製 IT 解決方案來改進流程,因為當時不存在標準解決方案。這迅速促成了大型綜合性 ERP 興起,其中包括甲骨文、PeopleSoft、SAP 和其他一些公司,也為像 CRM 這樣的專業應用程式打開了大門。我們的行業目前正在經歷同樣的變化。
這些新供應商都致力於在他們特定的利基市場提供廣泛的解決方案,但是最終會少於大而全的 ERP 規模的平臺。看看這些行業分類中開發商的整合浪潮吧。
還要注意在中小型企業中人工智慧 / 機器學習採用的加速情況,這些企業不再必須擁有大型資料科學家團隊,或者完全依賴定製開發的模型。
預測 3:資料工程師和資料分析師的興起
這個世界並沒有拋棄資料科學家。還遠遠沒有。但是,當缺乏擁有某種技能的人才時,市場會用另外的方式來填補,以減輕由此帶來的痛苦。
其中一種方式是通過我們前面討論過的特定於行業和流程的智慧應用程式來解決問題,這些應用程式不需要大量的內部資料科學家。
第二個就是所有主流分析平臺正在做的事和快速湧現的數十個自動機器學習(AML)平臺。那就是在資料科學中更有效率,也就是說,只需要較少的資料科學家就可以做很多工作。
由於模型的數量沒有減少,事實上是在增加,這就把工作負荷轉移到了資料工程師身上,他們主要做兩件事情。
首先,他們要能夠建立資料科學所需的基礎設施,如資料湖或 Spark 例項。
其次,他們拿到那些模型並在業務系統中實現它們,同時跟蹤準確性並進行模型更新。
有些資料工程師還負責資料操作,以提供乾淨整潔並經過預處理的資料流。
分析平臺的另一個演進是視覺化分析和資料視覺化工具的增長。這些工具現在大多數和資料科學工具集完全整合到一起,並允許資料分析師和 LOB 經理提取更多價值,甚至指導分析工作。它們不會取代資料科學家。它強化了團隊方面正在形成的高階分析。
預測 4:神經晶片:人工智慧來到物聯網邊緣
有兩種不同的技術正在同時達到半成熟狀態,它們可以解決一個長期存在的問題。這個問題就是延遲問題。
考慮一下這個例子,當你想用移動裝置自動把文字或影象中的外文翻譯成英語時,你的裝置實際上是把這些訊號發回到在雲上執行的應用程式,翻譯工作是在那裡進行的,然後把譯文傳送回你的裝置。
谷歌和其他提供即時翻譯服務的公司已經從 RNN 轉換到稱為時間卷積網路的專用 CNN 結構,原因是 RNN 不能很好地適應 MPP,但 CNN 可以。這種轉換減少了延遲,但是訊號仍然需要完成整個往返。
解決該問題的兩種技術中的第 1 種是 5G 網路。你可能知道 5G 速度更快,但其真正的優點是其可以承載的流量密度。這真正打開了讓你生活中的一切在網際網路上傳播的大門。這其中有多少是值得的還有待於觀察。
第 2 種解決方案是引入更好的新型神經晶片(又稱 spiking neural networks,脈衝神經網路)。我們希望這些全新的神經網路架構可以成為實現人工通用智慧(Artificial General Intelligence,簡稱 AGI)的途徑。這還有很長的路要走。但是,主要的晶片製造商和一些初創企業正在釋出脈衝神經晶片,專門針對晶片上 CNN 和 RNN 類模型進行了優化(沒有訊號往返)。其中一些還為了獲得極低的能耗進行了優化。

這些功能放在一起,很適合把深度學習轉移到真正位於網路邊緣的晶片上。藉助這些新功能,物聯網和其他流資料應用程式有望在今年開始爆發。
預測 5:不同的人工智慧框架之間開始互動
現在,文字、語音、影象和視訊模型正在成為主流,我們碰到了意想不到的障礙。在一個框架(Caffe2、PyTorch、Apache MXNet、微軟 Cognitive Toolkit 和 TensorFlow)上構建的模型無法輕鬆地移植到不同的框架。我們可以翻譯語音,但我們用的是名副其實的巴別塔。
幸運的是,這樣的痛點推動了創新。AWS、臉書和微軟合作構建了開放式神經網路交換(Open Neural Network Exchange,簡稱 ONNX),使模型可在不同的框架上互操作。
隨著在開發人員、應用程式和裝置之間共享的模型的數量變得越來越多,ONNX 正在成為未來一年的關鍵技術。
這就是今年的情況。請繼續關注我們,明年來看看我們今年的預測準不準。
作者簡介
Bill 是 Data Science Central 的編輯總監。他還是 Data-Magnum 的總裁兼首席資料科學家。自 2001 年以來,他一直從事資料科學家的工作。請通過 [email protected] 或 [email protected] 和他聯絡。
閱讀英文原文:5 Predictions about Data Science, Machine Learning, and AI for 2019, https://www.datasciencecentral.com/profiles/blogs/5-predictions-about-data-science-machine-learning-and-ai-for-2019