真實與炒作,發展與失望並存的一年:大咖共同回首2018展望2019
大資料文摘出品
編譯:楊威、周家旭、張南星、Aileen
2018即將收尾,2019即將開啟,我們將帶大家縱覽專家們對AI的分析和預測。我們向專家們提了個問題:你認為2018年資料科學與分析的主要進展是什麼?2019年會怎樣發展?
雖然我們討論的是資料科學和資料分析,但在大多數答案中AI都是主要內容。這些專家所提到的內容包括人工智慧的進步(真實情況和炒作參半);資料科學和資料分析的民主化,例如自助分析;以及“萬事皆自動化”,例如資料科學,GDPR,AI風險,實時分析等等。
專家組名單如下:Meta Brown,Tom Davenport,Carla Gentry,Bob E Hayes,Cassie Kozyrkov,Doug Laney,Bill Schmarzo,Kate Strachnyi,Ronald van Loon,Favio Vazquez和Jen Underwood。以下是他們的簡介,推特ID以及對這個問題的解答。
“2018年資料科學和資料分析的主要進展和2019年發展趨勢”問答詞雲
Meta Brown(@ metabrown312),《Data Mining for Dummies》(資料探勘入門指南)的作者,A4A Brown.Inc公司總裁,該公司致力於加強管理層和技術人員之間的溝通。
2018年的熱門分析話題非人工智慧(AI)莫屬。印象中,人工智慧比其他分析學應用技術引起了更多的討論。但令人遺憾的是,大部分討論並未產生多大價值。
電腦科學的先驅阿蘭·圖靈(Alan Turing)曾展望過,計算機智慧將匹敵人類智慧,即人們無法區分是在和計算機對話,還是在和人類對話。
想想我們與現在人工智慧應用的互動過程。諸如Siri或Alexa的個人助理雖然挺有用,但和它們溝通的感覺,遠遠無法達到與真人溝通的效果。而線上自助聊天機器人則更令人失望,如果嘗試問一個現實生活中的問題,你將意識到它背後並沒有真正的“大腦”。
按照圖靈的定義,人工智慧尚不存在。紐約大學心理學和神經科學教授加里·馬庫斯(Gary Marcus)說,人們對人工智慧的最大誤解就是“我們離人工智慧不遠了”。
的確,我們現實生活中已經應用了計算機來進行邏輯運算。雖然它們並不像人一樣思考,但它們足夠快、且連續性足夠強,這些都是極具價值的優勢。這些應用賦能機器完成實際工作,例如標記潛在欺詐交易,操作汽車等。
儘管AI技術的侷限顯而易見,但大眾,甚至是科技界都充斥著對人工智慧不切實際的主張和期望。這些扭曲的觀點在人群中引發了恐懼,同時也讓一些人的期望落空,而我們所見之現實則更令人失望。
湯姆·達文波特(@tdav),巴布森學院總統資訊科技和管理部門的特聘教授,國際分析研究所聯合創始人,MIT數字經濟研究所的研究員和Deloitte Analytics公司的高階指導顧問。
我們在國際分析研究所對技術年度發展趨勢進行了預測分析,下面是我提出的一些觀點:
- 組織機構對模型部署率關注度不斷上升-根據雷克斯資料科學(Rexer Data Science Survey)調查顯示,只有10%-15%的公司部署率為“幾乎總是”,另外50%的公司僅“經常”部署,剩下35% - 40%的公司成功部署分析模型的機率只有“偶爾或很少”。我曾遇到過一些組織機構表示他們的成功部署率低於10%。當然,未部署的分析模型沒有任何經濟價值。企業需要在2019年評估和提高部署率。
- 民間資料科學家和商業分析師會一直存在,且越來越多。視覺化和基於搜尋分析的興起,以及資料科學前端的機器學習愈加自動化,意味著業餘愛好者將產出大量的分析結果。對抗這種趨勢將失敗無疑,所以不如轉向賦能,助力其發展。這也意味著從事量化工作的專業人員能夠集中注意力於複雜困難的建模任務,或者轉向理解業務,解決組織性變革問題。
Carla Gentry(@ dat_nerd),諮詢資料科學家和Analytical-Solution所有者。
2018年是資料分析和資料科學輝煌發展的一年,但我們也看到了人工智慧、神經網路和機器學習的爆發,而並不是所有的主張都有相應的人才和經驗支撐。我們也看到了人工智慧在醫療領域和治安領域的應用增長,但同樣的,其背後也許並沒有充分考慮偏見所帶來的風險,以及人才和經驗的支撐,同時我認為可能有些人忘掉了一個大原則:在這些情境下,依託著可穿戴裝置和物聯網(Google Home,Alexa等),資料就是一切,並且這樣的趨勢將持續不斷。
2019年,業界將繼續討論這些流行詞彙,公司將開始落實它們利用神經網路從數以萬計甚至億計的例項中學到的成果,更糟糕的是,每當你想要神經網路識別新物體時,你必須從頭開始(至少時間的消耗是必須的)-而人才是另一個問題。除了 Geoffrey Hinton,Yejin Choi或 Yann LeCun,你真的不是一個神經網路的專家,所以不要指望著一個人才池的存在。
資料科學重點在於網羅各種資料並從中獲取洞察,並且在一些情況下,希望自身能夠成為AL、機器學習或者神經網路的專家是不正確的,也沒有這個必要,因此我們必須細心研究差異,並且新入者將不得不重新學習新技術,以在新技術領域具有一些競爭力。我擔心的是,如果沒有真正理解機器如何學習、如何正確應用人工智慧,一些公司/演算法/企業的弱點將持續暴露出來。
讓我們歡天喜地地享用這些新技術吧,但要明白,如果你搞砸了就會有嚴重後果!
Bob E. Hayes(@ bobehayes),研究員、作家兼顧問,Business over Broadway的出版人,擁有工業組織心理學博士學位。
資料科學和資料分析領域經歷了機器學習相關所有內容的熱潮,包括強化學習、聊天機器人及社會影響研究。
在2019年,我預計人們會越來越關注人工智慧的道德倫理,包括隱私和安全問題。人們越來越強調對算法制定特定決策過程的理解;我們不僅需要知道機器學習有助於我們做出決策,而且也需要知道它是如何工作的(它是如何做出決策的)。此外,美國公司將重點關注如何使用消費者的個人資料。加利福尼亞州通過了“加利福尼亞州消費者隱私法”(將於2020年1月生效),我期待並且希望其他州能緊隨其後。
但同時,我也擔心人工智慧/機器學將導致假新聞創造和傳播的增加。Deep fakes(人工智慧的深度換臉技術)表明,人們能夠捏造視訊內容,來展示他們從未說過或做過的事情,並且毫無愧疚之意。正如馬克斯·泰格馬克(Max Tegmark)所說,充分認識到人工智慧的潛在威脅不在於涅佐,而僅僅是“安全工程”。
現在資料從業者有許多渠道可以學習資料科學,諸如集訓營、MOOC以及大學課程,但我也希望非資料專從業者(例如,經理和一線員工)能夠更多地嘗試學習資料分析課程。
Cassie Kozyrkov(@ quaesita),Google Cloud首席決策工程師。統計學狂熱者,人工智慧,資料,雙關語,藝術,科幻,戲劇,決策科學。
2018年的主要發展之一是資料科學的民主化。利用雲技術,人們無需實現建設Kubeflow等工具來構建資料中心,就可以為資源密集型大資料和AI應用程式提供源源不斷的動力,從而為沒有架構專業知識的人提供可擴充套件資料科學。這種賦能大眾、讓所有人都能獲取資料科學工具的發展趨勢將在2019年加速發酵。
Doug Laney(@ Doug_Laney),Gartner公司副總裁、傑出分析師和首席資料官研究員,也是《Infonomics》一書的作者。
Gartner公司剛剛釋出2019年資料和分析戰略預測報告。其中提到了一個觀點:企業戰略中明確表示資訊是企業的重要資產,而分析是必不可少的能力。不僅IT戰略提到了這一點,企業戰略和計劃也提到了類似的內容。
此外,我們期望資料掃盲計劃將變得成為常態,以幫助業務人員和資料分析專業人員更好地溝通,尤其是在當下資料分析需求愈加複雜的背景之下。隨著資訊經濟學中的原則和實踐得到廣泛傳播,我們期望首席資料官能夠更頻繁地與首席財務官們合作,以正式評估組織的資訊資產。這樣做可以為許多客戶帶來重要的資訊管理和商業的好處。但分析和數字倫理仍然是一個問題,我們相信組織將開始為他們的資料科學團隊引入專業行為準則。
此外,我們預計在未來3-5年內,大多數新業務系統將通過充分利用實時環境資料以實現持續智慧的應用;量子計算的POC專案(概念驗證專案)將會使計算機的分析能力大大超過現狀;智慧強化和自動化的內部分析洞察將取代絕大多數的預測報告;位置分析的使用率將增長近10倍;機器學習也將緩解對資料科學家的人才爭奪。
Gregory Piatetsky,@kdnuggets,KDnuggets總裁,資料科學家,KDD會議和SIGKDD的聯合創始人,LinkedIn 2018資料科學與分析領域頂級發聲者排名首位。
2018年的主要發展我認為有:
- 通用資料保護條例(GDPR)於2018年5月生效,不僅僅在歐洲,在美國乃至其他地區都是資料科學界一個重要的里程碑,在其影響下許多公司都更新了其隱私政策。但同時,新條例下的消費者隱私權益保護是否真的能得到改善,或者在新的保護政策下,是否還能像往常一樣使用消費者隱私資料以創造價值,還有待觀察。
- 資料科學民主化:隨著訪問工具和途徑的增長,資料科學的民主化仍在繼續。AWS reinvent釋出的新工具就是其中之一。
- 人工智慧風險:自動駕汽車的第一次致人死亡的事故原因在於機器未能分辨推著自行車行走的行人。這一事件吸引了社會對於人工智慧不可避免風險的關注。與此同時人們需要注意,以零誤差作為評價自動駕駛(和自動化AI)的標準是不現實的,正確看待的方式是其使駕駛風險相對現在大大降低。例如,人類駕駛的事故率就非常高,僅在2017年,美國就有37000人喪生於此。
2019年的主要趨勢:
- 資料科學自動化將會加速發展,但至少在近幾年內,資料科學家的工作還不會被完全的自動化取代。
- 人工智慧的進步和炒作:儘管人工智慧的發展是真實的,但人工智慧的炒作增長更為迅速。
- 中國已經成為人工智慧的主要參與者,許多中國公司正開始進行自主創新研發,而不僅僅是從美國複製。
- 強化學習將在人工智慧進步中發揮越來越重要的作用。例如,強化學習演算法在為解決Montezuma's Revenge Atari game時,取得了驚人的進展,達到了前所未有的100級,超越此前人類或計算所能達到的最好記錄。
Bill Schmarzo, @schmarzo, Hitachi Vantara 物聯網與分析首席技術官
2018年大資料、資料科學與分析的主要發展情況:
- 通過越來越多成功案例的釋出,利益相關者者對機器學習及深度學習的應用潛力有了更深刻的認識。
- 資料湖仍然存在投資誤區。太多機構將資料湖視為驅逐昂貴的資料倉庫及縮減ETL成本的一種方式,卻尚未充分理解其作為價值創造平臺的潛力,以供利益相關者和資料科學團隊獲取及商業價值驅動。
2019年主要趨勢:
- 對於行業領跑企業而言,發展大資料和資料科學的主要動因應當是來自於業務端,而非IT端。龍頭企業將通過識別,驗證,審查,評估和優化業務成果,使大資料,物聯網和資料科學(機器學習,深度學習,人工智慧)驅動業務發展。
- 除使用資料科學優化關鍵業務和運營流程(仍然是開始獲得誘人的投資回報率的好地方)以外,龍頭企業將意識到,隱藏在資料中的客戶、產品和運營的洞察將是未來機會變現的驅動因素。
Kate Strachnyi(@ StorybyData),資料視覺化專家,《破壞者:資料科學領導者》和《如何成為資料科學家》的作者;人類資料科學視訊播客。
2018年資料科學和分析的主要發展:
- 通用資料保護條例(GDPR):2018年5月生效的歐盟法規為,為歐盟公民提供了一套個人資料保護規章制度。這一實踐推動了類似標準在其他地方的設定。例如,美國加利福尼亞州通過了自己的數字隱私法案;,這一法案使消費者瞭解到相關機構正在收集哪方面的資訊,為什麼他們要收集這些資料以及他們與誰共享資料。
- 自助式商業智慧(BI)工具:商業智慧分析工具將在資料分析師和商業分析師中變得更加普遍。但是,這些工具的使用者們是否真的瞭解這些分析場景的真實含義,我們尚不清晰。在人們學習使用拖拽工具、製作圖表的速度,與人們對真實業務場景的理解之間,尚存在一定差距。
2019年的主要趨勢:
- 資料道德與隱私:在每個資料科學的環節上,使用資料的道德和隱私問題將愈發得到重視。與資料起舞的人,需要對他們所擁有的強大權力與他們工作可能帶來的廣泛影響有清晰的認知。隨著全世界數字化程序的推進,這些問題應當從個人,公司及政府層面都得到重視。
- 流程自動化:公司將繼續推進流程自動化,以降低成本並提高效率。這種自動化還可能導致相應自動化流程的個人面臨失業問題。因此在未來,人們需要專注於不斷學習新技能,以便適應瞬息萬變的環境。
Ronald van Loon(@ Ronald_vanLoon),Adversitement(一家幫助資料驅動型公司取得成功的公司)總監,大資料、資料科學、物聯網、人工智慧十大影響人物之一。
2018年,端到端資料管理增長的同時,公司一邊提高分析能力的成熟度,一邊充分挖掘所有資料資源,來獲取值得信賴的洞見,以及建立適應於當前數字化經濟的基礎設施及商業模型。機器學習被大眾廣泛接受,軟體供應商在其解決特定問題的產品應用中,大量引用了機器學習技術。
2019年,為支援更加複雜、級別更高的深度學習應用,將會出現更多的整合硬體、軟體框架,以促進更廣泛的創新。深度學習應用需要全面優化的硬體和軟體堆疊,以推進全新現代的AI架構。我們將會看到各行各業供應商開始使用者這種全棧方案,以滿足深度學習最佳效能和功能的需求。
隨著物聯網裝置的增長,實時邊緣分析將呈指數級增長,這使得使實時分析變得更加容易,也將有助於基於實時洞見獲取即時的反饋。
Favio Vazquez(@ FavioVaz),資料科學家。物理學家兼計算工程師,Ciencia y Datos創始人
2018年是資料科學(DS)令人驚歎的一年,無論是在理論方面還是實踐方面。業界提出了資料科學的幾種研究方法,可以幫助將資料科學轉換為實際科學。我參與其中的討論已經一年多了,也在最近看到了更多的人蔘與討論。相對與機器學習,自動化機器學習的內容十分繁雜,其中也包括自動化深度學習。
2019年的主要趨勢:
- AutoX:我們將看到越來越多的公司在它們的堆疊技術以及函式庫中使用自動化機器學習和深度學習的相關技術。這裡的X意味著將這個自動工具將擴充套件到資料攝取,資料整合,資料清理,探索和部署等各個方面。自動化將存在於此。
- 語義技術:今年我最有趣的發現是資料科學和語義之間的關聯性。它不是資料世界中的新領域,但我發現越來越多的人對語義、本體、知識圖及其與資料科學和機器學習的關聯性表現出興趣。
- 程式設計化繁為簡:這是一件很難定義的事情,但是隨著資料分析的每一個流程實現自動化,我們的日常程式設計工作將越來越少。我們將擁有用於建立程式碼的工具,這些工具將理解我們對自然語言處理的需求,然後將其轉換為查詢、命令和完整程式。我認為程式設計仍然是非常重要的學習內容,但它很快就會變得更簡潔容易。
- 數字化教育:數字化教育每年都在增長,但明年我們將看到比以往更多的人蔘與到MOOC、數字課程或線上課程之中。有人將其稱之為“教育民主化”,我在很大程度上同意這種說法,但我想對所有人說:注意你的學習內容和方式,在投入時間和金錢之前對所學課程進行調查研究,好的課程將改變你的生活,相反的,它也非常危險。
Jen Underwood(@ idigdata),DataRobot高階總監,Impact Analytix.LLC創始人。
人工智慧炒作和轉型影響在2018年無處不在。幾年前,大資料風靡一時,然後是雲技術,現在機器學習則佔據了主導地位。人工智慧在手機應用,機器人和商業智慧解決方案方面被吹得過了頭。在今天,即便是啤酒,也是人工智慧驅動。
今年,我們也看到了自動化市場的急速擴張。如今,許多機器學習解決方案都在推動人工引導的、自動化的資料分析向整個全生命週期自動化機器學習轉化。從簡單的拖拽、點選按鈕以建立基本模型,到複雜的特徵工程、模型檢索、引數調整、部署、模型的管理和監控,自動化機器學習的應用範圍十分廣泛-結果也參差不齊。