1. 程式人生 > >【譯】AI 讓科技公司變得更強大嗎

【譯】AI 讓科技公司變得更強大嗎

機器學習可能是當今技術中最重要的基本趨勢。由於機器學習的基礎是資料 - 大量的資料 - 很常見的是,人們越來越擔心已經擁有大量資料的公司會變得更強大。這有一定的道理,但是以相當狹窄的方式,同時ML也看到了很多能力的擴散 - 可能存在與集中化一樣多的分散化。


首先,說機器學習是關於資料的意思是什麼?由於ML的學術文化,幾乎所有的初級科學都是在建立之後釋出的 - 幾乎所有新的都是一篇你可以閱讀和構建的論文。但是你建造什麼?那麼,在過去,如果軟體工程師想要建立一個系統來識別某些東西,他們就會編寫邏輯步驟(“規則”)。要識別圖片中的貓,你會編寫規則來查詢邊緣,毛髮,腿,眼睛,尖耳等等,並將它們全部拼接在一起並希望它能夠正常工作。麻煩的是,雖然這在理論上是有效的,但在實踐中它更像是試圖製造機械馬 - 這在理論上是可行的,但所需複雜性的法令是不切實際的。我們實際上無法描述我們用於行走或識別貓的所有邏輯步驟。通過機器學習,您可以向統計引擎提供示例(大量示例),而不是編寫規則,並且該引擎會生成可以區分的模型。你給它10萬張標有'cat'的照片和100,000張標有'no cat'的照片,然後機器計算出差異。 ML用自動確定的資料模式取代了手寫的邏輯步驟,並且對於一個非常廣泛的問題更加有效 - 簡單的演示在於計算機視覺,語言和語音,但用例更廣泛。您需要多少資料才是移動目標:有研究途徑允許ML使用更小的資料集,但就目前而言,(更多)資料幾乎總是更好。


因此,問題是:如果ML讓你做新的和重要的事情,而ML會更好,你擁有的資料越多,那麼這意味著那些已經很大且擁有大量資料的公司會變得更強大了多遠?贏家通吃效果有多遠?很容易想象良性迴圈強化了贏家:'更多資料=更準確的模型=更好的產品=更多的使用者=更多的資料'。從這裡開始,這是“Google / Facebook /亞馬遜擁有所有資料”或“中國擁有所有資料”等宣告的一個簡單步驟 - 擔心最強大的科技公司會變得更強大,人口眾多的國家也會變得更加強大'對集中使用資料的態度。


好吧,有點。


首先,雖然您需要大量的機器學習資料,但您使用的資料非常特定於您嘗試解決的問題。通用電氣擁有大量來自燃氣輪機的遙測資料,谷歌擁有大量搜尋資料,而美國運通有很多信用卡欺詐資料。您不能使用渦輪機資料作為例子來發現欺詐性交易,並且您無法使用網路搜尋來發現即將發生故障的燃氣輪機。也就是說,ML是一種可推廣的技術 - 您可以將其用於欺詐檢測或人臉識別 - 但您使用它構建的應用程式並不是一般化的。你構建的每件事只能做一件事。這與之前的所有自動化浪潮大致相同:就像洗衣機只能洗衣服而不洗碗或做飯一樣,國際象棋程式不能免稅,機器學習翻譯系統無法識別貓。您構建的應用程式和您需要的資料集都非常特定於您嘗試解決的任務(儘管如此,這是一個移動目標,並且正在進行研究以嘗試使學習在不同資料集之間更易於轉換)。


這意味著機器學習的實現將得到非常廣泛的分佈。谷歌不會“擁有所有資料” - 谷歌將擁有所有谷歌資料。谷歌將擁有更多相關的搜尋結果,通用電氣將擁有更好的引擎遙測技術,沃達豐將更好地分析通話模式和網路規劃,這些都是由不同公司構建的不同內容。谷歌更善於成為谷歌,但這並不意味著它在某種程度上擅長於其他任何事情。


接下來,人們可以爭辯說,這隻意味著每個行業中的大公司都會變得更強大 - 沃達豐,通用電氣和美國運通各自擁有“所有資料”,無論他們做什麼,因此形成了對抗競爭的護城河。但在這裡,它更復雜:有各種有趣的問題,關於誰擁有資料,它的獨特性以及它的獨特性,以及正確的聚合和分析點。


那麼:作為一家工業公司,您是否保留自己的資料並構建ML系統進行分析(或者向承包商支付費用為您做到這一點)?您是否從已經接受過其他人資料培訓的供應商那裡購買成品?您是將您的資料混合到那裡,還是從它衍生出的培訓中混合?供應商是否需要您的資料,或者他們已經擁有足夠的資料?答案在您的業務的不同部分,不同的行業和不同的用例中會有所不同。


從另一端來看,如果您正在建立一家公司來部署ML來解決實際問題,那麼有兩個基本資料問題:如何獲得第一個資料來訓練模型以獲得第一個客戶,你實際需要多少資料?當然,第二個問題分解為很多問題:問題是通過相對少量的資料解決的,你可以很容易地獲得(但許多競爭對手可以獲得),或者你需要更多,難以獲得資料,如果是這樣,網路效應可以從中受益,那麼勝利者會採取一切動態嗎?產品是否會無限期地獲得更多資料,或者是否存在S曲線?


這取決於。


某些資料對於業務或產品而言是獨一無二的,或者具有強大的專有優勢。 GE發動機遙測可能沒有太多用於分析勞斯萊斯發動機,但如果是,他們將不會分享它。這可能是公司建立的機會,但也是許多內部大公司IT和承包商專案發生的地方


一些資料將適用於許多公司甚至許多行業中的用例。 “這個電話有些奇怪”可能是所有信用卡公司的常見分析 - “客戶聽起來很生氣”可能適用於有呼叫中心的任何人。這是“混合”的問題。在這裡建立了許多公司來解決許多公司或不同行業的問題,這裡的資料存在網路效應。


但也有一些情況,在某一點之後,供應商甚至不需要每個增量客戶的資料 - 產品已經在執行。


實際上,隨著機器學習幾乎擴散到所有東西,一個初創公司可能會看到其中的幾個。我們的投資組合公司Everlaw生產法律發現軟體:如果你起訴某人並且他們給你發了一輛裝滿紙的卡車,這會有所幫助。機器學習意味著他們將能夠對一百萬封電子郵件進行情緒分析(“向我顯示焦慮的電子郵件”),而無需根據案例中的資料訓練該模型,因為培訓該模型的情緒示例不需要來自這一特定訴訟(或任何訴訟)。相反,他們也可以對您的資料進行聚類分析(“向我顯示與此相同的電子郵件”),而不會在其他任何地方進行。另一家投資組合公司Drishti使用計算機視覺來檢測和分析生產線 - 其中一些功能是根據您的資料進行培訓的,有些功能根本不是針對您的業務,而是跨行業。


在極端情況下,我最近採訪了一家非常大型車輛的製造商,他們正在使用機器學習來獲得更精確的癟胎檢測器。這是訓練有關資料(很多很多很多來自扁平輪胎和非扁平輪胎的訊號的例子),顯然,但是獲得這些資料並不難。這是一個特徵,而不是護城河。


因此,我之前說過ML啟動有兩個問題:如何獲取資料以及您需要多少?但這些只是技術問題:你還會問你如何進入市場,你的可定址市場是什麼,你解決的問題對你的客戶有多大價值,等等。也就是說,很快就會有任何“AI”創業公司 - 他們將成為工業過程分析公司,法律平臺公司或銷售優化公司。事實上,機器學習的傳播並不意味著谷歌變得更強大,但各種各樣的創業公司都可以比以前更快地用這種前沿科學建立事物。


這讓我想到了我在其他地方使用過的比喻 - 我們應該將機器學習與SQL進行比較。它是一個重要的構建塊,允許新的和重要的事情,並將成為一切的一部分。如果你不使用它和你的競爭對手,你會落後。有些人會用這種方式建立全新的公司 - 沃爾瑪成功的一部分來自於使用資料庫來更有效地管理庫存和物流。但是今天,如果你創辦了一家零售商並說“......我們將要使用資料庫”,這不會讓你與眾不同或有趣 -  SQL成為了一切的一部分然後消失了。機器學習也會發生同樣的情況。


本文為簡譯,更多詳情請參見原文

相關文章:
【推薦】 移動端互動直播(入門篇)