1. 程式人生 > >物聯網中機器學習的挑戰和機遇

物聯網中機器學習的挑戰和機遇

物聯網中機器學習的挑戰和機遇

據研究報告到2020年,將有超過200億臺網際網路連線裝置投入使用,這些裝置每年將產生超過500個zettabytes的資料,隨著更多的技術進步,這個數字預計將繼續大幅增加。對於已經投資物聯網的70%以上的組織而言,所有這些資料自然代表了獨特的競爭優勢,並且獲得了用於開發創新AI應用程式的寶貴資訊和見解的巨大機會。

事實證明,對於資料科學家和機器學習工程師而言,物聯網資料與商業領袖一樣令人興奮。從醫療保健和農業到教育和運輸,物聯網蓬勃發展的領域與其應用程式一樣多樣化,從發現新資訊到決策控制。物聯網資料科學為建立令人興奮的新資料產品打開了大門。但是,我們將在本文中研究物聯網資料科學的一些特殊性。
物聯網中機器學習的挑戰和機遇


  資料注意事項

正如我們所看到的,物聯網構成了新資料的最大來源之一。物聯網資料實際上可能被視為大資料的縮影。如果我們檢視通過一個裝置生成的資料,我們通常會處理相當少量的資料(即使這也正在改變)。然而,隨著無數分散式裝置生成連續的資料流,物聯網產生了大量的資料。它的多樣性同樣令人印象深刻:物聯網裝置收集各種型別的資訊,從音訊到感測器資料,並且總體上負責資料格式多樣性的奇妙爆發。因為這些裝置靠近使用者並不斷收集資訊,這個生成的資料通常是高速的; 這使得物聯網資料特別適合時間序列建模。

但是物聯網資料也有一些獨特的方面,使得它的開發極具挑戰性。由於在採集和傳輸過程中發生錯誤,因此通常會產生噪聲。這使得構建,清理和驗證資料的過程成為機器學習演算法開發中的關鍵步驟。從本質上講,物聯網資料也是高度可變的,這是因為各種資料收集元件之間的資料流存在巨大的不一致,並且由於存在時間模式。不僅如此,資料本身的價值高度依賴於底層機制,捕獲資料的頻率以及處理資料的方式。即使來自特定裝置的資料被認為是值得信賴的,我們仍然需要考慮到即使在類似條件下不同裝置可能表現不同的事實。因此,在收集訓練資料時捕獲所有可能的情況在實踐中是不可行的。

半監督學習

然而,物聯網資料最顯著的特徵之一在於它的粗糙:因為物聯網裝置通過各種複雜的感測器收集資料,它們生成的資料通常非常原始。這意味著在提取業務價值並構建強大的AI應用程式之前,必須進行大量資料處理。事實上,在構建智慧物聯網應用程式時,將有意義的訊號與噪聲分離並將這些非結構化資料流轉換為有用的結構化資料是最重要但危險的步驟。

大量的物聯網應用需要使用有監督的機器學習,這是一類機器學習演算法,需要在訓練模型之前標記資料。由於手動標記大型資料集是一項耗時,容易出錯且可能成本高昂的任務,因此機器學習專業人員通常會先著手標記的開源資料集開始,或者從少量資料開始標記。然而,物聯網資料的困難來自於它的特殊性:因為這些資料通常是獨一無二的,所以不能保證現有的開源資料集是隨時可用的,因此工程師必須標記自己的資料。

但是,由於物聯網資料的可變性,標記一個小的隨機樣本可能是不夠的。考慮到這一點,這些是在監督演算法訓練中利用標記和未標記資料的半監督學習策略的完美環境。特別是主動學習,其中允許演算法向群眾工作者查詢在訓練時智慧選擇的訓練例項的子集的標籤,這是非常適合的方法,允許機器學習科學家獲得類似的演算法精度。標籤成本的一小部分。

人群感測

在機器學習方面,物聯網發展的一個非常有趣的方面是人群感知的出現。群體感知存在兩種不同的形式:自願,當用戶自願提供資訊時,以及機會主義,當沒有明確的使用者干預時自動收集資料。這是物聯網資料不僅可以為物聯網應用的開發或改進做出貢獻的一種方式,而且還可以用作其他非物聯網應用的輸入。

物聯網實際上允許以前所未有的方式收集非常獨特的資料集。因為每個裝置生成的資料通常是人為的,所以使用者可以標記或驗證它。

模型開發

如今,人工智慧取得令人矚目的進步背後的主要因素之一是出現了更好的技術,例如GPU,可以實現更快的資料處理。物聯網的機器學習帶來了一個有趣的難題:雖然最好的模型需要接受大量資料的培訓,但大多數物聯網裝置仍然受限於儲存空間和處理能力。出於這個原因,安全有效地將大量資料從裝置傳輸到伺服器或雲,反之亦然,這是開發AI應用程式的關鍵。在雲端計算時代,一種自然的解決方案是將資料匯出到開發模型的雲中,並在模型準備好使用後將模型匯出回裝置。這特別有吸引力,特別是因為預計到2021年,所有生成的資料中有94%將在雲中處理,這意味著它也可以利用其他資料來源,無論是歷史資料還是源自其他物聯網裝置。然而,將複雜模型儲存回儲存器受限的裝置本身就是一個挑戰,因為具有大量引數的複雜模型(例如深度學習模型)本身通常非常大。另一方面,在用於推理步驟的從裝置向雲上的模型傳送資料的解決方案也可能是次優的,尤其是在延遲需要非常低的情況下。將複雜模型儲存回儲存器受限的裝置本身就是一個挑戰,因為具有大量引數的複雜模型(例如深度學習模型)本身通常非常大。另一方面,在用於推理步驟的從裝置向雲上的模型傳送資料的解決方案也可能是次優的,尤其是在延遲需要非常低的情況下。將複雜模型儲存回儲存器受限的裝置本身就是一個挑戰,因為具有大量引數的複雜模型(例如深度學習模型)本身通常非常大。

另一個挑戰來自於物聯網裝置可能無法連續連線到雲,因此可能需要一些本地參考資料進行離線處理,以及獨立執行的能力。這是邊緣計算架構變得有趣的地方,因為它使資料能夠在邊緣裝置級別進行初始處理。當需要增強安全性時,這種方法特別有吸引力; 這也是有利的,因為這種邊緣裝置能夠過濾資料,降低噪聲並提高現場資料質量。

不出所料,人工智慧工程師一直在努力實現兩全其美,最終開發出霧計算,這是一個分散的計算基礎設施。在這種方法中,資料,計算能力,儲存和應用程式以最合理的方式在裝置和雲之間分佈,最終通過將它們更緊密地結合在一起來利用它們各自的優勢。

轉學習

我們已經看到物聯網裝置能夠生成大資料,但在實踐中,使用外部歷史資料集開發物聯網智慧應用程式的情況並不少見。這意味著可以依賴於由多個IoT裝置的集合(通常是跨多個使用者的相同型別的裝置)生成的資料,或者依賴於完全不同的資料來源。應用程式越具體和獨特,現有資料集可用的可能性就越小 - 例如,當裝置捕獲與開源影象資料集沒有相似性的非常特定型別的影象時就是這種情況比如Imagenet?。話雖如此,物聯網應用實際上是幾種現有現有模型的巧妙融合,這是很常見的。這使得轉移學習很好地適應了物聯網環境中智慧應用的發展。

轉移學習範例包括在資料集上訓練模型(通常是金標準模型)並使用它來對另一個數據集進行推斷。或者,可以使用在生成此模型期間計算的引數作為在實際資料集上訓練模型的起點,而不是將模型初始化為隨機值。在這種情況下,我們將原始模型稱為“預訓練”模型,我們對特定於應用程式的資料進行微調。這種方法可以將訓練階段加速幾個數量級。使用相同的範例,可以使用由終端使用者直接生成的資料來訓練一般模型,然後根據具體情況對其進行細化和優化。

安全和隱私問題

由於網際網路連線裝置技術通過提供物理和網路世界之間的連線來擴充套件當前的網際網路,因此它生成的資料非常通用,但也是導致嚴重隱私問題的原因。事實上,參與物聯網的大約50%的組織認為安全是物聯網部署的最大障礙。考慮到大約三分之二的物聯網裝置在消費者領域,以及個人的一些共享資料是如何,很容易理解為什麼。這些問題加上與頻繁資料傳輸到雲上的預期風險相結合,解釋了使用者為何要求保護其資料的保證。

然而,當這些物聯網應用程式由“聯合”資料(即多個使用者生成的資料)提供支援時,事情變得更加陰險:使用者資料不僅可以直接洩露,還可以通過旁道攻擊間接暴露,當惡意代理反向工程機器學習演算法的輸出以推斷私人資訊。由於這些原因,資料保護法明顯有必要與技術和應用程式本身一起發展。

物聯網機器學習是以人為本的機器學習

由於物聯網裝置使網際網路更貼近使用者並觸及人類生活的各個方面,因此它們通常允許收集高度上下文和個人資料。物聯網資料敘述其使用者生活的故事,並使其比以往更容易理解使用者的需求,願望,歷史和偏好。這使得物聯網資料成為構建根據使用者個性量身定製的個性化應用程式的完美資料。

而且,由於物聯網通過收集高度個性化的資料以及提供高度個性化的應用程式和服務而非常密切地觸及我們的生活,因此物聯網機器學習可以真正成為以人為本的機器學習。