1. 程式人生 > >4項探索+4項實踐,帶你瞭解華為雲視覺預訓練研發技術

4項探索+4項實踐,帶你瞭解華為雲視覺預訓練研發技術

摘要:本文主要講述雲原生時代華為雲在AI基礎研究、視覺預訓練模型研發和行業實踐,以及AI開發平臺ModelArts的最新進展。

近日,在Qcon全球軟體開發大會(深圳站)上,華為雲人工智慧領域首席科學家、IEEE FELLOW田奇博士,發表了“雲原生時代,視覺預訓練大模型探索與實踐”的主題演講,介紹了雲原生時代華為雲在AI基礎研究、視覺預訓練模型研發和行業實踐,以及AI開發平臺ModelArts的最新進展。

以下是田奇博士演講要點:

隨著企業數字化的轉型,傳統企業已基本上將業務從線下搬到了雲上。其中,第一個階段是將企業的業務簡單地部署到雲上,我們可以稱之為ON CLOUD,在這種形態下,通過資源池化,解決了IDC時代運維、部署、擴容的難題。但是,傳統方法的過於厚重、煙囪式的架構,導致雲對業務的價值還僅僅停留在資源供給階段,未充分發揮出雲端計算的潛力。隨著企業的數字化建設逐步邁入智慧化階段,企業需要充分利用雲端計算帶來的紅利,就需要讓其業務能力內生於雲,由現在的ON CLOUD進階到IN CLOUD階段,即基於雲的技術架構來構建企業業務,通過構建多雲、多中心的分散式架構以及敏捷、智慧的企業數字化業務,將企業的數字化建設帶入智慧化新階段。此時,雲對業務的價值不再是簡單的資源供給,還能夠以應用為中心,為業務賦能。

一站式AI開發平臺,加速行業AI落地,踐行普惠AI

華為雲提供了一站式的AI開發平臺,加速行業AI落地,踐行普惠AI。華為雲對AI平臺打造了四層體系,第一層是智慧體;第二層是知識計算解決方案;第三層是ModelArts Pro,針對專業應用開發套件;第四層是ModelArts Fundamental。對於一站式的AI開發平臺,主要聚焦在模型高效、資料高效以及知識高效。這些強大的AI服務,底層都是基於雲原生容器的Volcano高效能排程引擎,而Volcano排程引擎將訓練任務的效率提升了50%。

華為雲AI基礎研究進展

華為雲長期紮根AI技術基礎研究,在計算機視覺、語音語義、決策優化三個方向做了深入探索與研究。為此,我們針對資料、模型和知識提出了六個子計劃。其中,針對模型包含兩個計劃,一個是針對大模型的模型摸高計劃,提供極致的效能;第二是針對小模型的模型瘦身計劃。針對資料提出了兩個計劃,一個是處理多模態的資料魔方計劃;另一個是針對小樣本學習的資料冰山計劃。最後針對知識的高效提取,我們提出了兩個計劃:建造通用AI系統的萬物預視計劃以及學習一種新正規化的虛實合一計劃。在這些計劃中,我們始終聚焦在模型高效、資料高效、知識高效等重點方向上。對於自主研發的一些新技術,比如自動學習、知識蒸餾、預訓練模型等等,都會以即插即用的方式部署到華為雲線上,助力AI行業落地。

在眾多AI領域中,計算機視覺具有廣泛的落地場景,在智慧汽車、智慧手機、無人機、智慧眼鏡等應用都有計算機視覺演算法的身影。這些年隨著計算能力和5G通訊技術的極大提高,以計算機視覺為代表的大批AI技術,已跨越了早期僅在研究領域取得進展的階段,過渡到了與社會環境協同發展、共同促進的階段。未來視覺AI技術會在千行百業進行落地,比如政府、醫療、工業、能源、交通、物流、金融等等。但是,技術落地也面臨著巨大的挑戰,由於AI應用的碎片化、定製化等因素,極大地限制了AI在真實環境下的落地部署。為了解決應對AI碎片化等問題,我們提出了預訓練大模型的解決方案,希望能用大量無標註的資料和更大的模型來實現更通用的AI系統。

在自然語言處理領域,這兩年大規模預訓練模型取得了突破性進展,但是預訓練模型對算力有極大的需求,而且我們預計更大規模、更大引數的模型還會繼續出現。因此,受到自然語言處理中預訓練模型的啟發,在計算機視覺中我們也希望構建通用的AI系統,為下游各種視覺任務提供一個高效的初始化模型。

現在主流的學習方式有兩種,一種是監督學習,一種是強化學習。監督學習需要海量標註樣本,泛化能力相對比較弱,另一種是強化學習,強化學習需要海量的試錯,同樣缺乏通用系統所需要的可適用性、可重複性以及魯棒性。我們認為,自監督學習是邁向常識學習的關鍵步驟,但是目前自監督學習在視覺任務中的應用還不夠成熟。過去,在資料標註、模型訓練和輸出階段,分別要做大量的重複工作。未來,我們希望可以對計算機視覺或者自然語言處理任務構建一個通用預訓練模型,僅通過下游少量的標註樣本進行微調就可以高效完成任務,從而大量節約開發成本。

視覺預訓練大模型研究和實踐

接下來的報告,我會介紹一下我們在預訓練模型方面的工作,主要是在自監督學習過程中預訓練模型的一些進展。

自監督學習由於不需要任何人工標註便能夠學習影象的內在表徵,近年來受到了業界的極大關注。在沒有人工標註的情形下,自監督學習需要預先設定一些預訓練任務輔助模型學習。2016年以前,一些預訓練任務推動該領域出現了一些大的進展。自監督學習主要分為兩種,一種是生成式,一種是對比式,近幾年最新的一些工作大多是基於例項區分的對比學習。

基於例項區分的對比自監督學習在最近幾年取得了極大的進展,在一些任務上重新整理了現有自監督預訓練任務的SOTA結果。最近我們在對比自監督學習方面有兩項優化工作,首次實現了在ImageNet線性分類任務中達到全監督基線效能,並且在小樣本分類上大大超越了之前的方法。然而,現有的自監督預訓練模型仍然處於探索階段,存在大量的問題未能夠解決:現有的自監督預訓練演算法迭代緩慢,很難複製到大模型以及超大規模資料集;另外,相較於全監督學習,其特徵表達在大多數下游任務上僅僅能獲得與之相比擬的結果,其進一步的效能優勢還有待挖掘。因此,如何利用自監督學習在超大資料集合,超大模型上獲取更強的泛化效能將會是未來的發展方向。

在這裡,介紹一下我們最新的幾個工作,在對比自監督學習框架下,我們提出了基於鄰域保持的混合影象增強,在業界首次提出了利用不同影象資料增強策略提升其泛化效能。過去,對比學習通常利用同一樣本的不同資料增強生成正樣本集合,並且把其他樣本均視為負樣本的策略,將樣本特徵的距離拉近或者拉遠作對比學習任務,而我們首次提出了選取不同正樣本的方法。同時,提出了基於區域性領域混合增強的技術,把多個相似樣本的特徵拉近,不同樣本的距離拉遠。我們的方法在ImageNet線性分類評估上,TOP-1的精度達到了75.5%準確率,離監督學習基線76.5%僅僅差了1個百分點。通過對預訓練模型在小樣本標註資料上進行微調(1%和10%標註的資料),我們的精度達到了最好的結果。

接下來介紹一個我們今年剛剛完成的工作,基於等級化語義聚集的對比自監督學習框架。在上述工作的基礎上,我們進一步發現即使顯示地拉近語義相似性樣本,特徵表達的可分離特性並沒有達到我們的預期目標,這限制了其泛化表徵能力。自監督學習仍然存在優化困難,收斂速度慢等問題,為此,我們做了兩點改進,第一,我們拓展了自監督學習演算法中正樣本數目,使得正樣本集合能夠更加高效的被聚集,同時避免受大量負樣本優化的影響。第二,我們在淺層特徵上引入對比自監督學習,通過精心設計的淺層優化目標加速訓練過程,在淺層特徵上實現了更好的可分離性,我們發現這些優勢對小樣本學習有極大的提升。從結果來看,我們線上性分類任務中達到了76.4%的精度,首次達到了和全監督基線相比擬的效能,而且通過將預訓練模型在小樣本標註資料上進行微調,在之前的結果上又得達到了新的SOTA,特別地,僅僅使用10%標註,我們在ImageNet 分類上達到了75.1%的TOP-1精度。

上述兩項工作都是在沒有任何標籤設定下完成的,更進一步,我們探索瞭如何把對比學習和資料標籤高效地結合起來,通過引入影象真實標籤來輔助對比學習,我們認為應該將自監督學習得到的表觀特徵和監督學習的語義特徵相結合,它的本質是把表觀相似和語義相似的樣本距離拉近,將不相似樣本的距離推遠。從結果上看,這個工作在各個下游工作中(比如檢測、語義分割、例項分割)的表現全面超越了以往的自監督和全監督的泛化能力。

華為雲的第二個核心研究方向是如何設計高效的視覺識別模型,即模型高效。在這個方向主要聚焦兩個方面,第一是如何設計神經網路模型,第二是在神經網路架構搜尋中,如何在原子運算元層面上進行搜尋。關於神經網路模型設計,最初的方式都是手工設計的,這種方式經過高速發展後,也進入了一個瓶頸,因此從2017年開始,自動的神經網路架構搜尋經歷了一個迅猛發展的過程,也取得了一些可喜的成績。但是搜尋出的網路也面臨幾個問題,第一個問題,搜尋空間仍然是手工定義的;第二個,搜尋的卷積運算元是人工定義的,而且相比於手工設計的網路,搜尋的網路可遷移性也是比較差的。

我們在網路架構搜尋上第一個工作是P-DARTS,提出漸進的可微分網路架構搜尋演算法。之前的網路架構搜尋面臨著搜尋網路和測試網路深度不一樣的問題,在較淺的搜尋網路中搜索出來的架構並不適合較深的測試網路。早期的方法直接加深搜尋的深度,但是會造成視訊記憶體爆炸的問題,並且導致搜尋不穩定。為了解決這個問題,我們提出了兩個思想,一個是搜尋空間近似,第二個是搜尋正則化。搜尋空間近似,是指採用漸進搜尋策略,逐漸加深搜尋的深度;同時進行連結權重的學習,把權重比較小的連結運算都扔掉,這樣減少了搜尋空間。搜尋正則化主要是對搜尋得到的一些skip connect的數量上的限制。從結果上看,我們把P-DARTS搜尋的網路遷移到ImageNet上,在ImageNet分類任務上與基線方法相比提高了兩個百分點。P-DARTS網路搜尋演算法是在P100上完成的,大概需要0.3個GPU-days。與去年同期的DARTS工作進行大致的比較,它的搜尋時間是4個GPU-days,而在效能和速度都有超越的情況下,我們的方法只需要0.3個GPU-days。我們在架構搜尋上的第二個工作是PC-DARTS,這是業界搜尋速度最快的網路架構方法之一,其主要思想有兩個,一個是採用區域性連線的思想來解決網路冗餘的問題,第二個是採用邊正則化的思想來解決網路搜尋穩定性的問題。並且,這個工作首次在大規模影象資料集ImageNet上進行了神經網路架構搜尋。

我們最新的一個相關工作是GOLD-NAS,漸進剪枝的單階段可微分搜尋演算法。這個演算法主要的一個貢獻是它打破了傳統可微分搜尋空間的諸多限制,因此大大增加了搜尋空間的容量,並提出了單階段優化策略和漸進剪枝的優化策略。從結果上看,在擴大的搜尋空間中,演算法不僅能夠找到絕對效能更強的網路,也能找到具有更高性價比的網路。

我們第四個工作是卷積搜尋,提出對卷積操作進行搜尋,當前的模型搜尋都是採用一些固定的卷積操作,比如1×1、3×3的卷積,這種方式限制了模型的效能。因此,為了將卷積的設計也納入搜尋的範圍,這個工作提出了針對點雲任務的基於資料驅動的模型搜尋,同時對卷積的結構也進行了搜尋,將來將進一步擴充套件到傳統的影象領域。

我們最近兩年在計算機視覺三大頂會CVPR、ICCV、ECCV大概發表了近百篇文章,基本進入視覺研究領域第一梯隊,極大地提高了華為在計算機視覺領域的國際競爭力,同時有一些工作也獲得了最佳論文和最佳論文提名。而且最新的演算法已經逐漸部署到華為的一站式AI開發平臺,在一些行業得到了廣泛的應用,下面再介紹一下視覺任務的進展和在行業的實踐。

第一個進展是影象分類技術,在ImageNet上,今年我們的分類準確率達到了85.8%,而之前谷歌最好的精度是85.5%。從今年3月份以來,我們在這方面一直保持著領先水平。

第二個進展是弱標註場景下的影象分類技術。在WebVision大規模弱標註的網路影象分類比賽中,大約有5000個類別的1600萬張影象,有90多支參賽隊伍競爭,華為雲在分類準確率上取得了業界第一的水平。我們把影象分類技術應用到了一些傳統行業,比如米旗蛋糕店。結果上看,我們的技術讓商品整盤識別率達到了99%以上的精度。另外,我們的模型訓練時間小於一天,因此每天都可以進行模型更新,商品的識別時間也小於1秒。

第三個進展是影象檢測、分割技術,在業界權威的目標檢測資料集MS-COCO資料集上,不論是單模型還是多模型,我們都取得了今年業界第一的成績。我們將檢測、分割技術用到了醫療智慧體,在今年新冠肺炎AI-CT輔助篩查中實現了自動智慧檢測,而且已經在各大醫院成功部署。

我們第四個進展是多模態資料處理技術,相對於單模態,多模態具有天然的互補優勢,比如在無人駕駛中除了影象的輸入,還有鐳射雷達訊號、GPS、影象分割的資料。在最權威的三維目標檢測NuScenes資料上,我們提出的技術也取得了非常好的成績,我們的結果比第二名領先了3.1%。同時我們將多模態處理技術用在了深圳交通智慧體上,實現對紅綠燈控制的智慧化,在交通總量相同的情況下將平均通行車速提高了15%,將平均等待時間、延誤時間下降了17.7%。

最後介紹一下華為雲一站式AI開發管理平臺ModelArts。ModelArts有兩個不同層次的版本,一個是ModelArts Fundamental,一個是ModelArts Pro。根據華為雲在十多個行業常年的技術積累,ModelArts Pro開發平臺主要提供五大類的專業應用開發套件,包括文字識別套件、視覺套件、知識圖譜套件、多模態開發套件、自然語言處理套件,還提供了四十多個行業級的高精度預置的演算法, 包含資料準備、資料處理、 模型設計、模型管理及部署等等。

以上是華為雲在視覺預訓練模型上的一些基礎研究最新進展和行業實踐的案例,以及在華為雲AI開放平臺沉澱的一些工作。謝謝!

 

點選關注,第一時間瞭解華為雲新鮮技