被《矽谷》選中的“壓縮演算法”,為什麼說下一個機器學習殺手應用將由此誕生
大資料文摘出品
編譯:jiaxu、李馨瑜、雲舟
移動網際網路時代,人類生產的新資料正以指數級別增長,資料中心越來越大,並消耗著地球上難以想象的巨大能耗,但人類依然可能面臨著“資料無處存放”的境地。
因此,讓檔案變小一點,這絕對是個值得投資的點子。
神劇《矽谷》劇組就選中了這個點子。在劇中,幾個主角的得以創業成功的核心演算法——“魔笛”即是選中了“壓縮”這一多數人都能理解但對技術要求頗高的領域:允許使用者線上將圖片壓縮至一半的大小,並依然保持其清晰度。
“魔笛演算法”也一度引發了不少跟風打造屬於自己的“魔笛手”,此外,包括谷歌等人工智慧巨頭公司近年來也在這個領域頻頻發力。
2016年,谷歌相關團隊推出了一款叫RAISR(Rapid and Accurate Image Super-ResoluTIon)的影象壓縮技術。希望以人工智慧技術作為壓縮路徑,將圖片大小壓縮到原始檔的1/4, 但基本不會改變圖片的清晰度。
儘管引來如此高的關注,但很多人還是不認可它會在未來的發展中取得壓倒性的優勢。谷歌的RAISR演算法也被不好業內認識吐槽說“壓縮一張圖片耗時久”、“壓縮後圖片清晰度沒有那麼高”等等。
谷歌機器學習工程師、Jetpac創始人Pete Warden近期釋出了一篇文章,認為在短期內壓縮演算法可能會成為機器學習應用最可能出現的殺手級應用的領域,他從“壓縮”這一技術的起源開始,希望告訴大家問什麼壓縮技術的前景是如此的廣闊。
大資料文摘對這篇文章進行了編譯。
OSDI上的一篇文章“神經自適應型內容感知網際網路視訊傳輸”激發了我對這一領域的興趣。
文章連結:
https://www.usenix.org/conference/osdi18/presentation/yeo
這篇文章告訴我們:通過神經網路,在頻寬相同的條件下,使用者體驗將能提高43%,或者在頻寬縮減17%的條件下可以保持體驗的質量基本不變。還有其他同類的論文將類似方法運用在了生成壓縮或自適應影象壓縮等方面。他們都展示出了驚人的成果。那麼,為何我們不把機器學習更廣泛地應用在檔案壓縮方面呢?
我們尚未擁有效能配套的計算裝置
上文所提到的所有方法都需要相對較大的神經網路,並且所需的計算量與畫素數量成正比。這意味著大型圖片檔案或每秒幀數較高的視訊檔案可能需要比當前廣泛使用的移動裝置更強的計算能力。
現行的大多數CPU每秒僅能處理百億級的運算,而在高清視訊上用機器學習進行壓縮很輕易便能達到十倍於此的計算量。
當然,好訊息是目前我們已經有了一些硬體解決方案,比如Edge TPU等,可以讓我們看到未來達到更多計算量的可能性。我期待這種壓縮方法能夠運用到各種型別檔案的壓縮轉換上,從視訊到影象,到音訊,乃至更多充滿想象力的方式。
自然語言是終極壓縮目標
近來機器學習在自然語言處理中取得了大量有趣的成果。這是另一個讓我覺得機器學習是較為優越的壓縮轉換途徑的原因。
如果你稍稍觀察,便會發現字幕其實是將聲音壓縮為影象的一種形式。我一直想做一個專案,試圖創造出一種相機,每秒生成一幀字幕,並將所有字幕逐一按行輸出至一個日誌檔案中。由此便可簡單記錄下基於相機的拍攝內容隨時間的推移而發生的故事,這可以被定義為一個敘事類的感測器。
我將這一技術歸類到壓縮方法中的原因是你可以通過生成性的神經網路將字幕還原為影象。儘管重新生成的影象不會跟原影象完全一致,但也能夠從原影象繼承一些資訊。如果你希望結果與原影象儘可能接近,你也可以從風格化方面考慮,例如為每個場景生成簡圖。這些技術的共同特徵在於他們提取出了輸入檔案中對於我們人類重要的部分,並省略了餘下的部分。
不僅僅是影象
語言世界也有類似的趨勢。語音識別正在迅速改進,合成語音的能力也在迅速提高。識別可以看作是將音訊壓縮為自然語言文字的過程,而合成則恰好相反。你可以想象將對話高度壓縮為自然語言文字而非音訊。誠然,我們不需要達到那種要求,但似乎通過擴充套件我們對於表達的認知型別,我們可以實現在低頻寬情況下的更好的結果。
我甚至還發現一些有趣的將機器學習應用在文字本身上的可能性。Andrej Karpathy的CHAR-RNN(遞迴神經網路)展示了神經網路對某些模板進行模仿的優越性,而對於壓縮技術來說,預測也是相同的道理。考慮到普通的HTML頁面有不少冗餘,這一情況下GZIP壓縮方法似乎有很大機率能被機器學習改進,儘管我認為這沒有機器學習對文字的處理那麼容易。
對於壓縮的研究已立項撥款
在我創業期間,營銷失敗的經歷讓我學到了一件事:如果已經有一筆預算要購買你所推銷的產品,該產品的銷售會容易得多。預算的存在意味著公司在是否應該花錢購買解決方案上已經贏得了艱難的鬥爭,現在唯一的問題是購買哪種解決方案。
這也是我認為機器學習可以在這個領域取得巨大突破的原因之一,因為製造商已經擁有專門用於視訊和音訊壓縮的工程師、資金和晶片。如果我們能夠證明將機器學習新增到現有解決方案中能夠以一些可度量的方式(例如質量、速度或功耗)改進它們,那麼它們將被快速採用。
頻寬將會花費使用者和運營商的大量的成本,質量和電池壽命將會成為產品的賣點,因此採用機器學習改進壓縮的優勢將比其他運用更為顯而易見。
許多激動人心的研究表明這種方式將會非常高效,而且我樂觀地認為還有許多應用尚未被髮掘。我希望機器學習在壓縮中的應用將發展成為一門核心技術。
相關報道: