《矽谷》裏神乎其神的壓縮技術，AI正在一點點做出來

阿新 • • 發佈：2018-01-04

效果通過 imp 清晰度文檔另一個 alt 進步改版

好劇總是追的特別快，比如說我們熟悉的黃暴神劇《矽谷》，今年該迎來第五季了。

這部劇裏讓人印象深刻的東西很多，而劇裏幾個主角發明的創業神器、號稱能改變世界命運的“魔笛手”絕對是其中之一。

給沒看過這部劇的朋友介紹一下，所謂的“魔笛手”是劇中主角發明的壓縮算法。本來這個東西是他們用來打造音樂網站的，結果後來這個技術被證明可以把文件無損壓縮到極小，並且速度極快，從而引出了令人無法直視的各種劇情。

據說在寫劇本之初，主創人員曾經想過寫一種什麽技術，能讓觀眾馬上懂得其意義，又跟真正的技術世界比較貼合。最終他們發現，壓縮是最好的選擇。因為差不多每個人都知道文件越小越好，如果主角搞出來一個能讓數據無限存儲的東西，那當然就賺大了。

技術分享圖片

事實上，人類跟數據的無損壓縮這件事，已經硬杠了幾十年。成熟的壓縮技術，已經通過互聯網變成了大多數人的日常用品。但盡管如此，壓縮這件事始終沒有走到終點，《矽谷》裏那種神一樣的壓縮技術，依舊是我們渴望而不可及的。

但在今天，人工智能開始把壓縮這件事放在自己的任務欄裏，並且一步步對《矽谷》裏的“魔笛手”發起挑戰。

折騰了半個世紀的無損壓縮

我們日常在對壓縮的主要需求，被稱為無損壓縮。它可以將文件變小，然後再通過某種方式還原出來正常使用。雖然今天這聽起來很普通，但其實人類已經為它折騰了50多年。

當然，發現數據應該壓縮後再進行傳輸和存儲，是更早之前的事情。從19世紀的摩斯電碼時代人類就已經發現了，很多數據中的無效部分是可以被歸類和省略的，從而可以換取更快的傳輸速度和更少的存儲空間。

這可以說是一種符號世界裏的常識，比如說一個人跟另一個人說“老地方見”，那麽就意味著他們把這句話中的地址信息在彼此都了解的情況下進行了壓縮，從而縮短了講話時間。

類似道理的壓縮技術很早就應用在計算機世界，在大型機當道的時候其價值已經被證明。但真正壓縮開始流行，還是在互聯網飛黃騰達之後。

1977年，是無損壓縮這件事跨時代的一個年份。這一年，以色列海法理工學院的科學家Abraham Lempel 和 Jacob Ziv聯合發表了一種壓縮算法，以兩人名字共同命名為LZ算法。這一年發布的技術被稱為LZ77。第二年，兩人又發布了改進版的LZ78。此後所有無損數據壓縮技術，差不多都是從這兩種演化而來。

另一個無損壓縮的時代，開始在八十年代末。

這個時候，隨著互聯網開始騰飛，各種商業壓縮軟件已經成熟，但還缺少能獨大的那一家。

當時流行的壓縮軟件叫做Arc，後來一個名叫Phil Katz的年輕人突發奇想之下，希望能夠做個更好的版本。於是，這個之後被稱為互聯網天才和第一代極客的大牛做了名字充滿挑釁意味的PKArc。結果1988年，Phil Katz被告侵犯商標和知識產權。於是第二年他又做了新的修改版，用了新的IMPLODE算法，也就是我們今天無比熟悉的ZIP。

技術分享圖片

遺憾的是，這位無損壓縮的時代人物沒有逃脫老天對天才的妒忌。伴隨著嚴重的妄想癥、抑郁癥和酗酒，他37歲就離開了人世。但是ZIP卻統治了壓縮世界的話語規範，直到今天。

人工智能正在改變壓縮

在相當長的一段時間裏，壓縮都被認為是無需再進行改善的東西。但隨著新終端、新的存儲方式到來，人類又一次對壓縮提出了新的要求。

就像《矽谷》裏說的那樣，移動互聯網和雲計算的加持下，人類正在以幾何增長的速度制造新數據，這些數據可能很快就會沒有地方存儲。既然大家都不想刪除文件，那麽只能寄希望於文件變小一點了。

《矽谷》裏所謂的魔笛算法，一度引發了不少跟風打造屬於自己的“魔笛”，但是效果普遍沒有劇裏那麽犀利。

最終這個任務，很可能還是要落在人工智能的頭上。

2016年，谷歌相關團隊推出了一款叫做RAISR（Rapid and Accurate Image Super-ResoluTIon）的圖像壓縮技術。這個解決方案就是以人工智能技術作為壓縮路徑，效果能達到將圖片壓縮到源文件的1/4，卻基本不改變圖片的清晰度。

技術分享圖片

能達到這種效果的訣竅，在於給機器學習輸入大量的圖片壓縮數據。讓智能體去學習圖片壓縮的模式，從而創建符合每個圖片要求的濾波器。由此產生的壓縮後圖片只是被忽略了數據細節，卻保留了能夠讓人眼識別的部分。

在極大程度壓縮文件的同時，這種技術還能提升文件壓縮速度。主要用來提供移動端的圖像傳輸和瀏覽效率，讓用戶獲得更好的圖片觀看體驗。

谷歌發布的AI+壓縮技術應用在圖片領域，而一些新的方案，正在把AI向通用壓縮領域擴張。

在一篇斯坦福大學相關團隊最近發布的論文中，闡釋了一種被稱為DeepZip的壓縮方式。顧名思義，這種技術將深度學習和壓縮融合在了一起，希望利用AI技術獲得更好的壓縮體驗。

這篇論文裏，研究者闡釋了利用RNN，即循環神經網絡技術進行文件壓縮的方式。所謂RNN，是一種深度學習中的經典神經網絡技術。形象一點解釋，這種神經網絡框架就好比讓一個人擁有了一定的知識基礎再去學習下一個知識，往復循環形成對長期記憶的理解能力。

研究者發現，使用RNN技術可以明顯改善內部有依賴關系文件，比如圖像、視頻、文本文檔的壓縮效率。很可能是我們進一步提升壓縮效率，化大為小的突破口。

總而言之，不同的AI技術正在嘗試從前所未有的角度撬開無損壓縮的大門，希望能像電視劇裏那樣，搞出一個質變來。

今天的世界，確實在期待更好的壓縮

那麽到底為什麽一定要有更好的壓縮方式呢？或者說即使有了這種技術，是不是真正能像《矽谷》裏描述的那樣改變世界呢？

這要從到底哪些方向需要壓縮的技術變革來看。

首先，對於劇中所描述的“數據末日”，產業界有各種各樣的看法。有人認為人類的數據量確實在爆炸，很可能面臨存儲瓶頸，從而引發社會對數據空間的爭奪。但也有人認為，更大的雲空間也在不斷建設中，數據量很可能永遠也追不上不斷擴大的雲空間。

技術分享圖片

孰是孰非不好定論，關於壓縮技術的進步，更多人認為是和移動設備、可穿戴設備以及物聯網設備的普及化相關的。這些設備都對數據傳輸的速率有要求，速度越快體驗越好。那麽壓縮能力的進化，顯然可以增強這些聯網設備的工作能力，尤其是對於物聯網設備來說。

但最有可能的需求，是來自於那些新技術風口。

比如VR、無人駕駛的高精地圖、基因圖譜數據，以及深度學習所使用的訓練數據集，這些文件都比我們日常接觸的互聯網數據大上很多。隨著VR、無人駕駛、人工智能這些東西一步步產業化、日常化，對它們的傳輸、保存和使用需求也在不斷擴大。而且這些都是高精度文件，對壓縮的效果和質量也提出了新要求。

所以，高精度、高速率的壓縮解決方案正在被熱切渴望著。甚至可能成為未被重視的巨大市場。用AI壓縮來滿足AI的需求，可能是接下來我們會見到的常態。

《矽谷》裏神乎其神的壓縮技術，AI正在一點點做出來

效果通過 imp 清晰度文檔另一個 alt 進步改版好劇總是追的特別快，比如說我們熟悉的黃暴神劇《矽谷》，今年該迎來第五季了。這部劇裏讓人印象深刻的東西很多，而劇裏幾個主角發明的創業神器、號稱能改變世界命運的“魔笛手”絕對是其中之一。給沒看過這部劇的朋友介紹一下，

《矽谷》裏神乎其神的壓縮技術，AI正在一點點做出來

《矽谷》裏神乎其神的壓縮技術，AI正在一點點做出來

恩，有了一點點做調研的感覺羅

“華為雲，有技術”，並不只是一句口號而已

專注於網際網路架構技術，努力成為一名架構師

區塊鏈是一種技術，更是一門學科

看懂shebang吧，只需一點點shell知識，從此再也不犯強迫癥

06《learn Python3 the hard way》一起來敲程式碼，每天進步一點點

龍哥(webnum)說的，每天進步一點點，總有一天會實現夢想！

【學習分享】溫水裏的程序員，技術將成為溫水。

阿裏專家：技術變化那麽快，程序員如何做到不被淘汰？

什麽是人工智能編輯，AI人工智能技術又是什麽？

AI動作捕捉技術，會讓制造業大幅度降低成本嗎？

太原面經分享：如何在vue面試環節，展示你晉級阿裏P6+的技術功底？

百度強勢入場，AI們集體打 call：揭秘百度智能客服背後的語音技術與應用

阿裏雲的技術創新，不是簡單的路線之爭

阿裏雲容器技術專家莫源：乘風踏雪歸來，仍是此間少年

學習大資料技術，Hive實踐分享之儲存和壓縮的坑

新一代北汽紳寶X55：將三方面整合AI技術，9月上市

技術爭鳴！七大主題報告，四大技術專題，AI開發者大會首日議程全回顧

AI實戰訓練營|七大實戰專案通曉網際網路行業的AI核心技術，讓創新始於實戰

《矽谷》裏神乎其神的壓縮技術，AI正在一點點做出來

相關推薦