微軟的資料湖也涼涼了
6號坐飛機,就聽到微軟的朋友說微軟的資料湖完蛋了,隊伍解散了,那個曾經領導了這個專案的印度人Raghu成了名副其實的光桿司令。在飛機上心情拔涼拔涼的。當然飛機上沒法寫公眾號,只能拖到今天來寫了。
為什麼我會心有慼慼然呢?大家看一段維基百科上面關於微軟資料湖的歷史:
The Azure Data Lake service was released on November 16, 2016. Azure Data Lake is built on the learnings and technologies of COSMOS, Microsoft’s internal big data system. COSMOS is used to store and process data for applications such as Azure, AdCenter, Bing, MSN, Skype and Windows Live. COSMOS features a SQL-like query engine called SCOPE upon which U-SQL was built.
翻譯一下:Azure資料湖服務是2016年11月16日釋出的。Azure資料湖是在微軟內部的大資料平臺Cosmos的技術和經驗教訓基礎上構建的。Cosmos用來處理應用程式比如Azure, AdCenter, Bing,MSN, Skype和Windows Live的資料。Cosmos有一個像SQL一樣的查詢引擎叫做SCOPE。 U-SQL是在其上構建的。
這段話有點像黑話,我來翻譯一下。微軟有個內部大資料平臺Cosmos,微軟的很多部門都用它去儲存和分析資料。Cosmos上有個分析引擎腳SCOPE,和SQL很像。Azure資料湖服務構建在Cosmos的經驗教訓上。提供了一個叫做U-SQL的語言,是從SCOPE那借鑑來的。
有些讀文章的人知道,我畢業的第一份工作,在微軟一個叫Cosmos的隊伍,做的是一個叫SCOPE的語言。所以這解釋了為什麼在飛機上我還慼慼然了。
Cosmos的歷史可以追溯到微軟上一代CEO Steve Ballmer時代去了。當時Ballmer大舉進軍搜尋做必應搜尋引擎,為了支援構建搜尋引擎,微軟需要大資料分析平臺。這就是Cosmos專案最開始的緣由。
Cosmos系統的具體細節,大家可以參閱我早年的文章:大資料那些事(15):Cosmos的技術。這裡給一個簡單的回顧。Cosmos底層是類似Google File System的檔案儲存系統。基本上是抄谷歌的架構,在某些細節上,比如壓縮演算法上有自己的特色。中間執行層用的是微軟矽谷研究院(已經被沈向洋給整體關閉了)的Dryad。這個技術比MapReduce要高階一些,和Spark有類似之處。上面是一個查詢引擎,類似SQL,叫SCOPE。
大約到2012年Cosmos基本上在微軟內部把微軟大部分部門的資料儲存和處理都搬遷上來了,隊伍也一再壯大。幾個經理更是坐火箭一般的上升。據說由此內部和Steve Ballmer review的時候,Steve Ballmer說,這個東西這麼好,什麼時候賣給沃爾瑪啊,我們好賺錢。這個說法是真是假不得而知,但是確實奠定了後續很多事情的基礎。
2013年的Steve Ballmer做了兩件事情,直接導致了他下臺,也對Cosmos團隊產生了很大的影響。第一件事情當然和Cosmos無關,就是買了Nokia。第二件事情是做了一個名為One Microsoft的全公司的重組。作為重組的一部分,Cosmos被從必應搜尋引擎給剝離出來,劃給了當時做SQL Azure和HDInsight的DPG(Data Processing Group)。這就導致了後來Azure Datalake的故事了。
作為當時Cloud & Enterprise的EVP的Satya,從雅虎研究院請來了印度人裡面的大牛,資料庫領域的著名專家Raghu。這位請來沒多久,就對大資料這一塊產生了興趣,順理成章的成為了Cosmos這個部門的大領導。
Raghu這個人我有很矛盾的看法。一方面作為威斯康辛的教授,資料庫領域的大牛,其學術貢獻不可忽視。我至今還記得自己第一次參加VLDB的時候他給我們這些年輕學生做報告,告訴大家當年他是如何頭懸梁錐刺股的做研究的。另外一方面作為manager來說,可謂盛名之下其實難副,好端端的Cosmos被管的一塌糊塗。
Raghu上來之後就急於想把Cosmos賣給Walmart。怎麼賣呢?當然是做個新系統。這個新系統要擯棄掉Cosmos老的儲存,改用Azure Blob Store。查詢語言要擯棄SCOPE,改用更SQL的語言,也就是後來的U-SQL。為了確保他的戰略能實施,Raghu在重組的時候也殺點雞給猴子們看。Cosmos一度進入了風雨飄搖的狀態,很多老人都走了,我也差不多在Raguh入職一年後走了。
這個產品做得不順利,但是不管怎麼樣,延期又延期之後2016年還是釋出了,名字就是Azure Datalake。資料湖的概念從此開始流傳開來。這個資料湖,總體來說是這樣一個產品。它包括Azure Datalake Store和Azure Datalake Analytics。前者是儲存,有API提供。後者是分析平臺。它的分析平臺支援Hadoop的那一套,也支援一個全新的U-SQL。如果你想要同時讀取在Datalake裡面的資料和Datalake外面的資料做分析的話,那就只有U-SQL可以選了。
因為U-SQL和Hadoop生態圈不相容,而且是C#體系的。這個語言大家都不願意學。又因為其他各種原因,第一版的系統不好用,賣了一年多也沒賣出幾個客戶。不過沃爾瑪還真給忽悠上船了。
當初Raghu強勢的重組,導致了很多老員工離開了Cosmos。這些人有如我這樣進小公司的,也有進大公司的。比較大的有兩撥人。一部分去了Salesforce。在Salesforce折騰了幾年。還有一撥人去了阿里巴巴,成了現在MaxCompute的領導者。這些人都各自有各自的發展,有好有壞,不好說。但是好端端的Cosmos隊伍被Raghu敗光了無疑是個事實。
Raghu的名聲給他帶來了很多光輝,所以微軟一直都容忍Raghu折騰。這種容忍最終也到了不能再忍的地步了。去年微軟做了Reorg以後,Azure datalake store隊伍就給拆分去了Azure Blob Store。這導致了今年年初推出的Azure datalake store gen2。簡單的說,出了一個既支援物件儲存API也支援HadoopAPI的儲存。
Azure datalake analytics,也就是做U-SQL的那個做,一直命運多舛,一度被並進了CosmosDB,這個無恥的借用了Cosmos名字的產品組,上演了一出李鬼併吞李逵的戲碼。後來又被一群CRM的人佔領了。
如今傳來的訊息,這個隊伍被打散拆掉給其他隊伍分贓了。作為一個獨立產品的隊伍,Azure datalake是不存在了。當然,微軟不會明目張膽的宣佈這個產品砸了,畢竟,上面還有Walmart這樣的大傻逼在掏錢。只是產品的確是做的不好,也賣的不好。Raghu最終還是成了光桿司令。但這有什麼用呢?好端端的隊伍就這樣給敗光折騰光了。微軟等於是開局不錯,然後自廢武功了。
【本文為51CTO專欄作者“徐飛”的原創稿件,轉載請通過作者微信公眾號“飛總聊IT”獲取聯絡和授權】
ofollow,noindex" target="_blank">戳這裡,看該作者更多好文