1. 程式人生 > >大數據系列之三:大數據體系架構的重要裏程碑

大數據系列之三:大數據體系架構的重要裏程碑

park con 再次 data 設計 src 分享圖片 http 豐田

歐凱慣例:引子

世界上唯一不變的就是變化,大數據的架構也不例外。
這次變化的推動者,多是一些大的商業公司!
首發地址
---

Teradata 美國天睿

技術分享圖片
Teradata這家公司其實挺陌生的,但這並不能讓我們忽視其在大數據方面做出的貢獻。簡單一句描述這家公司的貢獻就是:

2008年之前,這家公司以關系型為基礎,硬剛大數據,之後意識到數據實在太大大復雜了,終究實現了對非關系型數據的支持。

具體它拿關系型作為對大數據的解決方案硬剛到什麽程度呢?拿一個數據說來說明白了,直到2017年,它可以基於其關系型解決方案處理50PB級別的數據。(當然50PB在現在的大數據框架中都是毛毛雨了,不過這也從側面反應出它對自己產品的自信與不舍)


LexisNexis

技術分享圖片

2000年,這家公司用C++開發了一個分布式文件共享及數據存儲查詢框架,它可以在節點間處理結構化,半結構化和非結構化數據。2004年,它收購了Seisint,又在2008年收購了ChoicePoint,然後它基於二者的產品在2011年融合成了HPCC系統。HPCC是高性能計算集群的簡稱。還不錯,HPCC是開源的。

其實在這裏,我們就可以看到當下主流的大數據處理框架的雛形了,所以這家公司在大數據處理方面的貢獻是很大的,這也得意於其管理者的眼光,通過買買買的策略實現技術的融合,推動時代的進步。


不值一提的歐洲核組織

技術分享圖片

CERN歐洲核子研究組織,這裏為什麽要提到CERN呢?因為它和其它的一些物理實現組織在幾十年內積累了大量的數據,而且這些數據相當的精密,隨著計算機的發展,它們自然而然的選擇了以超級計算機作為這些數據的處理工具。這裏反應了大數據的一個側面,即,假如數據非常精密且內部關系十分緊密,使用分布式並行處理可能並不方便,那只不能求助於超級計算機了,畢竟超級計算機『一個頂倆』。


牛逼哄哄的Google

技術分享圖片

曾經豐田的廣告那叫一個牛逼啊『車到山前必有路,有路必有豐田車』,現在,谷歌在互聯網辦就是這般存在,而且是完全有過之。

2004年,谷歌發布了類似於HPCC的MapReduce,它提出了一個並行處理模型並成功發布了基於此的大數據處理工具。MapReduce包含兩個階段:

  • Map階段:將數據的查詢進行拆分,然後將子查詢分散到各個結點,各個結點並行處理各自的查詢。
  • Reduce階段:收集並行結點的相關結果然後再次進行分發。

技術分享圖片

這種設計相當成功,所以後來Apache基於MapReduce框架創建了Hadoop這個開源項目。
2012年,Apache又創建了Spark項目,該項目旨在解決MapReduce中Map階段後只能跟隨Reduce階段的局限,即可以按需配置多個操作。

大數據處理平臺的6C共識

  • Connection(連接:傳感器和網絡傳輸)
  • Cloud(雲:計算和數據點播)
  • Cyber(網絡:模型與存儲)
  • Content/Context(內容與背景:意義與內在關系)
  • Community(社區:分享與協作)
  • Customization(定制:個性化與價值)

歐凱慣例:小結

很明顯,大數據技術的革新是需求驅動的,而主力就是當代的有實力的技術公司,這裏不得不在點名一個谷歌,是真強啊。


大數據系列之三:大數據體系架構的重要裏程碑