1. 程式人生 > >記憶體計算技術應對大資料挑戰

記憶體計算技術應對大資料挑戰

訪SAP張志琦的過程中涉及到以下內容:

資料的“失控”

  前言

  時間快轉,又到了歲末年初盤點之時。

  2012年,不僅是末日之年,也是變革之年。

  深刻的變化正在發生,而這將徹底改變人的生活、工作方式,還有企業經營的方式。如果說20世紀,石油直接影響著世累經濟的發展速度和發展水平,那麼,21世紀,資訊將發揮著同樣的作用。《經濟學人》曾發表觀點表示,資料和資訊日益成為商業的新能源,是“一種與資本、勞動力並列的新經濟元素”。

  每個時代危機的產生和時代的交替都伴隨著一些企業的消亡,誕生出企業的新貴,當然也不乏挺過嚴冬的倖存者。

  時代的新舊更替即將到來。

  資料的“失控”

  2012年,大資料“風華正茂”,成為超越雲端計算的另一個熱點話題。

  首先讓我們先來看幾組數字:

  2012年,每兩天的資料量就達到2ZB,這相當於從人類文明起到2003年的所有資料量。除了人類所產生資料外,機器產生的資料也在逐年遞增;

  一定規模的公司有關消費者使用者的資料已達到200T,在社交網路流行的背景下,社會化媒體產生的資料如洪水般氾濫;

  當前存在的90%資料來自於過去的兩年間,這些資料來自物聯網感測器、交易日誌、音訊、視訊和影象、社交媒體等等;

  到2020年,全球資料量將會擴大50倍。儲存1PB的資料將需要兩萬臺配備50GB儲存硬碟的PC。

  ……

  如何儲存這些資料?如何處理?如何分析利用?如果說以上這些,還不足以說明資料量達到開始“失控”的地步,那麼另據統計,這些資料只有20%是結構化的資料,而80%以上是非結構化資料,結構化的資料可用已有的關係型資料庫處理,非結構化的資料就需要依賴於新的技術。我們經常在媒體上看到的大資料是指大量的非結構化資料。對於企業來說,如果管理得當,就能從大資料中挖掘出有效的資訊,大部分企業還沒有使用正確的工具和流程來管理這些非結構化資料。如果繼續下去,這樣的企業會遠遠落於人後,因為他們無法獲取洞察力,不能幫助企業做出明智的決定。

  歡迎來到大資料統治的時代。

  這個時代,我們看到矽谷的新寵:谷歌、Facebook,它們是駕馭Web資料的大師,他們獲得了成功。

2大資料時代技術一覽

  大資料時代技術一覽

  大資料催生的新技術已醞釀多年,而在2012年開始逐漸走向熱門,走出了“實驗室”階段,逐步開始商業應用:更快速、更低價、新式的硬體裝置步入人們的視野;記憶體內資料的處理、軟體工具快速進化;人工智慧、BI等領域的軟體發展也達到了一個嶄新的階段。

  在上文提到的各種各樣型別非結構化資料中,快速獲得有價值資訊的能力,就是大資料技術。大資料的四個層面包括:第一,資料量巨大,從TB躍升到PB的級別;第二,資料型別眾多,前文提到的日誌、視訊、圖片、社交媒體資訊等等;第三,價值密度較低,以視訊為例,在連續不間斷的幾天的監控過程中,可能有用的資料僅有一兩秒;第四,處理速度快,如果一個查詢命令需要等待幾個小時,就將面臨“出局”。

  而大資料的生態系統,其實就是資料的生存週期。資料從產生、處理,到價值的提取,最後被消費掉,這整個過程構成了大資料的生態系統。在這個生態系統中,迎合大資料處理的發展趨勢,市場上湧現出了眾多新鮮的技術,下面將簡單列舉一些典型的技術:

  在快取方面,memcached是一個高效能的分散式記憶體物件快取系統,可以用於在動態系統中減少資料庫負載,提升效能。

  在分散式檔案處理方面,目前最為流行的技術是Hadoop,它的優勢是開源的軟體體系、較低的硬體成本、較強的靈活性等,同時能支援海量資料儲存和計算任務。

  在資料倉庫方面,通過基於Hadoop的資料倉庫平臺Hive,開發人員可以方便地進行ETL開發。

  在分散式儲存方面, HBase是一個高可靠性、高效能、面向列的分散式儲存系統,利用HBase技術可在PC伺服器上搭建大規模結構化的儲存叢集。

  在資料儲存方面的另一大熱點NoSQL,當前不但誕生了很多NoSQL的資料庫產品,還圍繞著NoSQL產生了很多新技術、新模式。

  此外還有資料檢索的代表TopSy,資料視覺化平臺代表Roambi等, 本文就不再一一列舉。下文將僅對資料分析方面的創新技術做闡述。

3記憶體計算改變“遊戲規則”?

  記憶體計算改變“遊戲規則”?

  企業競爭環境中,能夠提供實時的資訊反饋很重要,這對傳統的資料探勘技術提出了新的挑戰。

  過去做資料探勘,受資料探勘工具效能方面的限制,一般先對資料做預處理,之後才能做資料展示。如果預處理的資料是按照銷售的產品種類去彙總,未來顯示的資訊也就只能按照這種方式展示。如要選擇按照其他彙總,則要重新花時間做預處理。換而言之,資料探勘需要很多時間去做資料準備,把預處理的結果儲存起來,用空間換時間,才能有更多的展示。

  傳統的資料探勘先期準備時間過長,無法迅速處理當下瞬息萬變的資料,難以應對為解決決策者對資訊進行“實時”分析的強需求。這就需要一種新的方法和工具,要求從 “實時”的資料中提取有用的資訊。

  於是在兩年前,一個名為“記憶體計算”的名詞突然出現在我們的視野中。

  記憶體計算相比傳統的方法的優勢是:充分發揮多核的能力,可以對資料並行的處理,並且記憶體讀取的速度成倍數加快,資料按優化的列儲存方式存放在記憶體裡面。結論是,記憶體計算可對大規模海量的資料做實時分析和運算,不需要事先的資料預處理和資料建模。例如,想要以任何維度去分析資料,實時建立模型,實時完成分析處理,上億條資料可能從幾天縮短為幾秒鐘就處理完。

  歷史只有一個,而未來可以有無限多的可能。所以記憶體計算更大的價值體現在如何在既有資料的基礎上做未來分析預測上。例如,根據現在社交網路上的資料,再加上一些假設條件,去做一個預測。記憶體計算能根據社交網路提供的海量資料,即時看到當前的客戶行為模式,進而做出模擬預測。再比如在市場活動中,使用者人群的特點,消費傾向等資料一定,如何增加滿意度?滿意度的增加會帶來多少收益?這樣的預測性問題,都是記憶體計算分析擅長的內容。可以說,記憶體計算是決策者的一個有力工具。

  一些IT解決方案提供商也早已看到了記憶體計算市場的強大商機。SAP副總裁、中國區生態系統和渠道總經理潘應麟在接受天極網採訪時曾表示,“SAP的記憶體計算產品是可以改變遊戲規則的重要武器”。早在2008年,EMC在企業儲存系統中率先採用了基於快閃記憶體的固態硬碟,EMC將促進快閃記憶體技術應用的戰略,提高儲存系統和應用的效能,EMC還發布了EMC Hadoop版本,進行實時、非結構化的資料處理。。而SAP的記憶體計算產品HANA也從2010年就已傳出風聲,2011年SAP宣佈記憶體計算產品SAP HANA軟體,開始提供給全球客戶使用,SAP正式加入了記憶體計算的戰場。不久後,作為SAP老對手的甲骨文釋出了名為Exalytics的記憶體資料庫裝置,一向“人有我優”的甲骨文,也在宣示著對於記憶體計算領域的不甘人後。

4HANA的領地

  HANA的領地

  筆者在下面的論述不會圍繞“後來者”Exalytics,而是圍繞率先步入市場的HANA進行一些粗淺的分析。

  SAP HANA 裝置使企業在開展自己業務的同時,通過海量資料實時分析業務運營情況。記憶體實時採集資料用於即時分析,從而消除了從業務應用程式獲取資料到報表分析資料之間的滯後時間。

  它提供了從資料庫直接瞭解到業務運營情況的一個通道。這一記憶體裝置還將 SAP 軟體與其戰略合作伙伴的硬體結合了起來。

  簡單來說,HANA 是一款列式的記憶體資料庫。這意味著你既可在 HANA 中執行需在行式資料庫中執行的常規事務,又可以執行列式資料庫所擅長的分析功能。這個“又”字非常關鍵。一直以來,它只是“或”。當你輸入資料時,你需要一款資料庫。而當你執行分析(輸出資料)時,就需要另一款對資料進行預處理的資料庫。

  但是,您不可二者兼得。

  有了HANA之後,兩者就不衝突了。它作為一款記憶體資料庫,執行速度有很大提升。另一個原因是,它可以分析輸入和輸出資料的意圖。而且在何種情況下,不會以犧牲效能作為代價。不用在功能和效能之間做艱難的選擇。下面一組數字說明HANA優勢:

  每秒執行77萬條記錄,批量插入1GB的資料,每小時達到2.5TB資料的服務,每小時2.5TB插入到SAP HANA上。

  “SAP HANA不僅僅是一種革命性的產品,它是我們真正創新的未來發展平臺。” SAP執行董事會成員史維學博士在接受採訪時表示。據瞭解,SAP HANA目前已經有400多名客戶,是營收增長最快的產品,接近3億多歐元的收入。

天極網記者採訪SAP中國解決方案和架構部總經理張志琦

  我們一起來看看HANA的三個重要功能。第一,記憶體計算。第二,一定速度基礎上的事務功能和分析功能。第三,結合業務功能。

  為了幫助理解HANA的設計理念和獨特之處,筆者舉一個例子。如果過去裝修一個房子,需要到現場去測量,然後回去準備所需的材料打造成傢俱。HANA的理念是無需再移動資料。也就是說,可以就地取材,就在資料所在位置開始測量、開始建造。這樣的優勢是更靈活、反應更快。

  說到這裡,在文章第三部分說它為什麼是改變“遊戲規則”的技術就不難理解了。

  結語

  除了以上論述的記憶體計算的快速、靈活等優勢,記憶體資料庫沒有磁碟管理的開支,可以預見,記憶體作為磁碟的替代品變得越來越具吸引力。

  2012年,我們看到了一些讓人眼前一亮的使用資料視覺化、資料探勘、地理資訊分析、移動分析、預測分析等案例,記憶體技術讓企業實現最強競爭力、煥發新活力的案例也初露端倪。

  創新、減少IT的妥協、合適的人在合適的時間得到想要的資訊,基於資訊分析出結果,這一切成為了可能。

附加資訊: