1. 程式人生 > >大資料流式計算:關鍵技術及系統例項

大資料流式計算:關鍵技術及系統例項

雲端計算、物聯網、移動互連、社交媒體等新興資訊科技和應用模式的快速發展,促使全球資料量急劇增加,推動人類社會邁入大資料時代[1234].一般意義上,大資料是指利用現有理論、方法、技術和工具難以在可接受的時間內完成分析計算、整體呈現高價值的海量複雜資料集合.大資料呈現出多種鮮明特徵[34567]:

· 在資料量方面,當前,全球所擁有的資料總量已經遠遠超過歷史上的任何時期,更為重要的是,資料量的增加速度呈現出倍增趨勢,並且每個應用所計算的資料量也大幅增加;

· 在資料速率方面,資料的產生、傳播的速度更快,在不同時空中流轉,呈現出鮮明的流式特徵,更為重要的是,資料價值的有效時間急劇減少,也要求越來越高的資料計算和使用能力;

· 在資料複雜性方面,資料種類繁多,資料在編碼方式、儲存格式、應用特徵等多個方面也存在多層次、多方面的差異性,結構化、半結構化、非結構化資料並存,並且半結構化、非結構化資料所佔的比例不斷增加;

· 在資料價值方面,資料規模增大到一定程度之後,隱含於資料中的知識的價值也隨之增大,並將更多地推動社會的發展和科技的進步.此外,大資料往往還呈現出個性化、不完備化、價值稀疏、交叉複用等特徵.

大資料蘊含大資訊,大資訊提煉大知識,大知識將在更高的層面、更廣的視角、更大的範圍幫助使用者提高洞察力、提升決策力,將為人類社會創造前所未有的重大價值.但與此同時,這些總量極大的價值往往隱藏在大資料中,表現出了價值密度極低、分佈極其不規律、資訊隱藏程度極深、發現有用價值極其困難的鮮明特徵.這些特徵必然為大資料的計算環節帶來前所未有的挑戰和機遇,並要求大資料計算系統具備高效能、實時性、分散式、易用性、可擴充套件性等特徵.

大資料價值的有效實現離不開A,B,C這三大要素,即,大分析(big Analytic)、大頻寬(big Bandwidth)和大內容(big Content).其中,

(1) 大分析.通過創新性的資料分析方法實現對大量資料的快速、高效、及時的分析與計算,得出跨資料間的、隱含於資料中的規律、關係和內在邏輯,幫助使用者理清事件背後的原因、預測發展趨勢、獲取新價值;

(2) 大頻寬.通過大頻寬提供良好的基礎設施,以便在更大範圍內進行資料的收集,以更快的速度進行資料的傳輸,為大資料的分析、計算等環節提供時間和資料量方面的基本保障;

(3) 大內容.只有在資料內容足夠豐富、資料量足夠大的前提下,隱含於大資料中的規律、特徵才能被識別出來.

由此可見,大分析是實現途徑,大頻寬是基本保障,大內容是前提條件.

大資料的計算模式[78910]可以分為批量計算(batch computing)和流式計算(stream computing)兩種形態:

· 如圖 1所示,批量計算首先進行資料的儲存,然後再對儲存的靜態資料進行集中計算.Hadoop是典型的大資料批量計算架構,由HDFS分散式檔案系統負責靜態資料的儲存,並通過MapReduce將計算邏輯分配到各資料節點進行資料計算和價值發現;

Fig. 1 Big data batch computing圖 1 大資料批量計算

· 如圖 2所示,流式計算中,無法確定資料的到來時刻和到來順序,也無法將全部資料儲存起來.因此,不再進行流式資料的儲存,而是當流動的資料到來後在記憶體中直接進行資料的實時計算.如Twitter的Storm、Yahoo的S4就是典型的流式資料計算架構,資料在任務拓撲中被計算,並輸出有價值的資訊.

Fig. 2 Big data stream computing圖 2 大資料流式計算

流式計算和批量計算分別適用於不同的大資料應用場景:對於先儲存後計算,實時性要求不高,同時,資料的準確性、全面性更為重要的應用場景,批量計算模式更合適;對於無需先儲存,可以直接進行資料計算,實時性要求很嚴格,但資料的精確度要求稍微寬鬆的應用場景,流式計算具有明顯優勢.流式計算中,資料往往是最近一個時間視窗內的,因此資料延遲往往較短,實時性較強,但資料的精確程度往往較低.流式計算和批量計算具有明顯的優劣互補特徵,在多種應用場合下可以將兩者結合起來使用.通過發揮流式計算的實時性優勢和批量計算的計算精度優勢,滿足多種應用場景在不同階段的資料計算要求.

目前,關於大資料批量計算相關技術的研究相對成熟[345678910],形成了以Google的MapReduce程式設計模型、開源的Hadoop計算系統為代表的高效、穩定的批量計算系統,在理論上和實踐中均取得了顯著成果[711].關於流式計算的早期研究往往集中在資料庫環境中開展資料計算的流式化,資料規模較小,資料物件比較單一.由於新時期的流式大資料呈現出實時性、易失性、突發性、無序性、無限性等特徵,對系統提出了很多新的更高的要求.2010年,Yahoo推出S4流式計算系統,2011年,Twitter推出Storm流式計算系統,在一定程度上推動了大資料流式計算技術的發展和應用.但是,這些系統在可伸縮性、系統容錯、狀態一致性、負載均衡、資料吞吐量等諸多方面仍然存在著明顯不足.如何構建低延遲、高吞吐且持續可靠執行的大資料流式計算系統,是當前亟待解決的問題.

本文以大資料流式計算系統的設計、優化和挑戰為核心,系統地梳理和分析了當前大資料流式計算系統的研究和發展現狀,總結了在金融銀行業應用、網際網路應用和物聯網應用這三大典型領域中,流式大資料所呈現出的實時性、易失性、突發性、無序性、無限性等特徵.給出了理想的大資料流式計算系統在系統結構、資料傳輸、應用介面、高可用技術等方面應該具有的關鍵技術特性,論述並對比了5款大資料流式計算系統,即, Twitter的Storm系統、Yahoo的S4系統、Facebook的Data Freeway and Puma系統、Linkedin的Kafka系統、Microsoft的TimeStream系統.闡述了大資料流式計算系統在可伸縮性、系統容錯、狀態一致性、負載均衡、資料吞吐量等方面所面臨的技術挑戰.本文工作為構建低延遲、高吞吐且持續可靠執行的大資料流式計算系統提供了一些指導性原則,彌補了當前關於大資料流式計算的研究成果不足的局面.

本文第1節分析大資料流式計算的典型應用領域及其特徵.第2節論述設計優良的大資料流式計算系統在系統結構、資料傳輸、應用介面、高可用技術等方面應該滿足的關鍵技術要求.第3節分析對比5款比較典型的大資料流式計算系統.第4節具體闡述大資料流式計算在系統的可伸縮性、系統容錯、狀態一致性、負載均衡、資料吞吐量等方面所面臨的新的挑戰.最後,第5節對全文進行總結.

1 應用場景及資料特徵

大資料流式計算主要用於對動態產生的資料進行實時計算並及時反饋結果,但往往不要求結果絕對精確的應用場景.在資料的有效時間內獲取其價值,是大資料流式計算系統的首要設計目標,因此,當資料到來後將立即對其進行計算,而不再對其進行快取等待後續全部資料到來再進行計算.

1.1 應用場景

大資料流式計算的應用場景較多[121314151617],本文按照資料產生方式、資料規模大小以及技術成熟度高低這3個不同維度,選擇金融銀行業應用、網際網路應用和物聯網應用這3種典型應用場景,用於分析說明大資料流式計算的基本特徵.從資料產生方式上看,它們分別是被動產生資料、主動產生資料和自動產生資料;從資料規模上看,它們處理的資料分別是小規模、中規模和大規模;從技術成熟度上看,它們分別是成熟度高、成熟度中和成熟度低的資料.

(1) 金融銀行業的應用

在金融銀行領域的日常運營過程中,往往會產生大量資料,這些資料的時效性往往較短.因此,金融銀行領域是大資料流式計算最典型的應用場景之一,也是大資料流式計算最早的應用領域.在金融銀行系統內部,每時每刻都有大量的往往是結構化的資料在各個系統間流動,並需要實時計算.同時,金融銀行系統與其他系統也有著大量的資料流動,這些資料不僅有結構化資料,也會有半結構化和非結構化資料.通過對這些大資料的流式計算,發現隱含於其中的內在特徵,可以幫助金融銀行系統進行實時決策.

在金融銀行的實時監控場景中,大資料流式計算往往體現出了自身的優勢.如:

· 風險管理.包括信用卡詐騙、保險詐騙、證券交易詐騙、程式交易等,需要實時跟蹤發現;

· 營銷管理.如,根據客戶信用卡消費記錄,掌握客戶的消費習慣和偏好,預測客戶未來的消費需求,併為其推薦個性化的金融產品和服務;

· 商業智慧.如,掌握金融銀行系統內部各系統的實時資料,實現對全域性狀態的監控和優化,並提供決策支援.

(2) 網際網路領域的應用

隨著網際網路技術的不斷髮展,特別是Web 2.0時代的到來,使用者可以實時分享和提供各類資料.不僅使得資料量大為增加,也使得資料更多地以半結構化和非結構化的形態呈現.據統計,目前網際網路中75%的資料來源於個人,主要以圖片、音訊、視訊資料形式存在,需要實時分析和計算這些大量、動態的資料.

在網際網路領域中,大資料流式計算的典型應用場景包括:

· 搜尋引擎.搜尋引擎提供商們往往會在反饋給客戶的搜尋頁面中加入點選付費的廣告資訊.插入什麼廣告、在什麼位置插入這些廣告才能得到最佳效果,往往需要根據客戶的查詢偏好、瀏覽歷史、地理位置等綜合語義進行決定.而這種計算對於搜尋伺服器而言往往是大量的:一方面,每時每刻都會有大量客戶進行搜尋請求;另一方面,資料計算的時效性極低,需要保證極短的響應時間;

· 社交網站.需要實時分析使用者的狀態資訊,及時提供最新的使用者分享資訊到相關的朋友,準確地推薦朋友,推薦主題,提升使用者體驗,並能及時發現和遮蔽各種欺騙行為.

(3) 物聯網領域的應用

在物聯網環境中,各個感測器產生大量資料.這些資料通常包含時間、位置、環境和行為等內容,具有明顯的顆粒性.由於感測器的多元化、差異化以及環境的多樣化,這些資料呈現出鮮明的異構性、多樣性、非結構化、有噪聲、高增長率等特徵.所產生的資料量之密集、實時性之強、價值密度之低是前所未有的,需要進行實時、高效的計算.

在物聯網領域中,大資料流式計算的典型應用場景包括:

· 智慧交通.通過感測器實時感知車輛、道路的狀態,並分析和預測一定範圍、一段時間內的道路流量情況,以便有效地進行分流、排程和指揮;

· 環境監控.通過感測器和移動終端,對一個地區的環境綜合指標進行實時監控、遠端檢視、智慧聯動、遠端控制,系統地解決綜合環境問題.

這些對計算系統的實時性、吞吐量、可靠性等方面都提出很高要求.

大資料流式計算的3種典型應用場景的對比見表 1.

Table 1 Scenarios contrast of stream computing of big data表 1 大資料流式計算應用場景對比

· 從資料的產生方式看,金融銀行領域的資料往往是在系統中被動產生的,網際網路領域的資料往往是人為主動產生的,物聯網領域的資料往往是由感測器等裝置自動產生的;

· 從資料的規模來看:金融銀行領域的資料與網際網路、物聯網領域的資料相比較少;物聯網領域的資料規模是最大的,但受制於物聯網的發展階段,當前實際擁有資料規模最大的是網際網路領域;

· 從技術成熟度來看:金融銀行領域的流式大資料應用最為成熟,從早期的複雜事件處理[1819]開始就呈現了大資料流式計算的思想;網際網路領域的發展,將大資料流式計算真正推向歷史舞臺;物聯網領域的發展為大資料流式計算提供了重要的歷史機遇.

1.2 流式大資料特徵

圖 3用有向無環圖(directed acyclic graph,簡稱DAG)描述了大資料流的計算過程,其中,圓形表示資料的計算節點,箭頭表示資料的流動方向.

Fig. 3 irected acyclic graph圖 3 有向無環圖
與大資料批量計算不同,大資料流式計算中的資料流主要體現瞭如下5個特徵[112021]:

(1) 實時性

流式大資料是實時產生、實時計算,結果反饋往往也需要保證及時性.流式大資料價值的有效時間往往較短,大部分資料到來後直接在記憶體中進行計算並丟棄,只有少量資料才被長久儲存到硬碟中.這就需要系統有足夠的低延遲計算能力,可以快速地進行資料計算,在資料價值有效的時間內,體現資料的有用性.對於時效性特別短、潛在價值又很大的資料可以優先計算.

(2) 易失性

在大資料流式計算環境中,資料流往往是到達後立即被計算並使用,只有極少數的資料才會被持久化地儲存下來,大多數資料往往會被直接丟棄.資料的使用往往是一次性的、易失的,即使重放,得到的資料流和之前的資料流往往也是不同的.這就需要系統具有一定的容錯能力,要充分地利用好僅有的一次資料計算機會,儘可能全面、準確、有效地從資料流中得出有價值的資訊.

(3) 突發性

在大資料流式計算環境中,資料的產生完全由資料來源確定,由於不同的資料來源在不同時空範圍內的狀態不統一且發生動態變化,導致資料流的速率呈現出了突發性的特徵.前一時刻資料速率和後一時刻資料速率可能會有巨大的差異,這就需要系統具有很好的可伸縮性,能夠動態適應不確定流入的資料流,具有很強的系統計算能力和大資料流量動態匹配的能力.一方面,在突發高資料流速的情況下,保證不丟棄資料,或者識別並選擇性地丟棄部分不重要的資料;另一方面,在低資料速率的情況下,保證不會太久或過多地佔用系統資源.

(4) 無序性

在大資料流式計算環境中,各資料流之間、同一資料流內部各資料元素之間是無序的:一方面,由於各個資料來源之間是相互獨立的,所處的時空環境也不盡相同,因此無法保證資料流間的各個資料元素的相對順序;另一方面,即使是同一個資料流,由於時間和環境的動態變化,也無法保證重放資料流和之前資料流中資料元素順序的一致性.這就需要系統在資料計算過程中具有很好的資料分析和發現規律的能力,不能過多地依賴資料流間的內在邏輯或者資料流內部的內在邏輯.

(5) 無限性

在大資料流式計算中,資料是實時產生、動態增加的,只要資料來源處於活動狀態,資料就會一直產生和持續增加下去.可以說,潛在的資料量是無限的,無法用一個具體確定的資料實現對其進行量化.系統在資料計算過程中,無法儲存全部資料:一方面,硬體中沒有足夠大的空間來儲存這些無限增長的資料;另一方面,也沒有合適的軟體來有效地管理這麼多資料;並且,需要系統具有很好的穩定性,保證系統長期而穩定地執行.

表 2對比了大資料流式計算和大資料批量計算的需求.

Table 2 Scenario contrast between stream and batch big data表 2 大資料流式、批量需求對比
2 大資料流式計算關鍵技術

針對具有實時性、易失性、突發性、無序性、無限性等特徵的流式大資料,理想的大資料流式計算系統應該表現出低延遲、高吞吐、持續穩定執行和彈性可伸縮等特性,這其中離不開系統架構、資料傳輸、程式設計介面、高可用技術等關鍵技術的合理規劃和良好設計.

2.1 系統架構

系統架構是系統中各子系統間的組合方式,屬於大資料計算所共有的關鍵技術,大資料流式計算需要選擇特定的系統架構進行流式計算任務的部署.當前,大資料流式計算系統採用的系統架構[222324]可以分為無中心節點的對稱式系統架構(如S4,Puma等系統)以及有中心節點的主從式架構(如Storm系統):

(1) 對稱式架構.如圖 4所示:系統中各個節點的功能是相同的,具有良好的可伸縮性;但由於不存在中心節點,在資源排程、系統容錯、負載均衡等方面需要通過分散式協議實現.例如,S4通過Zookeeper實現系統容錯、負載均衡等功能;

Fig. 4 Symmetric architecture圖 4 對稱式架構

(2) 主從式系統架構.如圖 5所示:系統存在一個主節點和多個從節點,主節點負責系統資源的管理和任務的協調,並完成系統容錯、負載均衡等方面的工作;從節點負責接收來自於主節點的任務,並在計算完成後進行反饋.各個從節點間沒有資料往來,整個系統的執行完全依賴於主節點控制.

Fig. 5 Master-Slave architecture圖 5 主從式架構
2.2 資料傳輸

資料傳輸是指完成有向任務圖到物理計算節點的部署之後,各個計算節點之間的資料傳輸方式.在大資料流式計算環境中,為了實現高吞吐和低延遲,需要更加系統地優化有向任務圖以及有向任務圖到物理計算節點的對映方式.如圖 6所示,在大資料流式計算環境中,資料的傳輸方式分為主動推送方式(基於push方式)和被動拉取方式(基於pull方式)[242526]:

Fig. 6 Transformation of data stream圖 6 資料流傳輸方式

(1) 主動推送方式.在上游節點產生或計算完資料後,主動將資料傳送到相應的下游節點,其本質是讓相關資料主動尋找下游的計算節點,當下遊節點報告發生故障或負載過重時,將後續資料流推送到其他相應節點.主動推送方式的優勢在於資料計算的主動性和及時性,但由於資料是主動推送到下游節點,往往不會過多地考慮到下游節點的負載狀態、工作狀態等因素,可能會導致下游部分節點負載不夠均衡;

(2) 被動拉取方式.只有下游節點顯式進行資料請求,上游節點才會將資料傳輸到下游節點,其本質是讓相關資料被動地傳輸到下游計算節點.被動拉取方式的優勢在於下游節點可以根據自身的負載狀態、工作狀態適時地進行資料請求,但上游節點的資料可能未必得到及時的計算.

大資料流式計算的實時性要求較高,資料需要得到及時處理,往往選擇主動推送的資料傳輸方式.當然,主動推送方式和被動拉取方式不是完全對立的,也可以將兩者進行融合,從而在一定程度上實現更好的效果.

2.3 程式設計介面

程式設計介面是方便使用者根據流式計算的任務特徵,通過有向任務圖來描述任務內在邏輯和依賴關係,並程式設計實現任務圖中各節點的處理功能.使用者策略的定製、業務流程的描述和具體應用的實現,需要通過大資料流式計算系統提供的應用程式設計介面.良好的應用程式設計介面可以方便使用者實現業務邏輯,可以減少使用者的程式設計工作量,並降低使用者系統功能的實現門檻[272829].

當前,大多數開源大資料流式計算系統均提供了類似於MapReduce的類MR使用者程式設計介面.例如:Storm提供Spout和Bolt應用程式設計介面,使用者只需要定製Spout和Bolt的功能,並規定資料流在各個Bolt間的內在流向,明確資料流的有向無環圖,其他具體細節的實現方式使用者不需要太多關心,即可滿足對流式大資料的高效、實時計算;也有部分大資料流式計算系統為使用者提供了類SQL的應用程式設計介面,並給出了相應的元件,便於應用功能的實現;StreamBase系統不僅為使用者提供了類SQL的應用程式設計介面來描述計算過程,也藉助圖形化使用者視窗為使用者提供了豐富的元件.

2.4 高可用技術

大資料批量計算將資料事先儲存到持久裝置上,節點失效後容易實現資料重放;而大資料流式計算對資料不進行持久化儲存.因此,批量計算中的高可用技術不完全適用於流式計算環境,需要根據流式計算新特徵及其新的高可用要求,有針對性地研究更加輕量、高效的高可用技術和方法.

大資料流式計算系統高可用是通過狀態備份和故障恢復策略實現的.當故障發生後,系統根據預先定義的策略進行資料的重放和恢復.按照實現策略,可以細分為被動等待(passive standby)、主動等待(active standby)和上游備份(upstream backup)這3種策略[3031323334]:

(1) 被動等待策略

圖 7所示:主節點B進行資料計算,副本節點B¢處於待命狀態,系統會定期地將主節點B上的最新的狀態備份到副本節點B¢上.出現故障時,系統從備份資料中進行狀態恢復.被動等待策略支援資料負載較高、吞吐量較大的場景,但故障恢復時間較長,可以通過對備份資料的分散式儲存縮短恢復時間.該方式更適合於精確式資料恢復,可以很好地支援不確定性計算應用,在當前流式資料計算中應用最為廣泛.

Fig. 7 Passive standby圖 7 被動等待策略

(2) 主動等待策略

圖 8所示:系統在為主節點B傳輸資料的同時,也為副本節點B¢傳輸一份資料副本.以主節點B為主進行資料計算,當主節點B出現故障時,副本節點B¢完全接管主節點B的工作,主副節點需要分配同樣的系統資源.該種方式故障恢復時間最短,但資料吞吐量較小,也浪費了較多的系統資源.在廣域網環境中,系統負載往往不是過大時,主動等待策略是一個比較好的選擇,可以在較短的時間內實現系統恢復.

Fig. 8 Active standby圖 8 主動等待策略

(3) 上游備份策略

圖 9所示:每個主節點均記錄其自身的狀態和輸出資料到日誌檔案,當某個主節點B出現故障後,上游主節點會重放日誌檔案中的資料到相應副本節點Bspan lang="EN-US" style='font-family:Symbol' xml:lang="EN-US">¢中,進行資料的重新計算.上游備份策略所佔用的系統資源最小,在無故障期間,由於副本節點B¢保持空閒狀態,資料的執行效率很高.但由於其需要較長的時間進行恢復狀態的重構,故障的恢復時間往往較長.如當需要恢復時間視窗為30分鐘的聚類計算,就需要重放該30分鐘內的所有元組.可見,對於系統資源比較稀缺、運算元狀態較少的情況,上游備份策略是一個比較好的選擇方案.

Fig. 9 Upstream backup圖 9 上游備份策略

表 3從5個方面詳細對比了上述3種高可用策略,實際應用中可以根據具體環境進行選擇.

Table 3 Contrast of three high availability strategies表 3 3種高可用策略對比
2.5 其他關鍵技術

此外,大資料流式計算系統也離不開其他相關關鍵技術的支援,包括:

· 系統故障恢復.快速地實現從故障狀態到一種正確狀態的恢復,滿足系統的高效執行需求;

· 系統資源排程.實現對系統中資源的最佳利用,提高資源的利用率,保證任務的完成和能耗的節省;

· 負載均衡策略.實現對系統中的任務的動態、合理的分配,動態適應系統負載情況,保證系統中的任務均衡和穩定地執行;

· 資料在任務拓撲中的路由策略.促進系統中負載均衡策略的高效實現、資料的合理流動及快速處理.

3 系統例項分析

現有的大資料流式計算系統例項有Twitter的Storm系統[35]、Yahoo的S4(simple scalable streaming system)系統[36]、Facebook的Data Freeway and Puma系統[37]、Linkedin的Kafka系統[38]、Microsoft的TimeStream系統[39]、Hadoop之上的資料分析系統HStreaming[40]、IBM的商業流式計算系統StreamBase[41]、Berkeley的互動式實時計算系統Spark[42] 、專門進行復雜事件處理(complex event processing,簡稱CEP)的Esper[43]系統等.本文選擇當前比較典型的、應用較為廣泛的、具有代表性的前5款大資料流式計算系統進行例項分析.

3.1Storm系統

Storm[

相關推薦

資料計算關鍵技術系統例項

雲端計算、物聯網、移動互連、社交媒體等新興資訊科技和應用模式的快速發展,促使全球資料量急劇增加,推動人類社會邁入大資料時代[1,2,3,4].一般意義上,大資料是指利用現有理論、方法、技術和工具難以在可接受的時間內完成分析計算、整體呈現高價值的海量複雜資料集合.大資料呈現出多種鮮明特徵[3, 4, 5, 

資料計算 storm 基礎

一、目標 分清流式計算和批量計算各自的適用場景 使用storm開發流式計算程式 知道流式計算中時效性和正確性的取捨 二、storm是什麼? 開源的、分散式、流式計算系統 三、分散式起源 資料量大+增長太快–>分散式

資料等最核心的關鍵技術32個演算法

奧地利符號計算研究所(Research Institute for Symbolic Computation,簡稱RISC)的Christoph Koutschan博士在自己的頁面上釋出了一篇文章,提到他做了一個調查,參與者大多數是電腦科學家,他請這些科學家投票選出最重要

資料處理的利與弊

  Laxcus大資料管理系統2.0版本推出有兩個多月了,最近做了一次使用情況調查,發現最受歡迎的竟是流式處理。這大大出乎我們推出新版本時的預料。因為當時新版本推出時,流式處理只是做為磁碟資料處理的一

計算--實戰(日誌監控系統

1.日誌監控系統           資料的流向:flume+kafka+storm+mysql     資料流程如下: 應用程式使用log4j產生日誌 部署flume客戶端監控應用程式產生的日誌資

年薪百萬資料開發工程師講解零基礎怎麼系統學習資料

大資料技術是指從各種各樣型別的巨量資料中,快速獲得有價值資訊的技術。解決大資料問題的核心是大資料技術。零基礎怎麼系統學習大資料?首先我們先了解一下什麼是大資料。 "大資料"是一個體量特別大,資料類別特別大的資料集,並且這樣的資料集無法用傳統資料庫工具對其內容進行

資料學習storm計算

       Storm是一個分散式的、高容錯的實時計算系統。Storm適用的場景:   1、Storm可以用來用來處理源源不斷的訊息,並將處理之後的結果儲存到持久化介質中。   2、由於Storm的處理元件都是分散式的,而且處理延遲都極低,所以可以Storm可以做為

計算形態下的資料分析

1 介 紹 1.1 流式計算介紹 流式大資料計算主要有以下特徵: 1)實時性。流式大資料不僅是實時產生的,也是要求實時給出反饋結果。系統要有快速響應能力,在短時間內體現出資料的價值,超過有效時間後資料的價值就會迅速降低。 2)突發性。資料的流入速率和順序並不確定,甚至會有較大的差異。這要求系統要有較高

資料處理系統都有哪些?(計算系統)

我們在上一篇文章中給大家介紹了批處理系統以及迭代計算系統。這兩種方法都是比較抽象的,我們在這篇文章中給大家介紹一種Facebook經常使用的流式計算系統,希望這篇文章能夠給大家帶來幫助。 流式計算系統就是因為流式計算具有很強的實時性,需要對應用源源不斷產生的資料實時進行處理,使資料不積壓、不丟失,常用於

資料和雲端計算技術週報(第8期):NoSQL特輯

寫在第8期特輯 “大資料” 三個字事實上是個marketing語言,從技術角度看,包括範圍非常廣。計算、儲存、網路都涉及。 為了滿足眾多同學學習和工作的須要。後面社群依據情況逐漸推出專門的分類集錦。希望大家喜歡! 究竟什麼是NoSQL?公眾號一系列

資料綜合技術升級改造傳統專案Wifi 偵測系統例項

對於初學者和大資料開發來講,很想了解大資料技術在真實專案中的運用,以及如何根據具體業務場景來技術選型,但是網上相關的文章少且質量不好。 本次 Chat 根據本人真實參與負責的一個專案,從需求分析、技術選型到開發,來講解大資料技術是如何應用到專案中去。另外本場 Chat 也在講大資料技術來升級改造傳統

計算--storm3(Storm單詞技術案例)

    功能說明:設計一個topology,來實現對文件裡面的單詞出現的頻率進行統計。本篇部落格是在storm概念講解和storm叢集搭建的基礎上來的   1.建立一個maven專案:         新增以來如下:  <dependency>

資料親和架構--計算

       關於計算有很多名詞,比如實時計算、分散式計算,以及這裡提到流式計算等等。他們是從計算形勢的不同維度來描述,不必爭議孰優孰劣。流式計算主要從資料的形態來定義的一種計算方式,顧名思義,這種資料如流水一般,沒有終點。一個有

資料和雲端計算技術週報(第83期)

大資料” 三個字其實是個marketing語言,從技術角度看,包含範圍很廣,計算、儲存、網路都涉及,知識點廣、學習難度高。      本期會給大家奉獻上精彩的:神經網路、HBase、Hive、spark、推薦系統、MangoDB、AIops。全是乾貨

資料和雲端計算技術週報(第72期)

大資料” 三個字其實是個marketing語言,從技術角度看,包含範圍很廣,計算、儲存、網路都涉及,知識點廣、學習難度高。      本期會給大家奉獻上精彩的:MongoDB、YARN 、mysql、實時流、Kakfa 、推薦系

資料和雲端計算技術週報(第71期)

大資料” 三個字其實是個marketing語言,從技術角度看,包含範圍很廣,計算、儲存、網路都涉及,知識點廣、學習難度高。      本期會給大家奉獻上精彩的:MongoDB、大資料 、網路安全、實時流、搜尋與推薦 、騰訊架構、

資料和雲端計算技術週報(第76期)

大資料” 三個字其實是個marketing語言,從技術角度看,包含範圍很廣,計算、儲存、網路都涉

資料和雲端計算技術週報(第9期)

寫在第9期週報堅持是一種品格!社群祝大家新年快樂!“大資料” 三個字其實是個marketing語

資料和雲端計算技術》社群2018成績單

2018漸行漸遠,《大資料和雲端計算技術》社群感謝有你的一路陪伴!回望2018,社群也總結總結2018的成績單,期待新的2019。 一、週報 《大資料和雲端計算技術週報》最早從17年開始只是打算堅持半年試一試。沒有想到一整年我們風雨無阻,節假日不打烊。一直從2018.1.

資料和雲端計算技術週報(第74期)

大資料” 三個字其實是個marketing語言,從技術角度看,包含範圍很廣,計算、儲存、網路都涉