顛覆大資料分析之RDD的表達性

阿新 • • 發佈：2018-12-23

顛覆大資料分析之RDD的表達性

譯者：黃經業購書

正如前面在比較Spark及DSM系統時所提到的，由於RDD只支援粗粒度的操作，因此它有一定的侷限性。但是RDD的表達性對於大多數程式而言其實已經足夠好了。AMPLabs團隊他們僅花了數百行程式碼就開發出了整個Pregel，這是Spark上的一個小的庫。可以通過RDD及相關的操作來表示的叢集計算模型列舉如下：

Map-Reduce：如果存在混合器的話，這個可以使用RDD上的flatMap和reduceByKey操作來表示。簡單點的話可以表示成flatMap和groupByKey操作。運算子則對應於Spark中的轉換操作。
DryadLINQ:DryadLINQ(Yu等2008)通過結合了宣告性及指令式程式設計提供了MR所沒有的操作。大多數操作符都能對應上Spark中的轉換操作。Dryad中的apply結構就類似於RDD的map轉換，而Fork結構則類似於flatMap轉換。

整體同步並行（BSP）：Pregel (Malewicz等 2010)中的計算由一系列稱為超步驟的迭代所組成。圖中的每個頂點都關聯上一個使用者定義的計算函式;Pregel會確保在每一個超步驟中，使用者定義的函式都會並行地在每一條邊上執行。頂點可以通過邊來發送訊息並與其它的頂點互動資料。同樣的，還會有一個全域性的柵欄——當所有的計算函式都終止的時候它就會向前移動。熟悉BSP的讀者可能會知道，Pregel是一個完美的BSP的典範——一組實體在並行地計算使用者定義的函式，它們有全域性的同步器並可以交換訊息。由於同一個使用者函式會作用於所有的頂點，這種情況可以這樣實現，將所有頂點儲存在一個RDD中並在上面執行flatMap操作來生成一個新的RDD。把它和跟頂點的RDD連線到一塊，這樣就可以實現訊息傳遞了。

迭代式Map-Reduce：HaLoop專案也同樣擴充套件了Hadoop來支援迭代式機器學習演算法。HaLoop不僅為迭代式應用提供了程式設計抽象，同時它還用到了快取的概念來在迭代間進行資料共享和固定點校驗（迭代的終止）以便提升效率。Twister (Ekanayake等2010)是另一個類似HaLoop的嘗試。這些在Spark中都可以很容易實現，因為它本身非常容易進行迭代式計算。AMPLabs團隊實現HaLoop僅花了200行程式碼。

顛覆大資料分析之RDD的表達性

顛覆大資料分析之RDD的表達性譯者：黃經業購書正如前面在比較Spark及DSM系統時所提到的，由於RDD只支援粗粒度的操作，因此它有一定的侷限性。但是RDD的表達性對於大多數程式而言其實已經足夠好了。AMPLabs團隊他們僅花了數百行程式碼就開發出了整個Pregel，這是Spark

顛覆大資料分析之實時分析的應用

顛覆大資料分析之實時分析的應用譯者：吳京潤購書在這一節，我們將看到構建兩個應用的步驟：一個工業日誌分類系統和一個網際網路流量過濾應用。工業日誌分類隨新舊生產工程系統的自動化以及電子工程的發展，大量的機器之間（M2M）的資料正在被生成出來。機器之間的資料可以來自多個不同的源頭，包

顛覆大資料分析之Shark：分散式系統上的SQL介面

顛覆大資料分析之Shark：分散式系統上的SQL介面譯者：黃經業購書記憶體計算已經成為了海量資料分析的一個重要正規化。這一點可以從兩個方面來進行理解。一方面，儘管當要查詢的資料達到了PB級，但是由於時間和空間的侷限性，在一個叢集環境上僅需64GB的快取就能夠滿足絕大多數的查詢（95

顛覆大資料分析之類似Spark的系統

顛覆大資料分析之類似Spark的系統譯者：黃經業購書 Nectar (Gunda 等2010)，HaLoop (Bu 等2010)，以及Twister(Ekanayake等2010)都是類似於Spark的系統。HaLoop是修改後的Hadoop，它增加了一個支援迴圈的任務排程器以及一

超越Hadoop的大資料分析之圖形處理尺寸

另一個來自Google的重要工具，看起來超越了Hadoop MR——Pregel框架實現了圖形計算（Malewicez et al.2010）。在Pregel中的計算是由一系列迭代組成的，被稱為supersteps。圖上的每個頂點都與一個使用者定義的計算函式相關聯；Pregel確保每個sup

超越Hadoop的大資料分析之致謝

首先，我要衷心感謝Vineet Tyagi、AVP和Impetus的創新實驗室主管。Vineet對我幫助很大，並促使我寫這本書。在6、7月份，每個工作日他給我3個小時的時間寫作本書，這是幫助我完成本書的關鍵。任何學術活動都要專門花費很多時間——這時候就得加倍努力，因為我必須在工作之餘寫作。V

超越Hadoop的大資料分析之第一章介紹：為什麼超越Hadoop Map-Reduce

本文翻譯自《BIG DATA ANALYTICS BEYOND HADOOP》譯者：吳京潤譯者注：本文是本書第一章的開頭，第一章其它部分由其他人翻譯。你可能是一個視訊服務提供商，而你想基於網路環境動態的選擇合適的內容分發網路來優化終端使用者的體驗。或者你是一個政府監管機構，需要為網際網路頁

超越Hadoop的大資料分析之前言

我試圖給人們學習大資料留下的一點深刻印象：儘管Apache Hadoop很有用，而且是一項非常成功的技術，但是這一觀點的前提已經有些過時了。考慮一下這樣一條時間線：由谷歌實現的MapReduce投入使用的時間可追溯到2002年，發表於2004年。Yahoo!於2006年發起Hadoop專案。

大資料分析之視覺化平臺superset簡介

1.Superset簡介 • Superset是Airbnb開源的資料探勘平臺 • Github地址：https://github.com/airbnb/superset

spark快速大資料分析之讀書筆記-flatmap與map的區別

以前總是分不清楚spark中flatmap和map的區別，現在弄明白了，總結分享給大家，先看看flatmap和map的定義。 map()是將函式用於RDD中的每個元素，將返回值構成新的RDD。 flatmap()是將函式應用於RDD中的每個元素，將返回的迭代器的所有內

大資料分析之美國人結婚的年齡

何時結婚以下是關於美國人何時結婚人們一般在不同的年齡結婚，但是這裡對不同人口群體有不同的顯示趨勢，你可能正在經歷結婚年齡段，要麼通過你自己的結婚年齡，要麼突然的意識到每個你身邊的人看起來似乎已經結婚，而且時光不錯！那麼這些趨勢看起來像什麼呢？不同種族的人們

大資料分析之聚類演算法

資料分析之聚類演算法 1. 什麼是聚類演算法所謂聚類，就是比如給定一些元素或者物件，分散儲存在資料庫中，然後根據我們感興趣的物件屬性，對其進行聚集，同類的物件之間相似度高，不同類之間差異較大。最

5-大資料分析之 druid 介紹

Druid (大資料實時統計分析資料儲存) 摘要 Druid是一個為在大資料集之上做實時統計分析而設計的開源資料儲存。這個系統集合了一個面向列儲存的層，一個分散式、shared-nothing的架構，和一個高階的索引結構，來達成在秒級以內對十億行級別

大資料分析學習之路

一、大資料分析的五個基本方面二、如何選擇適合的資料分析工具三、如何區分三個大資料熱門職業四、從菜鳥成為資料科學家的 9步養成方案五、從入門到精通——快速學會大資料分析推薦下小編的大資料學習群；

跟我一起學Spark之——《Spark快速大資料分析》pdf版下載

連結：https://pan.baidu.com/s/1vjQCJLyiXzIj6gnCCDyv3g 提取碼：ib01 國慶第四天，去逛了半天的王府井書店，五層出電梯右邊最裡面，倒數第三排《資料結構》，找到了一本很不錯的書《Spark快速大資料分析》，試讀了下，我很喜歡，也很適合

未明學院資料分析報告：漫威之父斯坦· 李走了，大資料分析他的“漫威宇宙”

2018年，很多英雄走了。繼金庸離我們而去，美國漫畫界元老級人物斯坦·李於當地時間週一（12日）在好萊塢一家醫療中心去世，享年95歲。 “漫威宇宙就此終結，如江湖失去金庸。”對於超級英雄粉絲來說，這是一個痛心的訊息。今天，小編邀請未明的老師，同時也是超級英雄的超級粉絲，盤點了漫威系列

大資料分析技術與實戰之 Spark Streaming

Spark是基於記憶體的大資料綜合處理引擎，具有優秀的作業排程機制和快速的分散式計算能力，使其能夠更加高效地進行迭代計算，因此Spark能夠在一定程度上實現大資料的流式處理。隨著資訊科技的迅猛發展，資料量呈現出爆炸式增長趨勢，資料的種類與變化速度也遠遠超出人們的想象，因此人們對大資料處理提出了

大資料學習之路80-RDD的儲存級別

前面我們說過如果我們想提高spark RDD的執行效率的話，我們可以將常用的RDD cache到記憶體中這樣我們用的話就可以直接拿，執行的效率也會快很多，當然這個cache如果不釋放就會一直佔用記憶體的空間。兩次執行rdd2.count的速度明顯不一樣，第二次的速度會

大資料課程之JPS 分析0926

jps(Java Virtual Machine Process Status Tool)是JDK1.5提供的一個顯示當前所有java程序pid的命令，簡單實用，非常適合在linux/unix平臺上簡單察看當前java程序的一些簡單情況。很多人都是用過unix系

大資料學習之路111-大資料專案（中國移動運營資料分析）

業務一：業務二：統計每個省份的充值失敗資料量，並以地圖的方式顯示分佈情況。資料說明：充值的整個過程是包括：訂單建立->支付請求->支付通知->充值請求->充值通知而我們需要處理的就是充值通知部分的資料。而我們的資料中是包

顛覆大資料分析之RDD的表達性

相關推薦