1. 程式人生 > >大資料運算系統(2)--- 圖計算系統

大資料運算系統(2)--- 圖計算系統

同步圖運算:訊息傳遞 非同步圖運算:共享記憶體,可以立即看到完成的計算結果 一、同步圖運算系統 1、圖演算法 (1)PageRank Google用於對網頁重要性打分的演算法。
頂點:網頁 邊:超連結 (2)計算方法 初始化:所有頂點的PageRank為1/N 迭代:用公式迭代直至收斂 迭代公式:
Ru:所求u的PageRank Rv:頂點v的PageRank Lv:頂點v的出度(出邊的條數) Bu:頂點u的入鄰居集合 d:damping factor N:總頂點個數 (3)出現問題 由於N很大,造成的資料精度可能不夠。 所以Ru’=NRu
改進演算法計算方法: 初始化:所有頂點的PageRank為1 迭代:用新公式迭代直至收斂 新的迭代公式:

Ru:所求u的PageRank*N Rv:頂點v的PageRank*N Lv:頂點v的出度(出邊的條數) Bu:頂點u的入鄰居集合 d:damping factor N:總頂點個數 2、同步圖運算 (1)圖計算模型 運算分成多個超步。 超步內,並行執行每個頂點。 超步間,全域性同步。 頂點演算法通常步驟: 接收上個超步發出的in-neighbor的訊息。 計算當前頂點的值。 向out-neighbor發訊息。  (2)圖計算模型的特點 特點1:BSP模型  Bulk Synchronous Processing
特點2:基於頂點的程式設計模型   每個頂點有一個value。 頂點為中心的運算:程式設計師實現一個compute函式。在每個超步中,同步圖系統對每一個頂點呼叫一次Compute。Compute通常接收訊息,計算,傳送訊息。 (3)圖計算如何結束 頂點有兩種狀態: 活躍態:圖系統只對活躍頂點呼叫Compute;頂點初始狀態均為活躍態。 非活躍態:Compute呼叫Vote to halt時,頂點變為非活躍態;非活躍態的頂點也可以重新變為活躍態。 當所有的頂點處於非活躍狀態時,圖系統結束本次圖運算。 3、圖計算程式設計
GraphLite程式設計 實現class Vertex的一個子類 class Vertex中有兩類函式: (1)圖計算程式設計師需要實現的:Compute() (2)系統提供的,可以在Compute呼叫的。例如: getValue(),mutableValue(), getOutEdgeIterator(),sendMessageTo(),sendMessageToAllNeighbors(), voteToHalt() superstep():獲取當前超步數:從0開始計數 acculate(),getAggregate():全域性統計量 4、系統實現 master worker 每個worker對應一個graph partition。 5、小結
基於BSP模型實現同步圖運算 運算在記憶體中完成 容錯依靠定期地把圖狀態寫入硬碟生成檢查點:在一個超步開始時,master可以要求所有的worker都進行檢查點操作。 可以比較容易地表達一些圖操作 二、非同步圖運算系統 可以用來實現一些機器學習演算法。允許不同的頂點有不同的更新速度;一個頂點的更新,它的鄰居頂點立即可見,而不是等到下一個超步開始。從而可以更快讀地收斂。 1、資料模型 (1)Data graph G=(V,E)  每個頂點、每條邊都可以有資料D (2)全域性資料表(SDT,shared data table) SDT[key] -> value 可以定義全域性可見的資料 2、計算過程 Dscopev = update(Dscopev;  SDT) update:類似compute,程式設計師定義的頂點運算 Dscopev:頂點運算設計的範圍。包括頂點v,v的相鄰邊,v的相鄰頂點。

相關推薦

資料運算系統2--- 計算系統

同步圖運算:訊息傳遞 非同步圖運算:共享記憶體,可以立即看到完成的計算結果 一、同步圖運算系統 1、圖演算法 (1)PageRank Google用於對網頁重要性打分的演算法。 頂點:網頁 邊:超連結 (2)計算方法 初始化:所有頂點的PageRank為1/N 迭代:

資料儲存:資料運算系統2--- 計算系統

目錄一、同步圖計算1.圖演算法2.同步圖計算3.系統實現二、非同步圖計算1.資料模型2.計算過程(本文為陳世敏老師課程筆記)-------------------------------------------同步圖運算:訊息傳遞非同步圖運算:共享記憶體,可以立即看到完成的計

Java和資料結合學習2

抽象類 1.abstract宣告; 為什麼介面的物件可以指向例項化物件呢? 介面 1.介面不能例項化,但是介面的物件可以指向實現類的物件。 2.介面內的方法預設為public abstract,所以不能被例項化, 3.介面其實就是為了實現多繼承

資料學習總結 分散式Hadoop系統

Scala tips:在前面的類層次結構圖中可以看到,Null型別是所有AnyRef型別的子型別,也即它處於AnyRef類的底層,對應java中的null引用。而Nothing是scala類中所有類的子類,它處於scala類的最底層。     近期投入大資料組工作,就寫一

資料離線---網站日誌流量分析系統2---資料獲取和預處理

本次接上一篇,進行實際資料的獲取和預處理,會有較多的程式碼內容 資料的獲取 資料的預處理 資料的獲取 需求 資料採集的需求廣義上來說分為兩大部分。 是在頁面採集使用者的訪問行為,具體開發工作: 1、 開發頁面埋點 js,採集使用者訪問行為 2、 後臺接受

資料結構——2——的儲存和表示方式.md

圖的儲存方式 在實踐中,圖最常見的策略是: 將每個節點的連線儲存在鄰接列表中。 將整個圖形的連線儲存在鄰接矩陣中。 用鄰接連結串列來表示圖之間的關係 在圖中表示連線的最簡單方法是在每個節點的資料結構中儲存與其連線的節點的列表。該結構稱為鄰接列表。 例如

倒計時 2 天,2018 中國資料技術大會BDTC報名通道即將關閉附參會提醒...

2018 年12 月 6-8 日,由中國計算機學會主辦,CCF大資料專家委員會承辦,CSDN、中科天璣資料科技股份有限公司協辦的 2018 中國大資料技術大會(BDTC),攜主題“大資料新應用”再度強勢來襲,直擊大資料學習發展中的痛點與瓶頸,深入解析熱門技術在行業中的實踐和落地。

資料儲存:資料儲存系統1--- 分散式檔案系統

分散式檔案系統一、分散式系統概念(1)分散式系統型別:Client/Server、P2P(Peer-to-Peer)、Master/Worker(2)故障模型(Failure Model):Fail stop:出現故障時,程序停止/崩潰Fail slow:出現故障時,執行速度

資料儲存系統1--- 分散式檔案系統

分散式檔案系統 一、分散式系統概念 (1)分散式系統型別: Client/Server、P2P(Peer-to-Peer)、Master/Worker (2)故障模型(Failure Model): Fail stop:出現故障時,程序停止/崩潰 Fail slow:出現故

雇員信息管理系統2管理員數據庫登錄

meta local echo connect 文件的 col orm com span 運行結果如下:   登錄頁面loginview.php。   按下登錄按鈕,跳轉到登錄處理頁面loginview.phploginprocess.php,進行數據庫查詢後,登錄失

C# 《四》表達式和運算2

技術分享 -a 按位運算 表達式 其他 img 數學 tro .cn 1、位運算符 1、位(bit):在計算中存儲所有數據都采用二進制,那麽二進制的位,便是我們所說的 bit。 1)1Byte = 8bit 1字節 = 8位 2)1k =10

130242014019-2-“電商系統某功能模塊”需求分析與設計實驗課小結

img 商品 歷史記錄 模型 需求分析 今天 ges 關鍵字搜索 識別 1)選題討論 今天主要討論的是電商系統中某一個功能模塊的分析,一個電商系統中有很多個功能模塊,如搜索、登錄、購物車等等。我們組選取了其中的最經常使用的搜索功能進行討論。 2)用戶故事討論 1.用戶可

1302420140302“電商系統某功能模塊”需求分析與設計實驗課小結

img .com http 二級 電商系統 src 意義 感覺 用戶   這次課老師為了讓我們更加理解敏捷開發,特意請來了王經理給我們介紹。王經理通過讓我們分組,以小組的方式來體驗一下敏捷開發。   分組才用了報數,數字相同的為一組。小組裏沒有明確的分工,大家一起討論,再由

1302420140672“電商系統購物車功能模塊”需求分析與設計實驗課小結

京東 blog 每次 有一個 並且 小結 應該 快速 後臺 1)分組情況介紹,小組分工合作情況介紹。 陳鋒、劉鑫(用戶故事的細化,即功能設計) 高忠傑、羅成龍(參與系統的類圖設計及上臺匯報) 顏貴榮、李清燦(參與用戶故事的討論與設計) 王紹華、丁天奇、林偉領(參與系統的類圖

130242014014-2-“電商系統商品詳情模塊”需求分析與設計

說明 團隊 eight 部分 展開 關於 工作 要求 技術 1、描述課程的小組討論工作的內容,要求以下每個小點都要分成情況介紹、老師點評、點評後的修改、心得體會和經驗總結幾個方面來展開。 小結內容,必須包含且不限於以下內容(格式和行文風格不限制): 1)分組情況介紹,小組分

京東金融大數據競賽豬臉識別2- 像特征提取之一

圖像特征提取 文件夾遍歷 圖像識別進入深度學習時代後,特征提取這個詞的使用頻率明顯下降了。因為深度網絡已經完成了從圖像輸入到分類結果輸出的全過程,似乎不需要再關心特征的好壞和特征提取對於識別結果的影響。不過,不管從算法研究還是工程實現角度看,將特征提取獨立出來應該更有利。這樣我們可以對各種特征提取方法

python像處理2像水印和PIL模式轉化

tex 我們 參考 height rom 設置 分享 show pen 模式轉化: PIL模式轉化:將圖片轉化成其他模式 1 # 我們將image圖像轉化為灰度圖像(python) 2 from PIL import Image 3 img = Image.open

【ADNI】資料預處理2獲取 subject slices

ADNI Series 1、【ADNI】資料預處理(1)SPM,CAT12 2、【ADNI】資料預處理(2)獲取 subject slices 3、【ADNI】資料預處理(3)CNNs 4、【ADNI】資料預處理(4)Get top k slices according to CNN

斯坦福大學-自然語言處理入門 筆記 第二十一課 問答系統2

一、問答系統中的總結(summarization) 目標:產生一個摘要文字包含那些對使用者重要和相關的資訊 總結的應用領域:任何文件的摘要和大綱,郵件摘要等等 根據總結的內容,我們可以把總結分為兩類: 單文件總結:給出一個單一文件的摘要、大綱、標題

資料重新定義未來,2018 中國資料技術大會BDTC豪華盛宴搶先看!

隨著資訊科技的迅猛發展,資料的重要性和價值已毋庸置疑,資料正在改變競爭格局,成為重要的生產因素,更被定義為“21世紀的新石油”。在資訊高速傳播的今天,資料已經滲透到每一個行業和業務職能領域,指數級的速度增長將我們帶入大資料時代。作為年度技術趨勢與行業應用的風向標,2018 中國大資料技術大會(BDT