spark從複雜的不清晰的關係網路中區分出一個個孤立的關係網路圖

阿新 • • 發佈：2018-12-19

關係資料為 from -> to 的邊

設定資料格式為Long

spark計算關係網路由於資料量過大某些演算法無法實現或實現代價太大

為了降低計算壓力或優化計算方法將整個關係網路中的孤立的，不與其他節點相連的資料關係區分出來，形成一個個小的關係網路圖

實現方法：

( 用圖id 來標識每個關係網路圖)

初始狀態下不知道每個節點所屬網路圖將每個節點的 id 設為他自己所在網路的圖id（Long）通過groupBykey() 聚合方法找到節點所有的連通的節點（只包含自己的圖）將所有的圖中，圖id最小的（也可以最大，用來防止死迴圈）一個圖id 設為自己的圖id 可以獲得一個 (節點id ,圖id )的節點所屬關係網路圖資料集將該資料集通過 join 的方式賦給原始的關係資料得到資料結構為（from：Long, 圖id_1 :Long ）-> (to : Long , 圖id_2 : Long) 的新的關係資料過濾出其中：圖id_1 != 圖id_2 的資料進行下一次迭代多次迭代後,每個節點的圖id 為該節點所在關係網路圖中節點id最小的值，該值即為節點所屬關係網路圖的圖id

程式碼實現：

val edgerdd = **** // (from ,to)結構的關係資料，無向圖

 
var graphIdRdd = edgerdd.reduceByKey((a, b) => if (a < b) a else b)
   
var count = 1
   
while (count != 0) {
   
   //give nodeid a graphid
   val edge_rdd_need_deal = edgerdd.leftOuterJoin(graphIdRdd) //give fromnode a graphId
        .map(a => {
          val from = a._1
          val to = a._2._1
          val fromgraphId = a._2._2.get
          (to, (from, fromgraphId))
        })
        .leftOuterJoin(graphIdRdd)   //give tonode a graphId
        .map(a => {
          val to = a._1
          val from_graphId = a._2._1
          val tographId = a._2._2.get
          (from_graphId, tographId)
        })
        .filter(a => a._1._2 != a._2) // filter the relation which is not changed

      count = edge_rdd_need_deal.count().toInt 

     
      val new_graphIdRdd = edge_rdd_need_deal
        .reduceByKey((a, b) => if (a < b) a else b) //get the neighbors' min graphid
        .map(a => {
          val from = a._1._1
          val from_graphId = a._1._2
          val new_graphId = a._2
          (from, if (from_graphId < new_graphId) from_graphId else new_graphId)
        })     // get the new graphid ,less than the old one

      new_graphIdRdd.count()

      // union the don't be changed node
      graphIdRdd = graphIdRdd.union(new_graphIdRdd).reduceByKey((a, b) => if (a < b) a else b)    
       

    }
    println("all is ok")

(根據需要來快取資料)

spark從複雜的不清晰的關係網路中區分出一個個孤立的關係網路圖

spark從複雜的不清晰的關係網路中區分出一個個孤立的關係網路圖

安裝minikube 0.25，複雜的網路結構，配置中容易出問題，vmware虛擬機器 centos7伺服器

從6730個微信使用者中分析出大家的手機使用習慣

從類似如下的文字檔案中讀取出所有的姓名，並打印出重複的姓名和重複的次數，按重複次數排序: (程式設計，提示:集合)

[chromium][browser][idea][closed] 如何從android4.4.2的chromium_org中編譯出chrome_shell_apk

C語言：從p所指字符串中找出ASCII碼最大的字符，將其放在第一個位置上，並將該字符前的原字符向後順序移動。

閃送，為何能從順豐中殺出一條血路？

MFC+Opencv在單文件程式中顯示出一幅影象

LeetCode(Binary Tree Maximum Path Sum) 在二叉樹中找出一條和最大的路徑

給定一個數組和一個數（該數不一定在陣列中），從數組裡刪掉這個數字，返回剩下的陣列長度。

亞泰主帥:確實不甘心啊從明年開始儘快打回中超

從網路中獲取圖片進行自動輪播

從網路中下載圖片並進行顯示

從網路中下載檔案儲存到SD卡和顯示下載進度

設計一個演算法從數 A[1：n] 中同時找出最大元素和最小元素，只需要不超過 1.5n－2 次比較。

設計一個算法從數 A[1：n] 中同時找出最大元素和最小元素，只需要不超過 1.5n－2 次比較。

從控制中的反饋角度理解迴圈神經網路

java-如何按照URL從網路中下載資源

解決 Hadoop 中從節點不能遠端登入主節點的MySQL資料庫.

Java從網路中請求獲取JSon資料以及解析JSON資料----（自創，請註明）

spark從複雜的不清晰的關係網路中區分出一個個孤立的關係網路圖

相關推薦