十、spark graphx的scala示例

阿新 • • 發佈：2018-12-09

簡介

spark graphx官網：http://spark.apache.org/docs/latest/graphx-programming-guide.html#overview

spark graphx是基於spark core之上的一個圖計算元件，graphx擴充套件了spark RDD，是spark對於圖計算的一種抽象。

這裡的圖，不是“圖畫”的意思，是一種資料結構。這種資料結構由“點”和“線”組成，拿使用者關係圖來說，“點”描述的就是使用者，“線”描述的就是這些使用者之間的關係，所以由“點”和“線”組成了一張“使用者關係圖”，如圖：

vertex table：點，是由ID和Property屬性組成的，ID必須是Long型別

edge table：線，是由起始ID，終點ID，property屬性組成的，ID也必須為Long型別

property graph：圖，由vertex和edge的資料，就可以構建出一張graph圖資料結構

而spark graphx就是將這種資料結構創建出來，並提供簡單易用的API來操作這個資料結構，如：查詢、轉換、關聯、聚合等

程式碼示例

下面是scala語言的程式碼示例：

import org.apache.spark.graphx.{Edge, Graph}
import org.apache.spark.rdd.RDD
import 
 org.apache.spark.{SparkConf, SparkContext}

/**
  * @Description spark graphx demo
  * @Author lay
  * @Date 2018/12/09 20:19
  */
object SparkGraphxDemo {
  var conf: SparkConf = _
  var sc: SparkContext = _
  var userData: Array[String] = Array("1 lay", "2 marry", "3 gary")
  var relationData: Array[String]  
= Array("1 2 朋友", "1 3 同事", "2 3 姐弟")
  var userRDD: RDD[(Long, String)] = _
  var relationRDD: RDD[Edge[String]] = _

  def init(): Unit = {
    conf = new SparkConf().setAppName("spark graphx demo").setMaster("local")
    sc = new SparkContext(conf)
  }

  def loadRdd(): Unit = {
    userRDD = sc.parallelize(userData).map { x => val lines = x.split(" "); (lines(0).toLong, lines(1)) }
    relationRDD = sc.parallelize(relationData).map { x => val lines = x.split(" "); Edge(lines(0).toLong, lines(1).toLong, lines(2)) }
  }

  def main(args: Array[String]): Unit = {
    // 初始化
    init()
    // 載入rdd
    loadRdd()
    // 建立graph
    var graph = Graph(userRDD, relationRDD)
    // 找出和lay有關係的人
    graph.triplets.filter(x => x.srcId == 1L).foreach{x => printf("%s是%s的%s", x.dstAttr,  x.srcAttr, x.attr);println()}
  }
}

我們將userRDD和relationRDD構建成了一個抽象結構Graph，然後過濾出了和lay有關係的人，並迴圈打印出結果，如下：

marry是lay的朋友
gary是lay的同事

十、spark graphx的scala示例

簡介 spark graphx官網：http://spark.apache.org/docs/latest/graphx-programming-guide.html#overview spark graphx是基於spark core之上的一個圖計算元件，graphx擴充套件了s

十二、spark MLlib的scala示例

簡介 spark MLlib官網：http://spark.apache.org/docs/latest/ml-guide.html mllib是spark core之上的演算法庫，包含了豐富的機器學習的一系列演算法。你可以通過簡單的API來構建演算法模型，然後利用模型來進行預測分析推

二、spark SQL互動scala操作示例

一、安裝spark spark SQL是spark的一個功能模組，所以我們事先要安裝配置spark，參考： https://www.cnblogs.com/lay2017/p/10006935.html 二、資料準備演示操作將從一個類似json檔案裡面讀取資料作為資料來源，並初始化為dat

Spark修煉之道（進階篇）——Spark入門到精通：第十三節 Spark Streaming—— Spark SQL、DataFrame與Spark Streaming

主要內容 Spark SQL、DataFrame與Spark Streaming 1. Spark SQL、DataFrame與Spark Streaming import org.apache.spark.SparkConf import org

spark學習記錄（十二、Spark UDF&UDAF&開窗函式）

一、UDF&UDAF public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.

spark學習記錄（十一、Spark on Hive配置）

新增依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.12</artifa

spark學習記錄（十、SparkSQL）

一、介紹 SparkSQL支援查詢原生的RDD。 RDD是Spark平臺的核心概念，是Spark能夠高效的處理大資料的各種場景的基礎。能夠在Scala中寫SQL語句。支援簡單的SQL語法檢查，能夠在Scala中寫Hive語句訪問Hive資料，並將結果取回作為RDD使用。 D

Hadoop概念學習系列之Hadoop、Spark學習路線（很值得推薦）（十八）

　　不多說，直接上乾貨！說在前面的話　　此筆，對於僅對於Hadoop和Spark初中學者。高手請忽略！ 1 Java基礎：視訊方面：推薦《畢向東JAVA基礎視訊教程》。學習hadoop不需要過度的深入，java學習到javase，在Java虛

# Unity 遊戲框架搭建 2019 (三十四、三十五) 9 ~ 10 示例整理

## 第九個示例目前程式碼如下: ```cs using UnityEngine; #if UNITY_EDITOR using UnityEditor; #endif namespace QFramework { public class ResolutionCheck { #if UNITY_E

二十、二十一天MySql數據庫、jdbc

mysql、jdbc1 數據約束 1.1 簡介給表添加數據約束，從而約束用戶操作表數據的行為。 1.2 默認值約束註意：當前沒有插入默認值字段的時候，默認值才會起作用 -- 1.1 默認值(defaul

十、FTP服務器配置和管理

網絡共享ftp、vsftpd10.1、FTP服務簡介 FTP是Internet上使用非常廣泛的一種通信協議，用於在不同的主機之間進行文件傳輸。Linux系統下常用的FTP服務器軟件包括有wu-ftpd；vsftpd(Very Secure ftp Daemon)；proftpd；pureftpd等。客戶端軟

第十、十一章

說明書規範交互技術邊界條件困難 use case 表達定義第十章典型用戶和場景 1、典型用戶的模版 Persona/典型用戶（1）名字（越自然越好）（2）年齡（不同年齡和收入的用戶有不同的需求）（3）收入（4）代表的用戶在市場上

JavaSE7基礎二、八、十、十六進制的表示方法

深入淺出表示努力 d+ cnblogs log pre png 深入 jdk版本：jdk-7u72-windows-i586系統：Windows7編輯器：Notepad++ v7.4.2註意事項：博文內容僅供參考，不可用於其他用途。代碼 c

處理大數據流常用的三種Apache框架：Storm、Spark和Samza。(主要介紹Storm)

領導 hdf 客戶端 orm 至少 per yar 持續性 apache 處理實時的大數據流最常用的就是分布式計算系統，下面分別介紹Apache中處理大數據流的三大框架: Apache Storm 這是一個分布式實時大數據處理系統。Storm設計用於在容錯和

十、MySQL視圖

mysql視圖數據庫中的視圖是一個虛擬表。同真實的表一樣，視圖包含一系列帶有名稱的行和列數據。行和列數據來自由定義視圖查詢所引用的表，並且在引用視圖時動態生成。10.1、視圖概述視圖是從一個或多個表中導出的，視圖的行為與表非常相似，但視圖是一個虛擬表。在視圖中用戶可以使用SELECT語句查詢，以及使用IN

十、cent OS開啟APR模式報錯：configure: error: Found APR 1.3.9. You need version 1.4.3 or newer installed

config 安裝目錄 prefix org col spa -a you 新版錯誤內容顯示APR的版本過低，需要新版本到http://apr.apache.org/download.cgi#apr1這個地址下載所需要的包apr-1.4.5.tar.gz apr-ic

Linux 入門記錄：十、Linux 下獲取幫助

標準文件格式 windows 調用信息 mac api 文檔 nbsp 一、獲取幫助 Linux 提供了極為詳細的幫助工具和文檔，通過查閱相關文檔，可以大大減少需要記憶的東西並提高效率。二、--help參數幾乎所有命令都可以使用 -h 或 --help

十、內置對象

num 5.1 mic 替換 urn ctf sum style 用戶輸入十、內置對象 ECMA-262對內置對象的定義是：“由ECMAScript實現提供的、不依賴宿主環境的對象，這些對象在ECMAScript程序執行之前就已經存在了。”意思就是說，開發人員不必顯示

Linux 入門記錄：二十、Linux 包管理工具 YUM

倉庫清理 bug entos 需要 tro eat 參數基於組一、YUM（Yellowdog Updater, Modified） 1. yum 簡介 RPM 軟件包形式管理軟件雖然方便，但是需要手動解決軟件包的依賴問題。很多時候安裝一個軟件首先需要安裝 1 個或

二十、事件入門

用戶操作方式三種組成 bmi 一個用戶 mouse fun 二十、事件入門 JavaScript事件是由訪問Web頁面的用戶引起的一系列操作，例如：用戶點擊。當用戶執行某些操作的時候，再去執行一系列代碼。 1.事件介紹　　事件一般是用於瀏覽器和用戶操作進行

十、spark graphx的scala示例

簡介

程式碼示例

相關推薦