BigData_A_A_03-YARN-資源管理和任務排程（2）共同好友(spark)

阿新 • • 發佈：2018-12-31

楔子

最近看了hadoop求共同好友，也瞭解一些spark基本程式設計，感覺思路一致，可以試試spark

demo

是否是直接好友,因為存在這種情況，他倆是直接好友，但是他倆同時也是別人的間接好友，這種情況排除,因此兩次flatMap,第二次就是為了排除第一次中包含的他倆是直接好友的情況，但是這種存在一個問題，排除使用的是集合的操作，如果資料量大，可能有問題。

程式碼位置

import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

import org. 
apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.storage.StorageLevel;

import cn.sxt.config.HadoopConfig;
import cn.zhuzi.spark.official. 
SparkUtils;
import scala.Tuple2;

public class SparkFof {
	public static void main(String[] args) {

		JavaSparkContext jsContext = SparkUtils.getJavaSparkContext();

		JavaRDD<String> textFile = jsContext.textFile(HadoopConfig.getInputPath("data/sxt/friend"));
		textFile.persist(StorageLevel.MEMORY_AND_DISK_SER 
());
		JavaRDD<String> flatMap = textFile.flatMap(new FlatMapFunction<String, String>() {
			@Override
			public Iterator<String> call(String t) throws Exception {
				ArrayList<String> resuList = new ArrayList<String>();
				String[] split = t.split(" ");
				// 此處只是給 一個人的共同好友佩對 比如 tom hello hadoop cat
				// 就輸出 hello:hadoop ,hello:cat ,hadoop:cat ,
				// 然後 按照 Wordcount 那樣求和 此處出現 一個問題，
				// TODO 這樣計算過程中，他倆是別人的好友，可能儲存在他倆是直接好友
				for (int i = 1; i < split.length; i++) {
					for (int j = i + 1; j < split.length; j++) {
						resuList.add(FofMapper.friends(split[i], split[j]));
					}
				}
				return resuList.iterator();
			}
		});
		// 直接好友
		JavaRDD<String> flatMapFriend = textFile.flatMap(new FlatMapFunction<String, String>() {
			@Override
			public Iterator<String> call(String t) throws Exception {
				ArrayList<String> resuList = new ArrayList<String>();
				String[] split = t.split(" ");
				for (int i = 1; i < split.length; i++) {
					resuList.add(FofMapper.friends(split[i], split[0]));
				}
				return resuList.iterator();
			}
		});
		ArrayList<String>list =new ArrayList<String>(flatMap.collect()) ;// flatMap的集合不可修改
		ArrayList<String> collect2 = new ArrayList<String>(flatMapFriend.collect());
		list.removeAll(collect2);
		// flatMap中藥排除他倆是直接好友
		JavaRDD<String> parallelize = jsContext.parallelize(list);
		JavaPairRDD<String, Integer> mapToPair = parallelize.mapToPair(t -> new Tuple2<String, Integer>(t, 1));
		// 分組聚合
		JavaPairRDD<String, Integer> res = mapToPair.reduceByKey((a, b) -> a + b);
		List<Tuple2<String, Integer>> collect = res.collect();
		for (Tuple2<String, Integer> tuple2 : collect) {
			System.out.println(tuple2);
		}
		jsContext.close();

	}
}

BigData_A_A_03-YARN-資源管理和任務排程（2）共同好友(spark)

楔子最近看了hadoop求共同好友，也瞭解一些spark基本程式設計，感覺思路一致，可以試試spark demo 是否是直接好友,因為存在這種情況，他倆是直接好友，但是他倆同時也是別人的間接好友，這種情況排除,因此兩次flatMap,第二次就是為了排除第一

BigData_A_A_03-YARN-資源管理和任務排程（2）共同好友(hadoop)

楔子 hadoop 統計共同好友 demo 思路是兩次遍歷，按照他倆是不是直接好友，如果是直接好友，輸出 key(friendA + “:” + friendB) value(0) 如果他倆是同一個人的好友輸出 key(friendA + “:”

BigData_A_A_03-YARN-資源管理和任務排程（1）

楔子計算每個月溫度最高的2天 data 資料 code https://github.com/qianlicao51/hd/tree/master/src/main/java/cn/sxt/day1/hdfs/weather 比較時使用了 apa

YARN資源管理和排程簡介

1、執行在YARN上的MapReduce應用程式 2、執行在YARN上的Storm應用程式 3、YARN應用程式基本構成 ①客戶端：主要作用是提供一系列訪問介面供使用者與YARN互動，包括提交Application、查詢Application執行狀態，修改Appli

SQL Server性能調優：資源管理之內存管理篇（上）

方式 hive 服務 ces inpu 都是功能一個 type http://www.cnblogs.com/caspnet/archive/2011/02/21/1959539.html 對SQL Server來說，最重要的資源是內存、Disk和CPU，其中內存又是

系統設計和任務分配（個人）

日期 mage demo 系統時間團隊原生閱讀分享圖片存儲團隊作業：http://www.yzhiliao.com/course/62/task/441/show 一、碼雲地址個人：https://gitee.com/Hesse/ 團隊： https://gi

Activity的啟動模式和任務棧（4）

我們在開發專案的過程中，會涉及到該應用中多個Activity元件之間的跳轉，或者夾帶其它應用的可複用的Activity。例如我們可能希望跳轉到原來某個Activity例項，而不是產生大量重複的 Activity。這樣就需要我們為 Activity 配置特定的載入模式，而不是使用預設的載入模式。 Ac

控制檯基於Quartz.Net元件實現定時任務排程（一）

前言：你曾經需要應用執行一個任務嗎？比如現在有一個需求，需要每天在零點定時執行一些操作，那應該怎樣操作呢？這個時候，如果你和你的團隊是用.NET程式設計的話，可以考慮使用Quartz.NET排程器。允許開發人員根據日期間隔來實現任務排程任務。非常

Window服務基於Quartz.Net元件實現定時任務排程（二）

前言：在上一章中，我們通過利用控制檯實現定時任務排程，已經大致瞭解瞭如何基於Quartz.Net元件實現任務，至少包括三部分：job(作業），trigger（觸發器），scheduler（排程器）。其中job是需要在一個定時任務中具體執行的業務邏輯，trigger通過規定job何

C# 《四》表達式和運算符（2）

技術分享 -a 按位運算表達式其他 img 數學 tro .cn 1、位運算符 1、位（bit）：在計算中存儲所有數據都采用二進制，那麽二進制的位，便是我們所說的 bit。 1）1Byte = 8bit 1字節 = 8位 2）1k =10

第11課 std::bind和std::function（2）_std::bind綁定器

pan std name iostream emf end cnblogs left eid 1. 溫故知新：std::bind1st和std::bind2nd （1）bind1st、bind2nd首先它們都是函數模板，用於將參數綁定到可調用對象（如函數、仿函數等）的第1個

《Python基礎教程》第二章：列表和元組（2）

ber 次數 eve sorted 反向 bsp del 對象復制 list函數可以將字符串轉換為列表 ‘ ‘.join(somelist)可以將列表轉換為字符串從列表中刪除元素可以使用del語句來實現方法是與對象有緊密聯系的函數：對象.方法(參數) append方

棧和隊列（2）

實現放置怎麽事情棧操作 ron bsp 使用 alt 一、題目：僅用遞歸函數和棧操作逆序一個棧將一個棧裏面的元素逆序，只能用遞歸函數來實現，不能用其他數據結構。只能用遞歸函數來實現可以使用現成的棧類型思路：為了將棧逆序，只需要按順序將棧頂至棧底的元素拿

Arm虛擬化：效能和構架分析（2）

微信公眾號 mindshare思享如下圖所示，Xen和KVM採用不同的方式使用arm的硬體虛擬化支援。 Xen作為type1 hypervisor設計比較容易直接使用arm構架提供的功能，直接將hypervisor運行於EL2，將VM的users pace

Python語言資料結構和語言結構（2）

1. Python預備基礎變數的命名變數命名規則主要有以下幾條：變數名只能包含字母、數字和下劃線，其中下劃線和字母可以開頭，數字不行，即info_1可以，而1_info不行；變數名內不能包含空格，可以用下劃線替代，即info_1，而非info 1；不能與Pyt

linux磁碟與檔案系統管理的那些事兒（2）

我們接著第一篇文章講起。檔案系統掛載與解除安裝建立完檔案系統，我們需要將新建的檔案系統掛載到根檔案系統上的某個目錄上，進而我們便可以通過該目錄來訪問該檔案系統。建立這種關聯關係的過程稱為掛載，所掛載的目錄稱為掛載點；若解除這種關聯關係，則稱之為解除安裝；由

C#基礎系列：委託和設計模式（2）

前言：這篇打算從設計模式的角度去解析下委託的使用。我們知道使用委託可以實現物件行為（方法）的動態繫結，從而提高設計的靈活性。上次說過，方法可以理解為委託的例項，站在方法的層面，委託例項的一個非常有用的特性是它既不知道，也不關心其封裝方法所屬類的詳細資訊，對它來說最重

Android火車票訂購軟體之註冊和檔案儲存（2）

上次我們做了app啟動時的延時頁，這次我們來做登陸註冊的頁面。 xml程式碼： <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http://schemas.android.c

Mesos+Zookeeper+Marathon的Docker管理平臺部署記錄（2）--負載均衡marathon-lb

[[email protected] ~]# docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS

文字內容分析和智慧反饋（2）－資料預處理和按緯度統計

書接上文，考慮4個核心功能的實現，先考慮：資料預處理和按緯度統計。 1、資料預處理 1.1、基本原則首先，考慮資料的格式。業務資料是儲存在關係型資料庫中的。資料分析的部分，我們將使用Weka，雖然Weka習慣ARFF格式，為了實現資料分析和提取的

BigData_A_A_03-YARN-資源管理和任務排程（2）共同好友(spark)

楔子

demo

相關推薦