Spark入門實戰系列--3.Spark程式設計模型(下)--IDEA搭建及實戰
1 package class3 2 3 import org.apache.spark.SparkContext._ 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 object Join{ 7 def main(args: Array[String]) { 8 if (args.length == 0) { 9 System.err.println("Usage: Join <file1> <file2>") 10 System.exit(1)11 } 12 13 val conf = new SparkConf().setAppName("Join").setMaster("local") 14 val sc = new SparkContext(conf) 15 16 val format = new java.text.SimpleDateFormat("yyyy-MM-dd") 17 case class Register (d: java.util.Date, uuid: String, cust_id: String, lat: Float,lng: Float)18 case class Click (d: java.util.Date, uuid: String, landing_page: Int) 19 val reg = sc.textFile(args(0)).map(_.split("\t")).map(r => (r(1), Register(format.parse(r(0)), r(1), r(2), r(3).toFloat, r(4).toFloat))) 20 val clk = sc.textFile(args(1)).map(_.split("\t")).map(c => (c(1), Click(format.parse(c(0)), c(1), c(2).trim.toInt)))21 reg.join(clk).take(2).foreach(println) 22 23 sc.stop() 24 } 25 }
相關推薦
Spark入門實戰系列--3.Spark程式設計模型(下)--IDEA搭建及實戰
1 package class3 2 3 import org.apache.spark.SparkContext._ 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 object Join{ 7 def
資料結構和算法系列3--複雜度分析(下)
複雜度分析的4個概念 1.最壞情況時間複雜度:程式碼在最理想情況下執行的時間複雜度。 2.最好情況時間複雜度:程式碼在最壞情況下執行的時間複雜度。 3.平均時間複雜度:用程式碼在所有情況下執行的次數的加權平均值表示。 4.均攤時間複雜度:在程式碼執行的所有複雜度情況中絕大部分是低級別的複
Spark入門實戰系列--3.Spark程式設計模型(上)--程式設計模型及SparkShell實戰
rdd4的生成比較複雜,我們分步驟進行解析,軸線map(x=>(x(1),1))是獲取每行的第二個欄位(使用者Session)計數為1,然後reduceByKey(_+_)是安排Key進行累和,即按照使用者Session號進行計數求查詢次數,其次map(x=>(x._2,x._1))是把Key和V
spark常見操作系列(3)--spark讀寫hbase(2)
接著上一篇, 問題(2): scan有 scan.setCaching(10000) scan.setCacheBlocks(true) 等設定.setCaching ,個人感覺不夠用.hbase 預設是在記憶體裡面放一塊資料用來讀取,所以讀取效率比較高,可是,
Spark 編程模型(下)
spa pan -s mage 編程 編程模型 rdd alt img
WPF入門教程系列十一——依賴屬性(一)
nts 如果 edev 出現 樣式 語法 寫法 屬性。 結構 一、依賴屬性基本介紹 本篇開始學習WPF的另一個重要內容依賴屬性。 大家都知道WPF帶來了很多新的特性,其中一個就是引入了一種新的屬性機制——依賴屬性。依賴屬性出現的目的是用來實現WPF中的樣式、自
WPF入門教程系列十四——依賴屬性(四)
nan out rmi strong too nim app controls ase 六、依賴屬性回調、驗證及強制值 我們通過下面的這幅圖,簡單介紹一下WPF屬性系統對依賴屬性操作的基本步驟: 借用一個常見的圖例,介紹一下WPF屬性系統對依賴屬性操作的基本
Deep Learning-TensorFlow (9) CNN卷積神經網路_《TensorFlow實戰》及經典網路模型(下)
環境:Win8.1 TensorFlow1.0.1 軟體:Anaconda3 (整合Python3及開發環境) TensorFlow安裝:pip install tensorflow (CPU版) pip install tensorflow-gpu (GPU版)
《CSS3實戰》筆記--彈性盒模型(一)
通過閱讀和學習書籍《CSS3實戰》總結 《CSS3實戰》/成林著.—北京機械工業出版社2011.5 彈性盒模型(Flexible Box Moudle),該模型用於決定元素在盒子中的分佈方式以及處理盒子的可用空間。這與XUL(Firefox瀏覽器
3.2程式設計實現 (1)員工類(Employee)(2)部門主管類(Manager)(3)測試類(Test)
摩爾的Java學習筆記3.2 第三週作業: 1、定義學生類:成員變數有學號、姓名、出生日期(字串)、成績;成員方法包括構造方法、計算學生年齡的方法、輸出學生資訊的方法;在主方法中創造一
【TensorFlow實戰】3.MNIST數字識別(1)
目前用的時TensorFlow1.8版本,python3.5,跑書上的例子會出問題,並且書上的程式碼存在一處錯誤,下面的程式碼時我親測可用的。 import tensorflow as tf from tensorflow.examples.tutorials.mnis
activiti實戰系列 排他閘道器(ExclusiveGateWay)
流程圖 12.2:部署流程定義+啟動流程例項 12.3:查詢我的個人任務 12.4:完成我的個人任務 說明: 1) 一個排他閘道器對應一個以上的順序流 2) 由排他
C++入門課程系列:基礎知識篇(1)
錯誤 輸出 控制 保時捷 基本類 blue val prim ets C++是一種靜態數據類型語言。 ? 在C++語言中,變量是計算機編程的一個重要概念,它是一個存儲值的字母或名稱? 有幾種基本類型的變量:string (“一組詞”)、chars(‘a’)、floats(1
3.保安隊的日子(下)我當程序員的那些事1
我不 cto text ado 礦泉水 走了 報紙 頭頂 今天 第三章 保安隊的日子(下)電腦報 5月份清晨的海河廣場前,草坪上不時落著幾只鴿子,遠處三三兩兩跳吉特巴的中年男女正在賣力的舞動著婀娜的身姿,我騎著我爸給我買的“仿日本”自行車穿梭在他們之間,耳邊傳來“山下的女人
Python3與OpenCV3.3 圖像處理(一)--環境搭建與簡單DEMO
http opencv3 opencv col lan pytho href tar .net https://blog.csdn.net/qq_32811489/article/details/78636049 https://blog.csdn.net/gangzhu
Models模型(下)
ima lte 字段 跳轉 root fault tor 所有 utils 一、最基本的django模型 1、先看下一個新聞博客的Article模型。這個模型是最基本的django模型,裏面包括了各個字段(fields),重寫了顯示文章對象名字的__str__方法(pyt
Hadoop系列005-Hadoop執行模式(下)
本人微信公眾號,歡迎掃碼關注! Hadoop執行模式(下) 2.3、完全分散式部署Hadoop 1)分析: 1)準備3臺客戶機(關閉防火牆、靜態ip、主機名稱) 2)安裝jdk 3)配置環境變數 4)安裝hadoop 5)配置環境變數
Netty入門(一)環境搭建及使用
一、專案建立 在 Eclipse 中右鍵,新建->專案->Maven->Maven Project->下一步->選擇 quickstart 下一步->設定如圖(引數自取) 點選完成。 專案會自動建立
3. 首頁模組(一)之搭建伺服器
上一節對歡迎模組進行了綜述(可參見 2. 歡迎模組 進行了解),接下來將從首頁模組開始詳細介紹: [首頁模組(一)之搭建伺服器] [首頁模組(二)之工具類] [首頁模組(三)之首頁] [首頁模組(四)之新聞詳情] [首頁模組(五)之Python學科]
企業架構研究總結(13)——聯邦企業架構之FEA及參考模型(下)
資料參考模型DRM 資料參考模型的目標是通過標準的資料描述、通用資料的發現以及統一的資料管理實踐的推廣使得聯邦政府實現跨機構的資訊共享和重用。資料參考模型的適用範圍很廣,它可以用在一個機構內部,也可以用在某一個利益共同體(COI,Community