【原創】案例分享（3）使用者行為分析--見證scala的強大

阿新 • • 發佈：2018-12-29

場景分析

使用者行為分析應用的場景很多，像線上網站訪問統計，線下客流分析（比如影象人臉識別、wifi探針等），比較核心的指標有幾個：

PV | UV | SD | SC

指標說明：

PV（Page View）：網站瀏覽量或者商場門店的訪問量
UV（Unique Visitor）：獨立訪客數，即去重後的人數
SD（Session Duration）：單次會話停留時間
SC（Session Count）：會話次數

使用者行為分析的原始資料通常是一系列時間離散資料，比如網站訪問記錄：使用者在一個時間點訪問了一個網頁，然後又在下個時間點訪問了下個網頁；

這些原始資料可以抽象為：

User | Timestamp | Target

即使用者在什麼時間點訪問了什麼目標；

統計PV、UV比較簡單，但是在時間離散資料的基礎上，要計算SD、SC這兩個指標，常用的方式是設定過期時間閾值，如果使用者兩次訪問的時間間隔超過閾值，則認為是兩次Session；然後在一次Session的所有資料中取時間最早和最晚的資料來統計本次Session Duration；

統計示例

輸入資料

(user1, 2018-12-01 01:00:00, t1)
(user1, 2018-12-01 01:01:30, t1)
(user1, 2018-12-01 01:06:00, t1)
(user1, 2018-12-01 01:20:00, t1)
(user1, 2018-12-01 01:24:00, t1)

可以統計出

PV=5，UV=1

過期時間閾值設定為5分鐘，以上資料應該統計出來2次Session，分別是：

Session1： (2018-12-01 01:00:00 到 2018-12-01 01:06:00)，Duration：6分鐘
Session2： (2018-12-01 01:20:00 到 2018-12-01 01:24:00)，Duration：4分鐘

實際處理時還要資料亂序的問題，尤其是在實時計算中，你想好怎樣做了嗎？

Scala程式碼實現

下面給出scala實現，來見證scala的強大：

scala核心程式碼（一步foldLeft）

scala

  val expireInSecond = 300
  def mergeTimeArray(arr1 : ArrayBuffer[(Long, Long)], arr2 : ArrayBuffer[(Long, Long)]) : ArrayBuffer[(Long, Long)]  
= {
    if (arr1.head._1.equals(0l)) arr2
    else if (arr2.head._1.equals(0l)) arr1
    else (arr1 ++ arr2).sortBy(_._1).foldLeft(ArrayBuffer[(Long, Long)]())((result, item) => if (!result.isEmpty && result.last._2 + expireInSecond >= item._1) {result.update(result.length - 1, (result.last._1, math.max(result.last._2, item._2))); result} else result += item)
  }

spark核心程式碼（2步map 1步aggregateByKey）

scala

  /**
    * @param data (user, timestamp, target)
    * @return (user, target, session_count, session_duration)
    */
  def process(data : RDD[(String, Long, String)]) : RDD[(String, String, Integer, Double)] = {
    //((user, target), timestamp)
    data.map(item => ((item._1, item._3), item._2))
      //((user, target), Array[(startTime, endTime)])
      .aggregateByKey(ArrayBuffer((0l, 0l)))((result : ArrayBuffer[(Long, Long)], timestamp: Long) => mergeTimeArray(result, ArrayBuffer((timestamp, timestamp))), (result1 : ArrayBuffer[(Long, Long)], result2 : ArrayBuffer[(Long, Long)]) => mergeTimeArray(result1, result2))
      //(user, target, session_count, session_duration)
      .map(item => (item._1._1, item._1._2, item._2.length, item._2.foldLeft(0l)((result, item) => result + (item._2 - item._1)).toDouble / item._2.length))
  }

測試執行

  def main(args : Array[String]) : Unit = {
    val conf = new SparkConf().setAppName("UserAnalysis").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val arr = Array(("user1", 1546054000l, "t1"), ("user1", 1546054090l, "t1"), ("user1", 1546054360l, "t1"), ("user1", 1546055200l, "t1"), ("user1", 1546055440l, "t1"))
    //(user, timestamp, target)
    val data : RDD[(String, Long, String)] = sc.parallelize(arr)
    this.process(data).foreach(println)
  }

輸出

(user1,t1,2,300.0)

【原創】案例分享（3）使用者行為分析--見證scala的強大

場景分析使用者行為分析應用的場景很多，像線上網站訪問統計，線下客流分析（比如影象人臉識別、wifi探針等），比較核心的指標有幾個： PV | UV | SD | SC 指標說明： PV（Page View）：網站瀏覽量或者商場門店的訪問量UV（Unique Visitor）：獨立訪客數，即

【原創】案例分享（4）定位分析--見證scala的強大

一場景分析定位分析廣泛應用，比如室外基站定位，室內藍芽beacon定位，室內wifi探針定位等，實現方式是三點定位 Trilateration 理想情況這種理想情況要求3個基站‘同時’採集‘準確’的距離資訊，實際情況 3個基站採集資料的時間是分開的；採集資料的距離

【原創】經驗分享（10）Could not transfer artifact org.apache.maven:maven. from/to central. Received fatal alert: protocol_version

maven編譯工程報錯 [ERROR] Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:add-source (scala-compile-first) on project trade: Execution sca

【原創】經驗分享（12）如何程式化kill提交到spark thrift上的sql

spark 2.1.1 hive正在執行中的sql可以很容易的中止，因為可以從console輸出中拿到當前在yarn上的application id，然後就可以kill任務， WARNING: Hive-on-MR is deprecated in Hive 2 and may no

【原創】經驗分享（15）spark sql limit實現原理

之前討論過hive中limit的實現，詳見 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的實現，首先看執行計劃： spark-sql> explain select * from test1 limit

【原創】演算法分享（4）Cardinality Estimate 基數計數概率演算法

讀過《程式設計珠璣》（<Programming Pearls>）的人應該還對開篇的Case記憶猶新，大概的場景是：作者的一位在電話公司工作的朋友想要統計一段時間內不同的電話號碼的個數，電話號碼的數量很大，當時的記憶體很小，所以不能把所有的電話號碼全部放到記憶體來去重統計，他的朋友很苦惱。作

【原創】演算法分享（5）聚類演算法DBSCAN

簡介 DBSCAN：Density-based spatial clustering of applications with noise is a data clustering algorithm proposed by Martin Ester, Hans-Peter

【原創】經驗分享（20）spark job之間會停頓幾分鐘

今天遇到一個問題，spark應用中在一個迴圈裡執行sql，每個sql都會向一張表寫入資料，比如 insert overwrite table test_table partition(dt) select * from test_table_another; 除了執行sql沒有其他邏輯，每個sq

【原創】演算法分享（7）最小二乘法

Ordinary Least Square 最小二乘法提到最小二乘法要先提到擬合，擬合Fitting是數值分析的基礎工具之一，在二維平面上分為直線擬合和曲線擬合，直線擬合找到一條直線儘可能穿過所有的點，注意這裡是儘可能，因為只要超過2個點，就有可能發生直線不能精確穿過所有點的情況，這時確定直線的原則有很多

【原創】經驗分享（22）檢視linux發行版以及核心版本

redhat檢視發行版 # cat /etc/redhat-release CentOS Linux release 7.2.1511 (Core) 檢視核心版本 # uname -aLinux $host 3.10.0-327.28.3.el7.x86_64 #1 SMP Thu A

【pattern】設計模式（3） - Observer觀察者模式

獨立使用數據技術很多調用 edi 基於 ace 源碼地址：https://github.com/vergilyn/design-patterns 另外一個大神很全的Github：https://github.com/iluwatar/java-design-pat

【原創】MapReduce實戰（一）

tid refs 讀取 sel instance 網站 let 創建 -c 應用場景：用戶每天會在網站上產生各種各樣的行為，比如瀏覽網頁，下單等，這種行為會被網站記錄下來，形成用戶行為日誌，並存儲在hdfs上。格式如下： 17:03:35.012?pageview?{"d

【原創】命令列（2）----一些伺服器命令列

Ls Ps –x Cd server/ Sh stopall.sh Sh fresh.sh Sh runall.sh 命令全部小寫即可 Ls

【原創】java-NIO（一）阻塞IO與非阻塞IO--轉載請註明出處

零、一個小故事在講解阻塞IO與非阻塞IO之前，先舉出一個小小的例子：一個老闆經營一個飯店，最初的時候，每來一個客人安排一個服務員招呼，客人很滿意。　　後來客人越來越多，需要的服務員越來越多，但是餐廳的後廚已經擠滿了服務員，不

【原創】java-NIO（一）阻塞IO與非阻塞IO

零、一個小故事在講解阻塞IO與非阻塞IO之前，先舉出一個小小的例子：一個老闆經營一個飯店，最初的時候，每來一個客人安排一個服務員招呼，客人很滿意。　　後來客人越來越多，需要的服務員越來越多，但是餐廳的後廚已經擠滿了服務員，不能請更多的服務員了，之前的

【Linux】【Services】【IaaS】OpenStack-Pike（3.搭建高可用消息隊列）

mission 服務 guide lan nsis edit 錯誤 all scp 1. 簡介 1.1. 官方網站： https://www.rabbitmq.com/ 2. 安裝與配置：詳見：https://docs.openstack.org/ha-guide/sha

【深入Java虛擬機（3）】：類初始化

不同 main class out pri ref 另一個字節碼被動引用類初始化是類加載過程的最後一個階段，到初始化階段，才真正開始執行類中的Java程序代碼。虛擬機規範嚴格規定了有且只有四種情況必須立即對類進行初始化：遇到new、getstatic、putstati

【原創】Logistic regression （邏輯迴歸）概述

Logistic regression （邏輯迴歸）是當前業界比較常用的機器學習方法，用於估計某種事物的可能性。比如某使用者購買某商品的可能性，某病人患有某種疾病的可能性，以及某廣告被使用者點選的可能性等。（注意這裡是：“可能性”，而非數學上的“概率”，logis

【星雲測試】開發者測試（3）-採用精準測試工具對springcloud微服務應用進行穿透測試

1、微服務簡介　　微服務英文名稱Microservice，Microservice架構模式就是將整個Web應用組織為一系列小的Web服務。這些小的Web服務可以獨立地編譯及部署，並通過各自暴露的API介面相互通訊。它們彼此相互協作，作為一個整體為使用者提供功能，卻可以獨立地執行。 2、Sp

【phaser.js學習筆記（3）】開發H5遊戲“穿越小行星”並適配微信小遊戲

這篇筆記主要記錄使用phaser.js開發一個完整HTML5遊戲的整個過程，並將web端程式適配到微信小遊戲。 1、遊戲基本架構由於phaser社群目前僅有phaser2對微信小程式的支援，因此我選擇phaser v2.6.2作為遊戲的引擎。為便於開發除錯，以單獨的phas

【原創】案例分享（3）使用者行為分析--見證scala的強大

場景分析

統計示例

Scala程式碼實現

scala核心程式碼（一步foldLeft）

spark核心程式碼（2步map 1步aggregateByKey）

相關推薦