1. 程式人生 > >第三屆易觀演算法大賽 -- OLAP Session分析(5萬獎金)

第三屆易觀演算法大賽 -- OLAP Session分析(5萬獎金)

                                                         OLAP Session分析

  • 賽題背景

  Session,即會話,是指在指定的時間段內在您的網站/H5/小程式/APP上發生的一系列使用者行為的集合。例如,一次會話可以包含多個頁面瀏覽、互動事件等。Session 是具備時間屬性的,根據不同的切割規則,可以生成不同長度的 Session。
對於 Session 的理解以及相關指標的計算,其中最重要的兩塊就是:
(1)Session 應該包含哪些行為事件
(2)Session 如何切割:需設定切割時長,即相鄰事件間的時間間隔超出此時長則進行切割,基於動態切割規則計算一系列         session相關指標。需要支援動態切割規則、超時、跨天、跨平臺、指定開始事件、指定結束事件等。

  • 參賽物件

  OLAP Session分析大賽將分商業組及開源組,將分別為網際網路/科技公司相關技術團隊,以及OLA[技術從業人員和技術愛好者提供競技交流的平臺。

  • 時間安排

   8月20日 - 9月15日,初賽報名,參賽選手在Demo環境下程式除錯
   9月15日 - 9月25日,參賽者在伺服器環境下進行環境測試
   9月25日 - 10月15日,正式環境比賽
 10月15日 - 10月20日,參賽者提交演算法文件,答辯
 10月25日,易觀A10資料智慧生態大會頒獎及排名公佈

  • 賽題介紹

   通常我們把使用者一系列連續的行為,看作一次訪問,也稱之為session。基於會話的分析,即為session查詢分析。
   Session查詢分析中最重要的兩塊分別是:
   1、 session如何分割。
   例如,使用者訪問您的網站,打開了一個網頁,有事離開了電腦。幾個小時候回來後繼續訪問,使用者的session訪問次數應該算作幾 次? 又比如,使用者在pc端添加了購物車,在手機端完成了支付,又應該算作幾次。


  2、 session指標的定義,session分析常見的分析指標有,session訪問次數,訪問深度、訪問時長、跳出率等等

  Session分割規則介紹:Session的劃分規則分為2類

1、 預設session,即SDK採集資料來源時,已經根據一些規則,將使用者行為劃分為多個session,通過”$session_id”來區分
2、 動態切割,使用者可以根據前後2條連續行為的一些屬性判斷來確認是否切割session。本次大賽需要支援以下動態切割規則,其中超時和跨天為預設條件,其他為可選條件:
    ü 超時:即前後2條行為發生時間間隔超過某個閾值。如,30分鐘
    ü 跨天:即前後2條行為發生的時間不在同一天中
    ü 指定開始事件:即當用戶發生指定行為時,開始一個新的會話。如 ,登陸
    ü 指定結束事件:即當用戶發生指定行為時,結束會話。如,結束事件
    ü 跨平臺:即前後2次行為在不同平臺發生的。如,上一條行為JS,下一條iOS

 Session常見指標定義

ü 訪問使用者數(UV)=訪問使用者的去重數
ü 訪問次數=指使用者訪問應用的總次數,即會話(Session)數
ü 瀏覽量(PV)=指使用者瀏覽Web/H5頁面的總次數,同一個頁面訪問多次會被重複計
ü 人均訪問次數=訪問次數/訪問使用者數(UV)
ü 人均頁面瀏覽量=瀏覽量(PV)/訪問使用者數(UV)
ü 人均訪問時長=Session時長之和/訪問使用者數(UV)
ü 單次訪問頁面瀏覽量=平均每次訪問瀏覽頁面的次數,單次訪問頁面瀏覽量=瀏覽量(PV)/訪問次數
ü 單次訪問時長=平均每次訪問的時長,單次訪問時長=總訪問時長/會話數
ü 單次訪問事件數=平均每次訪問的事件數量(包括瀏覽頁面和點選事件),單次訪問事件數=總訪問事件數/會話數
ü 跳出率=訪問了一個頁面的Session數/總的Session數。使用者進入著陸頁就離開使用者來到網站後,除了瀏覽LandingPage之外,沒有發生其他任何操作就離開了網站,被視為跳出。用來衡量Landingpage的質量。

 分析中其他概念

ü Session屬性,一般取會話的首事件的某個屬性,作為整個會話的屬性
ü 著陸頁,落地頁、引導頁,即會話首頁面的url。
ü 時長:我們以會話內下一個事件發生時間作為上個事件的結束時間。會話的退出事件是時長為0。單位為毫秒

 

  • 賽題任務

      參賽者根據我們提供的使用者行為資料,準確計算出各種場景的下的會話相關指標值。
      計算場景舉例:
      1、 使用預設session,計算出20190501-20190510,每天的會話次數、人均訪問時長、退出率
      2、 使用超時時間30分鐘+跨天的session切割規則,計算出20190501-20190510,每天的會話次數、跳出率。且以 著陸頁進行分組。
      3、 使用超時時間30分鐘+跨天+指定開始事件,的session切割規則計算出20190501-20190510,每天包含某個頁面行為的會話 總數,人均訪問深度。

  • 資料介紹

  資料為文字檔案格式,具體包含欄位有: 分隔符為 tab
(1)使用者ID,Long型別
(2)時間戳, 毫秒級別,Long型別
(3)事件code,字串型別,本次預設全部為"$pageview",頁面瀏覽事件
(4)url,字串型別,頁面的url
(5)平臺, 字串型別
(6)來源, 字串型別,流量來源
(7) 城市,字串型別
(8)品牌,字串型別
(9)購買數量,Int型別
(10) 價格,Double型別
(11) 日期,字串型別
測試資料總條數7千萬左右,日期範圍:2019/01/01到2019/01/07。
比賽資料總條數5億左右,日期範圍:2019/05/01到2019/05/15

  • 提交格式:

  所有題目,預設按日期分組計算,其他維度已經指標根據題目要求計算如:
  維度,週期,uv,pv,人均時長等
  url1,20190501,300,800,4545
  url1,20190502,200,500,4444-

  • 資料下載連結

   雲盤地址:https://pan.baidu.com/s/1HW_8vauDoq6PZnTlUQAc5Q 密碼: 8nmm

  • 提交內容

(1)演算法說明文件或PPT

(2)演算法原始碼

(3)測試資料的預測結果(可重複提交,但每天只能提交一次,最終結果取最優的一次)
   提交地址:[email protected]

  • 評分方式

   計算結果正常的情況下,對用時進行排名,用時少者獲勝。

  • 參賽指導

     資料準確性和演算法的要求,需提前說清楚,報名後,會有大賽小助手拉您入群,群內有專門的技術人員進行解答

     聯絡人:Cari 手機&微信:13011177753 郵件:[email protected]

    

即刻