1. 程式人生 > >電商使用者行為分析大資料平臺相關係列9-使用者訪問session的模組介紹

電商使用者行為分析大資料平臺相關係列9-使用者訪問session的模組介紹

1、Session介紹

使用者在電商網站上,通常會有很多的點選行為,首頁通常都是進入首頁;然後可能點選首頁上的一些商品;點選首頁上的一些品類;也可能隨時在搜尋框裡面搜尋關鍵詞;還可能將一些商品加入購物車;對購物車中的多個商品下訂單;最後對訂單中的多個商品進行支付。

使用者的每一次操作,其實可以理解為一個action,比如點選、搜尋、下單、支付

使用者session,指的就是從使用者第一次進入首頁session就開始了。然後在一定時間範圍內,直到最後操作完(可能做了幾十次、甚至上百次操作)離開網站或者關閉瀏覽器,或者長時間沒有做操作,那麼session就結束了。

以上使用者在網站內的訪問過程,就稱之為一次session。簡單理解,session就是某一天某一個時間段內,某個使用者對網站從開啟/進入,到做了大量操作,到最後關閉瀏覽器的過程就叫做session。

2、專案目標(2.6-2.9應該是純粹講師個人工作經驗分享)

2.1、根據使用者提供某些條件,篩選出指定的一些使用者

搜尋過某些關鍵詞的使用者、訪問時間在某個時間段內的使用者、年齡在某個範圍內的使用者、職業在某個範圍內的使用者、所在某個城市的使用者,發起的session。找到對應的這些使用者的session,也就是我們所說的第一步,按條件篩選session。

這個功能,就最大的作用就是靈活。也就是說,可以讓使用者,對感興趣的和關係的使用者群體,進行後續各種複雜業務邏輯的統計和分析,那麼拿到的結果資料,就是隻是針對特殊使用者群體的分析結果;而不是對所有使用者進行分析的泛泛的分析結果。比如說,現在某個企業高層,就是想看到使用者群體中,28~35歲的,老師職業的群體,對應的一些統計和分析的結果資料,從而輔助高管進行公司戰略上的決策制定。

2.2、對2.1篩選的使用者進行聚合統計,統計出訪問時長、步長所佔比例

訪問時長在1s~3s、4s~6s、7s~9s、10s~30s、30s~60s、1m~3m、3m~10m、10m~30m、30m以上各個範圍內的session佔比;訪問步長在1~3、4~6、7~9、10~30、30~60、60以上各個範圍內的session佔比

session訪問時長,也就是說一個session對應的開始的action,到結束的action,之間的時間範圍;還有,就是訪問步長,指的是,一個session執行期間內,依次點選過多少個頁面,比如說,一次session,維持了1分鐘,那麼訪問時長就是1m,然後在這1分鐘內,點選了10個頁面,那麼session的訪問步長,就是10.

這個功能的作用,其實就是,可以讓人從全域性的角度看到,符合某些條件的使用者群體,使用我們的產品的一些習慣。比如大多數人,到底是會在產品中停留多長時間,大多數人,會在一次使用產品的過程中,訪問多少個頁面。那麼對於使用者來說,有一個全域性和清晰的認識。

2.3、按時間比例,隨機抽取1000個session

這個按照時間比例是什麼意思呢?隨機抽取本身是很簡單的,但是按照時間比例,就很複雜了。比如說,這一天總共有1000萬的session。那麼我現在總共要從這1000萬session中,隨機抽取出來1000個session。但是這個隨機不是那麼簡單的。需要做到如下幾點要求:首先,如果這一天的12:00~13:00的session數量是100萬,那麼這個小時的session佔比就是1/10,那麼這個小時中的100萬的session,我們就要抽取1/10 * 1000 = 100個。然後再從這個小時的100萬session中,隨機抽取出100個session。以此類推,其他小時的抽取也是這樣做。

這個功能的作用,是說,可以讓使用者,能夠對於符合條件的session,按照時間比例均勻的隨機取樣出1000個session,然後觀察每個session具體的點選流/行為,比如先進入了首頁、然後點選了食品品類、然後點選了雨潤火腿腸商品、然後搜尋了火腿腸罐頭的關鍵詞、接著對王中王火腿腸下了訂單、最後對訂單做了支付。

2.4、獲取點選量、下單量和支付量都在前10的商品種類

對於這些session,每個session可能都會對一些品類的商品進行點選、下單和支付等等行為。那麼現在就需要獲取這些session點選、下單和支付數量排名前10的最熱門的品類。也就是說,要計算出所有這些session對各個品類的點選、下單和支付的次數,然後按照這三個屬性進行排序,獲取前10個品類。

這個功能,很重要,就可以讓我們明白,就是符合條件的使用者,他最感興趣的商品是什麼種類。這個可以讓公司裡的人,清晰地瞭解到不同層次、不同型別的使用者的心理和喜好。

2.5、獲取top10的商品種類點選量排名前10的session

這個就是說,對於top10的品類,每一個都要獲取對它點選次數排名前10的session。

這個功能,可以讓我們看到,對某個使用者群體最感興趣的品類,各個品類最感興趣最典型的使用者的session的行為。

2.6、針對以上所有分析功能調優

2.7、十億級資料量的故障解決經驗分享

2.8、資料傾斜的解決方案

2.9、使用mock的資料,對模組進行除錯。

3、session分析工作流程

graph LR
網站/APP-->伺服器
伺服器-->spark-submit
spark-submit-->spark叢集
spark叢集-->Mysql
Mysql-->網站/APP

分析平臺大致工作流程如上圖:
1. 首先使用者有網站或者APP發起分析請求,提交各種分析任務。在我們現階段就是發起session分析的各種任務。
2. 使用者發起請求提交到伺服器,伺服器會呼叫底層的shell指令碼,呼叫spark-submit將我們編寫的spark分析程式提交到spark叢集中。
3. Spark叢集執行分析任務(其實這一步還是與mysql有互動,需要查詢MySQL中儲存的篩選引數,這部分途中沒有表現)
4. Spark分析結束後,將分析結果儲存到Mysql表中,以供前臺應用使用。
5. 前臺應用查詢對應Mysql資料,生成表格、圖表等。

相關推薦

使用者行為分析資料平臺關係9-使用者訪問session模組介紹

1、Session介紹 使用者在電商網站上,通常會有很多的點選行為,首頁通常都是進入首頁;然後可能點選首頁上的一些商品;點選首頁上的一些品類;也可能隨時在搜尋框裡面搜尋關鍵詞;還可能將一些商品加入購物車;對購物車中的多個商品下訂單;最後對訂單中的多個商品進行支

使用者行為分析資料系統

一、包含的模組 1、使用者訪問session分析模組:會話(session),使用者的基礎訪問行為 2、頁面單跳轉化率模組:頁面(page),使用者的頁面訪問和頁面跳轉行為 3、各區域熱門商品統計模組:商品(product),使用者的商品點選行為 4、廣

Spark項目之商用戶行為分析大數據平臺之(九)表的設計

就是 pre var SQ ID 插入 text mysql tar 一、概述 數據設計,往往包含兩個環節: 第一個:就是我們的上遊數據,就是數據調研環節看到的項目基於的基礎數據,是否要針對其開發一些Hive ETL,對數據進行進一步的處理和轉換,從而讓我們能夠更加方便

Spark項目之商用戶行為分析大數據平臺之(十一)JSON及FASTJSON

附加 處理 用戶行為分析 基於 大數據平臺 base IT 為什麽 init 一、概述 JSON的全稱是”JavaScript Object Notation”,意思是JavaScript對象表示法,它是一種基於文本,獨立於語言的輕量級數據交換格式

Spark使用者行為分析1

專案介紹 1. 技術框架 spark core spark sql 以及spark streaming 進行離線和實時計算業務模組 2. 功能模組 4個 使用者session分析 使用者session統計分析 session聚合指標計算 按比例隨機抽取sessio

資料------類網站的資料應用之使用者畫像的簡單架構搭建

1.大資料時代已經到來,企業希望從使用者行為資料中分析出有價值的東西,利用大資料來分析使用者的行為與消費習慣,可以預測商品的發展的趨勢,提高產品質量,同時提高使用者滿意度。 2.什麼是使用者畫像: 通過不同的維度,去描述一個人,認識一個人,瞭解一個人。使用者畫像也叫使用者

資料分析&資料分析如何應用於行業?

這幾年想做電商和進入電商行業的人越來越多了,不管是自己開的淘寶店還是微店,你會發現自己朋友圈裡面,總會有那麼幾個已經在做電商的。電商這麼火,那對於做電商而言什麼是最重要的呢?答案毫無疑問是資料·大資料。今天我們就來好好聊聊資料分析·大資料分析在電商行業中的應用

信用卡欺詐行為邏輯迴歸資料分析-資料ML樣本集案例實戰

版權宣告:本套技術專欄是作者(秦凱新)平時工作的總結和昇華,通過從真實商業環境抽取案例進行總結和分享,並給出商業應用的調優建議和叢集環境容量規劃等內容,請持續關注本套部落格。QQ郵箱地址:[email protected],如有任何學術交流,可隨時聯絡。 1 信用卡欺詐行為案例集預處理 impo

平臺-促銷業務分析設計與系統架構

 左側為享受促銷的資格,常見為這三種: 首單 大於或等於某個會員級別 特定會員組:比如女性,月消費滿1000等等,都是通過查詢條件查詢出來的特定分組。 優惠型別,對於電商網站主要是下面4類:

商用資料平臺的五層架構分析

IaaS、PaaS、SaaS是雲端計算的三種不同的服務模式,IaaS基礎設施在最下端,PaaS平臺在中間,SaaS軟體在頂端。 IaaS :Infrastructure-as-a-Service 基礎構架即服務。這一層主要是對基礎設施進行管理以給使用者提供資源使用,如提供計算服務、安全備份、

資料平臺落地效益分析

  資料整合:基於報表系統,我們把集團旗下的所有公司、品牌的經營情況進行資料彙總,把各個系統資料整合到同一個資料平臺上,由於不同品牌有不同的系統來支撐各自的業務,因此需要整合多套異構系統的資料,然後多所有資料進行清洗和修正,保證資料的準確性,通過這個平臺,我們能夠為我們的業務部門或者運營部門去展示。

資料JAVAEE+Hadoop (14.9-15.2高清完整版)巴巴運動網專案

電商專案,新巴巴運動網:新巴巴運動網是專業的運動類網上購物商城,屬於大型網際網路電子商務專案,它包含商品管理、訂單管理、類目管理、品牌管理、客戶管 理、合作商管理、客服管理、購物平臺、內容管理等。   系統前臺是面向網站訪問使用者的,即給訪問網站的使用者所展示的頁面,使用者

首頁 Hadoop Spark Hive Kafka Flume 資料平臺 Kylin 專題文章 Spark運算元 一起學Hive Hive儲存過程 Hive分析函式 Spark On Yarn 資料

關鍵字: orc、index、row group index、bloom filter index之前的文章《更高的壓縮比,更好的效能–使用ORC檔案格式優化Hive》中介紹了Hive的ORC檔案格式,它不但有著很高的壓縮比,節省儲存和計算資源之外,還通過一個內建的輕量級索引

華為資料平臺憑什麼成為行業領跑

每一次研究機構的調研報告總是能爆出大新聞。這不,在最近一期IDC MarketScape的中國大資料管理平臺廠商評估中,將華為FusionInsight評為領導者象限第一名。這次評獎,簡直是對中國大資料管理平臺的整體掃描和嘉獎,當然也是對華為的肯定。 那麼問題來了,從這個報告中,我們能看出那些趨勢,華為為

案例分析|鏈家網資料平臺樞紐——工具鏈

非常感謝分享,學習了。 文 | 呂毅,鏈家網平臺架構師   鏈家網於2015年成立大資料部門,開始構建基於Hadoop的技術體系,初期大資料部門以運營資料報表需求、公司核心指標需求為主。隨著2015年鏈家網發力線上業務,toB與toC業務齊頭並進,資料需求量激增的情況也

Flink SQL結合Kafka、Elasticsearch、Kibana實時分析使用者行為

使用Flink SQL結合Kafka、Elasticsearch、Kibana實時分析電商使用者行為 (Use flink sql to combine kafka, elasticsearch and kibana, real-time analysis of e-commerce user behavi

專案中高流量併發的一攬子解決思路

1.硬體升級 普通的P4伺服器一般最多能支援每天10萬獨立IP,如果訪問量比這個還要大, 那麼必須首先配置一臺更高效能的專用伺服器才能解決問題 ,否則怎麼優化都不可能徹底解決效能問題。 2.負載均衡 它是根據某種負載策略把請求分發到叢集中的每一臺伺服器上,讓整個伺服器群來處理網站的請求。

專案需求分析 七月實習總結

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

資料之Spark(一)--- Spark簡介,模組,安裝,使用,一句話實現WorldCount,API,scala程式設計,提交作業到spark叢集,指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

資料脫敏介紹(資料平臺 )

資料脫敏(Data Masking),又稱資料漂白、資料去隱私化或資料變形。百度百科對資料脫敏的定義為:指對某些敏感資訊通過脫敏規則進行資料的變形,實現敏感隱私資料 的可靠保護。這樣,就可以在開發、測試和其它非生產環境以及外包環境中安全地使用脫敏後的真實資料集。 可以看到資料脫敏具有幾個關鍵點: