1. 程式人生 > >使用者行為日誌的採集

使用者行為日誌的採集

使用者的行為日誌,在現今以資料說話時代的重要性已經凸顯地越來越明顯.筆者從事相關一線工作(主要是資料處理及模型設計,離線及實時平臺)三年,分享一些工作中的一些思考,這部分的內容比較偏向業務,希望不會寫的太技術。 首先,我們要先來看一下這個東東到底有啥重要的,為啥每個有點規模的公司都需要花費一定人力來搞這個東西呢?有的時候甚至只是一份日誌真的能養活這麼多人? 想解釋這個問題,必須回到一些基本運營的問題上來? 1.公司靠客戶轉化來增加收入,沒錯吧? 2.哪個公司都有產品經理吧?怎麼知道他/她設計的這產品效果明顯呢?萬一正好搞啥活動或者公關的好,他這產品上線了,誰扯的清呢? 3.公司運營除了增加收入外還得減少開支吧,每個月投baidu、360、各種網盟的錢有點割肉的感覺吧?我們期待啥?用最少的錢打最合算的廣告! 4.那些說什麼老闆拿這些資料做最後的決策,部分有點扯淡,不排除現在一些老大還是拍腦袋下決策,但是有一點一定是對的,就是你得知道自己公司一段時間的資料吧,不能悶頭過日子啊。 5... 以上問題都是可以在使用者資料中拿到對應的內容來說明。 好了,在我們確定了這個東西的確是有價值、值得花人力去做之後,我們來聊聊怎麼做? 在這裡需要細分一下目前使用者訪問的平臺,根據目前以及短期內技術發展,可以分為三種APP|PC|WAP,其中PC/WAP可以算一種,都是傳統web互動方式,APP(說的是Native APP,iOS、Android etc)
  • PC/WEB上實現一般有三種:
1.web service記錄 2.js嵌入收集 3.包嗅探器
Web日誌 JavaScript標記 包嗅探器
優點 ・比較容易獲取資料來源
・方便對歷史資料再處理
・可以記錄搜尋引擎爬蟲的訪問記錄
・記錄檔案下載狀況
・資料收集靈活,可定製性強
・可以記錄快取、代理伺服器訪問
・對訪問者行動追蹤更為準確
・對跨域訪問的監測比較方便
・取得實時資料比較方便
缺點 ・無法記錄快取、代理伺服器訪問
・無法捕獲自定義的業務資訊
・對訪問者的定位過於模糊
・對跨域訪問的監測比較麻煩
・使用者端的JS設定會影響資料收集
・記錄下載和重定向資料比較困難
・會增加網站的JS指令碼負荷
・初期匯入費用較高
・無法記錄快取、代理伺服器訪問
・對使用者資料隱私有安全隱患
目前第二種是最流行的收集方式。 通過使用JS收集客戶端的cookie資訊,瀏覽器等,傳送到後臺一組伺服器,找了幾個網站檢視他們的收集資料,請求格式譬如:
唯品會:
http://mar.vip.com/p?mars_br_pos=&mars_cid=1398657717000_d430514ae3ce8aab29178c11eba5dcb1&mars_sid=b01fc069abdd38df7bd359d6429184f4&pi=0&mars_vid=BD55BF35DADC6722D8D2B29B5C4054A3&lvm_id=83619272008072580001401328910640&mars_var=-&lg=0&wh=VIP_SH&in=0&sn=&url=http://www.vip.com/&sr=1366*768&rf=&bw=1286&bh=150&sc=24&bv=mozilla/5.0 (windows nt 6.3; wow64) applewebkit/537.36 (khtml, like gecko) chrome/40.0.2214.93 safari/537.36&ce=1&vs=&title=唯品會(原Vipshop.com)特賣會:一家專門做特賣的網站_確保正品_確保低價_貨到付款&tab_page_id=1423478314979_0c4c3141-f350-79ec-2e58-1b5bafda3332&vip_qe=undefined&vip_qt=undefined&vip_xe=&vip_xt=&r=0.03680062713101506
噹噹:
http://click.dangdang.com/page_tracker.php?m_id=&o_id=®ion_ids=&out_refer=null&refer_url=&url=http://www.dangdang.com/&to_url=&type=1&visit_count=27&is_first_pv=0&ctr_type=&perm_id=20140430171404681303078869337380126&res=1366,768||1286,1518&r=0.9703021887689829&title=噹噹—網上購物中心:圖書、母嬰、美妝、家居、數碼、家電、服裝、鞋包等,正品低價,貨到付款&trace_id=0.70&special=market=location:6;&cif=&rsv1=&rsv2=&rsv3=&rsv4=xxx
淘寶:
http://ac.mmstat.com/1.gif?uid=802662066&apply=vote&abbucket=_AB-M65_B6&com=02&acm=tt-1097039-36356.1.1003&cod=tt-1097039-36356&cache=1874351609&aldid=72SdnsDn&logtype=4&abtest=_AB-LR65-PR65&scm=1003.1.tt-1097039-36356&ip=210.13.117.180

在伺服器端如Nginx,進行query的parse配置,最後將資料以log方式儲存。
  • 移動端的實現
對移動開發不熟悉,瞭解到的是一般通過手動埋點,觸發Event來實現,如友盟的自定義事件埋點: MobclickAgent.onEvent(this, Event.Start); 可以下載具體的SDK文件看看,後續一樣還是將query發到伺服器,由伺服器進行解析,儲存 本文為個人原創,轉載請註明出處!原作者:Tony_老七

相關推薦

基於Kafka的服務端使用者行為日誌採集

本文來自網易雲社群作者:李勇背景隨著網際網路的不斷髮展,使用者所產生的行為資料被越來越多的網站重視,那麼什麼是使用者行為呢?所謂的使用者行為主要由五種元素組成:時間、地點、人物、行為、行為對應的內容。為什麼要做使用者的行為分析?因為只有做了使用者行為分析才能知道使用者畫像、才能知道使用者在網站上的各種瀏覽、點

Hadoop-模擬搭建使用者行為日誌採集系統分析

一. kafka應用流程示意1. 前端js埋點,就是呼叫後端提供的對應介面.介面請求示例如下:http://pingserver.com?itemid=111&userid=110&action=show&...為了保證輕量級,冰法度高,前端js埋點向

日誌採集與使用者行為鏈路跟蹤

日誌採集這部分內容,其實在上一篇文章 阿里巴巴大資料實踐-讀書筆記 裡面多多少少已經提到了一些。不過正如前文提到的,這部分內容,從技術的角度來說,未必有多麼高深,但是從業務角度來說,要做到完善卻也很難,特別是在分析使用者行為鏈路的場景下,所以這篇專門來討論一下這一塊的內容。所

使用者行為日誌採集

使用者的行為日誌,在現今以資料說話時代的重要性已經凸顯地越來越明顯.筆者從事相關一線工作(主要是資料處理及模型設計,離線及實時平臺)三年,分享一些工作中的一些思考,這部分的內容比較偏向業務,希望不會寫的太技術。 首先,我們要先來看一下這個東東到底有啥重要的,為啥每個有點規模的公司都需要花費一定人力來搞這個

thinkphp5 行為日誌列表

後臺 操作 str 分享圖片 box blank 函數 使用 http 行為日誌列表 圖上是系統的行為日誌,此處的行為日誌是指後臺的操作行為記錄,不涉及其他模塊,後臺研發過程中需要記錄行為日誌則使用 action_log 函數記錄,清空與刪除日誌此處就不說啦。thinkp

(轉)企業配置sudo命令用戶行為日誌審計

用戶權限管理 配置 服務器 pos gif amp toc cts tro 原文:https://www.cnblogs.com/Csir/p/6403830.html?utm_source=itdadao&utm_medium=referral 第15章 企業配置

離線日誌採集流程

步驟一: 我們的資料從哪裡來? 網際網路行業:網站、app、系統(交易系統。。) 傳統行業:電信,人們的上網、打電話、發簡訊等等資料   資料來源:網站、app   都要往我們的後臺去傳送請求,獲取資料,執行業務邏輯;app獲取要展現的商品資料;

如何自定義日誌採集資料?資料來源都包含哪些方面?

資料來源主要包括兩方面:內部資料,外部資料 日誌採集的資料主要分為以下幾方面: 1.埋點資料:在頁面放置一段js程式碼,使用者的行為觸發程式碼之後會自動載入一些資料,並通過建立script標籤的形式src載入外部的一段js採集程式碼; 2.採集之後傳到後臺,因為是分散式,js程式碼跟後臺

LINUX日誌採集及遠端日誌同步

一、系統日誌 程序和作業系統核心需要能夠為發生的事件記錄日誌 , 這些日誌可用於系統稽核和問題的故障排除 , 一般這些日誌永久儲存 /var/log 目錄中 1.日誌型別 auth            ###

Elk日誌採集分析系統 搭建elasticsearch環境 6.4 環境

https://www.elastic.co/cn/blog/elasticsearch-6-4-0-released 1 官網下載 elasticsearch 安裝包 https://artifacts.elastic.co/downloads/elasticsearch/elasti

基於AIX系統的應用日誌採集-Logstash伺服器端和客戶端配置

1.服務端 1.1.需要檔案(/opt/file):   logstash-forwarder.crt   logstash-forwarder.key    1.2. 執行命令生成金鑰檔案keystor

kafkaChannel實現一個source下,不同日誌採集到kafka不同主題中

1.需求 使用flume採集資料,在使用一個source情況下,將不同的日誌採集到指定的kafka的主題中。 例如:有兩個日誌檔案:error.log和info.log error.log採集到kafka的kafka_channel主題 info.log採集到kafka的kafk

Linux的rsyslog日誌採集及journald的日誌

一、rsyslog日誌        Linux核心由很多的子系統組成,包含網路、檔案訪問、記憶體管理等,子系統需要給使用者傳送一些訊息,這些訊息內容包括訊息的重要來源以及重要性等,所有這些子系統都要把訊息傳從到一個可以維護的

技本功丨騷操作:教你如何用一支菸的時間來寫個日誌採集工具

作者:良辰 袋鼠雲日誌團隊 後端開發工程師 我放下了手中的鍵盤,陷入沉思, 作為一個優秀的程式猿最重要的就是 氣~勢~ 泰山崩於前的鎮~定~   我用最快的速度掃描了一遍現行的 filebeat、fluentd、flume、 scribe等解決方案, 發

微服務框架(十三)Spring Boot Logstash日誌採集

  此係列文章將會描述Java框架Spring Boot、服務治理框架Dubbo、應用容器引擎Docker,及使用Spring Boot整合Dubbo、Mybatis等開源框架,其中穿插著Spring Boot中日誌切面等技術的實現,然後通過gitlab-CI以持續整合為Docker映

容器日誌採集利器Log-Pilot

容器時代越來越多的傳統應用將會逐漸容器化,而日誌又是應用的一個關鍵環節,那麼在應用容器化過程中,如何方便快捷高效地來自動發現和採集應用的日誌,如何與日誌儲存系統協同來高效儲存和搜尋應用日誌。本文將主要跟大家分享下如何通過Log-Pilot來採集容器的標準輸出日誌和容器內檔案日誌。 日誌採集難點 首先我們先

Spark Streaming實時流處理筆記(3)——日誌採集Flume

1 Flume介紹 1.1 設計目標 可靠性 擴充套件性 管理性 1.2 同類產品 Flume: Cloudera/Apache,Java Scribe: Facebook ,C/C++(不維護了) Chukwa: Yahoo

大資料技術學習筆記之網站流量日誌分析專案:Flume日誌採集系統1

一、網站日誌流量專案     -》專案開發階段:         -》可行性分析         -》需求分析  

離線日誌採集統計分析

專案中資料採集: flume ELK(ElasticSearch logstash kibana) 搜尋引擎 日誌採集 資料分析視覺化平臺 在使用flume時,最注重的是資料的安全性,所以一般情況下channle=file flume叢集中彙總多個flume的日誌資訊,前一個flum

Flume+Kafka雙劍合璧玩轉大資料平臺日誌採集

概述 大資料平臺每天會產生大量的日誌,處理這些日誌需要特定的日誌系統。 一般而言,這些系統需要具有以下特徵: 構建應用系統和分析系統的橋樑,並將它們之間的關聯解耦; 支援近實時的線上分析系統和類似於Hadoop之類的離線分析系統; 具有高可擴充套件性。即:當資料量增加時,可以通過增加節點