【實戰101】手把手教你尋找並排除虛假異常流量!
本文長度為 1823字 ,預估閱讀時間 5分鐘 。 引言:本文結合了作者豐富的網際網路資料分析實戰經驗,深度剖析瞭如何運用GA來發現,分析並排除虛假和異常流量。
作者 | 孫維
編輯 | CiCi
我們為什麼關注流量的變化?因為我們需要資料來指導和評判工作。但如果流量中混入了虛假/異常的成分,就可能導致我們做出錯誤的決策而蒙受損失。所以今天我要和大家分享一下如何用GA尋找異常流量,並且將其排除。這個過程大致可以分為三步:
發現異常流量
對於比較“低階”的異常流量,最容易在兩個維度上被發現:
- 小時分佈
正常的流量在全天的分佈大致如此:
而異常流量往往與之差異明顯:
這些在凌晨依然活躍的流量非常可疑,此時我們可以調出第二指標的曲線,看看跳出率、會話時長和每次會話瀏覽頁數。
常見的虛假流量每次會話只訪問一個網頁,也就是說跳出率是100%,會話時長是0,瀏覽頁數是1,因此它們會明顯影響整體粘性資料。
- 直接來源流量
多數情況下的異常流量都是沒有來源資訊的,在GA裡的來源/媒介是:(direct) / (none),所以如果我們發現無來源的流量有明顯上漲,那就需要注意了。
同樣的,我們也要看一下跳出率、會話時長和每次會話瀏覽頁數,如果所有的都明顯變差,那我們就更有把握認為這是異常流量。
發現可疑流量後,除了看粘性指標以外,也可以使用高階細分進行交叉驗證。也就是用發現問題的那個維度進行條件細分,再到另一個維度中去檢視資料。例如我們先細分出直接來源流量,再看它的小時分佈,就更能斷定其中有問題。
- 其他異常流量
除了以上兩種最簡單的情況之外,有時異常流量並不那麼明顯。例如我們見過來源是 baidu / organic 的奇怪流量,它們只訪問特定的三個頁面,並且只在中午12點以後訪問。這樣的流量是怎麼被發現的呢?
首先我們在“受眾群體-技術-網路-主機名”中看到某個域名的會話數明顯上漲,然後到“行為-網站內容-所有頁面-內容分組”中,檢視到底是哪類頁面訪問量上升了(注意,內容分組需要額外設定才會有),找到之後再看這類頁面之下是哪些具體頁面在上漲,最後再用高階細分聚焦這幾個頁面,於是發現了以上的問題。
經過多方查證之後我們基本認定,這是某個廠商在試圖提升自己網站在百度的自然搜尋排名。但如果只在搜尋結果中點選該廠商自己的網站,太容易被認定為作弊,所以他們就連帶著點選搜尋結果中的其他網站,包括我們的頁面,於是我們就看到了上面那一幕。
總結一下,如果發現流量明顯上漲,首先可以看小時和直接來源流量這兩個維度有沒有異常。其次可以在各個維度中尋找,有沒有粘性指標明顯變差的個別專案。找到以後,接下來的步驟就是分析異常流量。
分析異常流量
僅僅發現異常流量還不夠,我們需要找到它們的特徵才能將其精準排除。例如我們發現直接來源流量明顯上漲,但並不能把所有直接來源都排除掉,畢竟其中還有很多真實流量。要想精準排除,首先要將異常流量“提純”——我們先用高階細分聚焦直接來源流量,看看能在哪些維度上發現特徵:
建立高階細分後,我們到各個報告中瀏覽一下,果然發現了異常狀況:
明明是移動版的網站,為什麼突然增加了這麼多Windows作業系統的訪問量?而且幾乎全是新使用者,顯然有問題。
我們再調出次級維度,看看瀏覽器UA的資訊。結果這下更不得了,Windows居然用上了iPhone瀏覽器,這流量的異常算是證實了。(這裡需要解釋一下:這個“瀏覽器UA”是我們在GA中配置的自定義維度1,然後需要在統計程式碼中加入:
'dimension1':navigator.userAgent
才可以生效。瀏覽器UA是尋找虛假流量的利器,建議大家都配置一下)
排除異常流量
當我們找到了異常流量的特徵,後續的事情就簡單了:建一個高階細分,將Windows系統並且瀏覽器UA中包含iPhone的會話排除掉,這些異常流量就消失了。
以上是“發現-分析-排除”異常流量的一個案例,可以看到其中最重要的步驟其實是第二步——只有在某些維度上能夠精準篩選出異常流量,才能在不影響正常流量的情況下將其排除。以下是我最近遇到的另一個異常流量,它的特徵是瀏覽器UA開頭結尾都帶有雙引號(正常情況不該有):
在這種情況下,除了用高階細分排除異常之外,還有一個更好的解決方案:在前端統計程式碼中直接加入判斷,如果發現以雙引號開頭和結尾的瀏覽器UA資料,就不執行統計程式碼,於是這些異常流量就被從根源上排除了,根本不會進入資料系統之中。
另外對於GA的使用者,在用於做分析的主檢視中一定要把下面這個選項選中,能排除掉大部分爬蟲流量:
最後還有一種常見情況,例如運營論壇的同事做了一個“簽到抽大獎”的活動,就可能導致大量低粘度的使用者突然訪問,看起來似乎也是異常,所以作為分析師要經常和產品/運營部門溝通,避免做無用功。
最後我想說的是,發現和排除異常流量是一場持久戰,沒有永遠的贏家和輸家,我們能做的就是和同事一起不斷髮現和總結,提升識別和排除異常流量的能力。
關於作者
孫維,卡車之家資料資產中心總監,網際網路從業15年,資料分析從業6年老兵。Google Analytics資深使用者,「資料分析日常」公眾號博主

ICDO翻譯志願者招募
ofollow,noindex">【號外】iCDO志願者少量職能開放招募機會!
關於iCDOinternet Chief Data Officer (iCDO),中文全稱網際網路資料官,中國專業化的學習型媒體平臺,專注資料驅動的網際網路營銷和運營。
訂閱號-每日嚐鮮 服務號- 每月精選