1. 程式人生 > >資料分析:如何從網際網路大資料中分析行業趨勢

資料分析:如何從網際網路大資料中分析行業趨勢

一、前言:

研究行業趨勢是每家公司的硬需求,如手機業者希望瞭解同行有沒有什麼顏色是比較受消費者歡迎的,護膚品公司想要了解什麼成分是被廣泛而且美譽的討論,藉由加入這些概念元素,他們可以讓他們的產品更具吸引力,這種跟風做法其實一直都有,但是傳統人工去看會遇到兩個問題:

1、發現過慢:
通常人工可以發現時,這些概念元素通常是已經是被很多同行應用了,等到研發生產出來可能風頭已經過了,例如之前櫻花這個概念在美妝品裡很火,但是等公司發現了櫻花很火到決定應用在新產品再到研發生產上線後發現已經晚了,消費者用過後其他競品的櫻花系列商品後覺得沒新鮮感就不再買了,這也是為什麼跟風是個分秒必爭的工作的原因。

2、視野不全:
人工去看的資料其實只是全域性資料的一小塊,可能會出現偏差,例如你發現某個概念很火,但是可能只是一小撮人在炒作,其實大眾還沒有認知,即使認知了接受度也不高,但由於研究人員無法全觀的去檢視資料,就會導致這種偏差,又或者有個概念已經有一定熱度了,可是不在研究人員的視野範圍內,這種事也是不少見的。

鑑於上述情況,越來越多公司希望能有一個很巨集觀全面的分析工具,能快速從網際網路大資料中找出當前消費者正在討論的熱點。對於一些大品牌,不創新就是坐以待斃,因為現在有太多網紅小品牌配合社媒行銷來搶市場,所以如何高效的去創新產品,並且提高成功率,就是我們這次系統建設的目標,下面會介紹我們當前是如何去建設這樣一套系統。

 

二、實現方法:

從上面的圖可以看到,首先,我們要先圈定資料來源,資料來源決定輸出的質量和效果,所以,一定要非常審慎的去梳理。一般來說,我們會將資料來源區分為4種,下面會逐一說明:

1、專家資料(PGC):這個一般代表這具有一定權威性和影響力的人物,比如閱讀量很高的微信公眾號,微博上活躍的大V,論壇上知名的KOL,行業權威專家的blog,行業新聞等。由於他們的權威性和影響力,很多的概念都是由他們帶動或是傳播的,如果PGC升高通常代表這個概念正在被廣泛傳播。

2、社交資料(UGC):這是代表一般消費者的聲音,比如微博普通使用者,論壇上的使用者。可以透過他們瞭解這個概念在消費者的接受度和觀感,如果消費者聲量裡面提及此概念負面情感偏高通常代表這個概念比較不被大眾所接受。

3、廣告資料(AD):一般是微博上的微商廣告文,或是某些平臺上面的廣告文,通常如果某一個概念大量出現在廣告中,代表他現在正火,或是極具吸引力,微商為了要吸引眼球通常會在標題或是圖片特別強調這個概念。

4、電商資料(EC):這邊我們可以看兩個資料,一個是商品名稱,一個是銷量,如果有某個概念近期被大量使用在商品名稱上,代表這個概念正火,如果同類型產品,包含此概念的商品比不包含的銷量高很多,代表這個概念對是極具購買吸引力的。

瞭解這4種資料的特性和代表意義後,我們就要進入到如何去做資料處理。

首先,我需要了解的是我們行業的趨勢(如手機,我想知道現在手機顏色的趨勢是啥,或是攝像頭的趨勢),我不需要了解食品、化妝品的趨勢,所以,我的資料採集是要針對手機的討論陣地,並且透過合適的關鍵詞和過濾詞來採集手機行業的資料,再將採集回來的資料進行清洗和融合,整理成我們可以用來分析的資料,記住,這邊務必要讓整個流程自動化,一開始先人工檢查輸出的資料質量,並且調整流程中的引數(如調整過濾詞,降低雜音),使資料能穩定且自動化的進行輸出。

 

三、演算法介紹

這邊會用到的演算法,除了基本的NLP相關演算法,有三個重要的演算法需要特別說明一下。

1、概念識別:

其實就是實體識別,只是要根據業務的需求去重新訓練演算法,比如,for食品行業,我們要從食品的資料裡面識別出成分(蔓越莓、杏仁)、功效(瘦身、美白)、口味(草莓、芝士)。for手機行業,我們要從手機資料裡面識別出價格區間(2K - 2.5K、3K - 3.5K)、顏色(極光色、琥珀色)、攝像(潛望鏡、1億畫素),這邊需要根據業務方想看到哪些維度的資料去進行訓練,這邊有個難點,首先有些概念會有不同的說法,或是錯別字,就會導致同一個概念的聲量被拆分,這個時候就需要去做歸一化的工作,比如護甲、保護指甲、寶護指甲其實都是講同一個概念,需要將他們的資料合併視為一體。

2、新奇度計算:

根據每個概念的過往在各種資料上的聲量增漲和波動去計算新奇度值,比如香草這個概念在PGC上面聲量增長很快,接著UGC也開始有聲量的增長,利用這些去增長比例去判斷概念是否是最近新起的概念,或是微商已經在炒作的熱門概念,這些需要去設定各種聲量的權重,並且也需要考慮到品牌集中度(比如極光色聲量很高,但是隻有出現在華為的手機上),通常比較有價值去研究的概念是已經出現在市場上,並且消費者反饋良好,PGC也在推廣,但是UGC和微商聲量還不是很高的概念,這些才是具有潛力可以去跟風的概念。

3、知識圖譜:

知識圖譜是相對比較成熟的技術,也是在前一陣子被炒的特別的熱,這邊的應用就是在做概念研究的時候,可以參考知識圖譜輸出完整的產品原型,比如在研究怎麼做出一款防脫髮的洗髮素時,有沒有什麼成分可以新增進去,或是現在很火的海鹽成分,到底可以用在哪些產品上,消費者認為海鹽具備哪些功效,都是可以透過知識圖譜去串聯出來。這邊要注意的是,知識圖譜需要慎重採用資料來源,否則出來的效果會很差,並且知識圖譜的效能是建立在資料來源的量上,要找出質高量大的資料是建立知識圖譜最困難的地方。

 

四、輸出樣式

這套系統的服務業務方式如上,首先系統會自動生成一個概念榜單,透過總聲量、各資料種類聲量、聲量增長、新奇度值等指標進行排序,展示近期比較火或是比較有潛力的概念,使用者可以從中挑選一些有興趣的概念進行深挖研究。接著,透過系統觀察概念在PGC、UGC、電商、廣告的聲量變化趨勢,還有觀察討論內容,商品應用情況,消費者反饋等等綜合因素,決定要研究的概念。最後,知識圖譜可以幫助概念具象化,幫助研究人員生成合適的產品原型,達到新品研發的目標。

舉個例子,某個研究人員在潛力概念榜單上發現了“防脫髮”這個詞最近聲量增長趨勢不錯,於是他檢查了“防脫髮”的聲量變化趨勢,發現了防脫髮在PGC和廣告已經持續熱了一段時間,但是近期UGC聲量突然上漲,檢視資料後發現由於前一陣子程式設計師掉髮的話題很火,其他消費者也開始擔心是否自己有一天也會開始脫髮,於是就開始討論防脫髮的各種方法,接著我們去電商和廣告看了,大部分防脫髮的產品都是洗髮水護髮素的形式,而且銷量也都表現的不錯,所以我們決定也要開發一款防脫髮的洗髮水。最後我透過知識圖譜去找,跟防脫髮相關的概念都有哪些,我們發現草本、天然、精油、蘆薈、蜂蜜、生薑等等詞都是跟防脫髮相關的,於是我們再去研究消費者對這些詞的觀感,就可以研發出一款迎合消費者需求和喜愛的產品。

當然上面是很理想化的過程,傳統這種產品研發往往耗時一年以上,並且成功率也不高,而使用了這套大資料產品創新系統後,可以更快的發現好的概念,並且提供各種維度的資料支援,讓研究人員可以更高效的去完成新品研發的工作。

 

五、結語

整個解決方案雖然很美好,但是實施起來其實難度很高,最困難的莫過於資料質量的問題,一開始出來的概念趨勢也不是很好看,需要人工不斷進行優化,調整關鍵詞和過濾詞,排除噪音,建立歸一化規則。知識圖譜也是,需要找到大量而且質量高的資料其實很不容易。但是系統實際搭建完成後,大部分的使用者都很滿意系統為他們帶來的便捷性,以往這些支撐資料是需要專項去抓取,非常花費人力和時間,現在幾乎是自動化的進行資料展示,更及時更高效。對於一些大公司而言,除了能夠節省大量的人力外,也能更快更及時的捕捉到市場上的趨勢,整體收益還是相當明顯