1. 程式人生 > >資料分析的三大框架:底層技術、分析建模、工具選擇

資料分析的三大框架:底層技術、分析建模、工具選擇

先看下資料科學的世界觀,參考下面的思維導圖:

資料分析的三大框架:底層技術、分析建模、工具選擇

有了世界觀,我們可以開始搭建自己的知識大廈了。在搭建知識大廈之前,先需要建立知識的框架,然後才能高效的填充知識。所以今天我們先建立框架。

 

資料分析的三大框架

資料科學的框架分為三部分:底層技術框架/資料分析框架/工具選擇框架,接下來依次給大家介紹:

 

1. 底層技術框架

底層技術框是資料科學的基礎設施,我們有所瞭解就好,處理框架和處理引擎負責對資料系統中的資料進行計算。

流處理系統:流處理系統會對隨時進入系統的資料進行計算。相比批處理模式,這是一種截然不同的處理方式。流處理方式無需針對整個資料集執行操作,而是對通過系統傳輸的每個資料項執行操作。

流處理中的資料集是“無邊界”的,這就產生了幾個重要的影響:

  • 完整資料集只能代表截至目前已經進入到系統中的資料總量。
  • 工作資料集也許更相關,在特定時間只能代表某個單一資料項。

批處理系統:批處理在大資料世界有著悠久的歷史,批處理主要操作大容量靜態資料集,並在計算過程完成後返回結果。

批處理模式中使用的資料集通常符合下列特徵:

  • 有界:批處理資料集代表資料的有限集合;
  • 持久:資料通常始終儲存在某種型別的持久儲存位置中;
  • 大量:批處理操作通常是處理極為海量資料集的唯一方法。

批處理非常適合需要訪問全套記錄才能完成的計算工作,例如:在計算總數和平均數時,必須將資料集作為一個整體加以處理,而不能將其視作多條記錄的集合。這些操作要求在計算進行過程中資料維持自己的狀態。

 

2. 日常監控框架

資料資料分析的工作分為倆部分,日常長遠工作(相當於養兵千日)和針對專案/公司需求做的及時響應(相當於用兵一時)。

日常長遠的工作主要是日常監控系統。

2.1 日常監控系統主要分為:測量/建立標準/發現異常

首先是測量

測量就是將具體的產品和業務轉化為資料的過程.本質上來看,這個過程相當於把一個現實世界的物件對映到我們的抽象空間裡,先天的會存在很大的誤差,但是意義重大,統一了我們看待業務的方式。從此之後,我們對於業務的討論都在一樣的標準上進行。同時,也由於測量的先天誤差,測量值得不斷更新。

舉個栗子:一個內容產品建立業務指標的邏輯 假設你是內容運營,需要對現有的業務做一個分析,提高內容相關資料,你會怎麼做呢?

我們把金字塔思維轉換一下,就成了資料分析方法了, 從內容運營的流程開始,它是:內容收集——內容編輯釋出——使用者瀏覽——使用者點選——使用者閱讀——使用者評論或轉發——繼續下一篇瀏覽。 這是一個標準的流程,每個流程都有指標可以建立。內容收集可以建立熱點指數,看哪一篇內容比較火。使用者瀏覽使用者點選則是標準的PV和UV統計,使用者閱讀是閱讀時長。

資料分析的三大框架:底層技術、分析建模、工具選擇

2.2 建立標準和發現異常

有業務指標體系,我們就可以監控產品了,那麼資料的波動一定是因為產品本身的問題嗎?其實不然。

想象這樣一種場景:你在一家做玩具跨境電商的公司,在3月份,發現公司玩具銷量出現大幅下滑,結果做了很多分析,提出了N種解決方案,依然收效甚微。被老闆一頓痛罵之後,苦惱的回家,開啟電視一開,新聞聯播說:中美貿易危機,出口行業受較大影響,領導表示親切關懷.。

原來資料異常,並不是公司的問題,而是整個環境變了,而我們卻用了大量的時間精力分析自己的問題。

所以我們要建立正常的標準,我們每次比較都是預期標準比較的,而不是和0比較,也不是和最好的情況比較。

  • 常見的基準:同行業平均水平/巨集觀經濟指標/公司運營活動預期。
  • 發現異常:設定標準偏離正常標準3%算作異常,值得我們深入分析。

其實資料分析的日常工作,還可以包括豐富企業的模型庫,這一點在下一部分的敘述會有所涉獵。

 

3. 面向專案的問題分析框架

上面介紹完了資料分析師的日常工作,接下來介紹工作的另一部分——解決專案實際問題。

3.1 發現並明確問題

問題的來源包括這幾個方面:

(1)業務部門的問題需求

(2)監控發現的異常資料

提出一個好問題,往往比找到答案重要。

業務部門直接給出的問題往往模糊不清,我們需要去分析問題的本質,把他進行簡化抽象。

(3)對問題進行本質分析

  1. 剝離自然語言,最後語句中只包含倆類語句結構:A是B,A屬於B。
  2. 轉化為集合語言或者系統語言。

(4)把問題歸結到幾種常見問題型別,或者轉化為常見問題的組合,問題的本質型別

價值判斷類,相當於為什麼的問題。

首先應該明確判斷的標準,然後進行打分。

現實類,相當於是什麼和怎麼辦的問題,可以近似為是因果/相關關係探索類的問題。

問題的衍生型別:

  1. 預測問題:相當於因果關係探索;
  2. 決策問題:相當於價值判斷類問題+因果關係探索;
  3. 分析原因問題:相當於因果關係類問題。

3.2 問題的全方位分析

文獻綜述(俗稱百度,當然不僅僅包含百度)

針對提出的問題,搜尋前人的分析,總結前人的經驗。常見的高質量資料來源:知乎、知網、谷歌學術。

問題的探索性分析:

  1. 頭腦風暴:頭腦風暴法(Brain storming),是指由美國BBDO廣告公司的奧斯本首創,該方法主要由價值工程工作小組人員在正常融洽和不受任何限制的氣氛中以會議形式進行討論、座談,打破常規,積極思考,暢所欲言,充分發表看法。
  2. 德爾菲法:也稱專家調查法 德爾菲法,也稱專家調查法,1946 年由美國蘭德公司創始實行。該方法是由企業組成一個專門的預測機構,其中包括若干專家和企業預測組織者,按照規定的程式,背靠背地徵詢專家對未來市場的意見或者判斷,然後進行預測的方法。
  3. scrum 專案管理方法:它是由三個角色(產品負責人、scrum專家、團隊成員)、四個儀式(衝刺計劃會、每日站會、衝刺評審會、衝刺回顧會)和三個物件(產品積壓、衝刺積壓、燃盡圖)組成的一套專案管理方法。衝刺,是一次竭盡權力的都安排,scrum的核心,是把整個專案分成若干個衝刺,每次2-4周,衝萬一次再來一次。

3.3 資料收集

內部資料:由公司業務體系決定,公司內部產生的互資料。

  • 常用工具有:GA/百度統計;
  • 也有公司自建資料庫:通過SQL查詢。

外部資料:

  • 常見指數:百度指數、阿里指數、谷歌趨勢指數、騰訊TBI指數、經濟指數(大盤指數等)
  • 競品監控:ALEXA / similar WEB。

3.4 資料的預處理和預分析

我們收集來的資料,並不能直接使用,而是需要先進行清洗。

預處理主要是指清洗好資料之後,可以對資料做一下粗略分析,方便建模的深入。

資料分析的三大框架:底層技術、分析建模、工具選擇

預分析-主要是 針對物件做描述統計,包括分佈、集中/離散趨勢,包括均值/方差/偏度/峰度/分位數等,也包括相關性的探索性分析。

3.5 選擇模型

模型空間的構建:這是個無限集合,其實模型的收集永無止境。我們也可以按照演繹的體系去梳理模型空間,我們主要收集的是三類模型:商業/統計/資料探勘。

商業分析模型:麥肯錫等諮詢公司根據商業需要總結的一些分析框架,我們的模型大多來自諮詢公司,也可以根據業務理解,自己建立。

比如:波特五力模型是邁克爾·波特(Michael Porter)於20世紀80年代初提出。他認為行業中存在著決定競爭規模和程度的五種力量,這五種力量綜合起來影響著產業的吸引力以及現有企業的競爭戰略決策。五種力量分別為同行業內現有競爭者的競爭能力、潛在競爭者進入的能力、替代品的替代能力、供應商的討價還價能力、購買者的討價還價能力。

資料分析的三大框架:底層技術、分析建模、工具選擇

統計模型,主要是依靠統計學知識。各種分佈和檢驗的關係原理,這部分需要很好的數學基礎,我這裡只簡單的給出輸入條件和輸出條件,至於其中的具體原理,有機會做一個概述。

資料分析的三大框架:底層技術、分析建模、工具選擇

資料探勘模型:

  • 生成模型:由資料學習聯合概率分佈P(X,Y),然後求出條件概率分佈P(Y|X)作為預測模型,即生成模型P(Y|X)=P(X,Y)/P(X)——存在隱變數。典型的生成模型:樸素貝葉斯法,隱馬爾可夫模型。
  • 判別模型:由資料直接學習決策函式f(X)或者條件概率分佈P(Y|X)作為預測的模型。即對給定的輸入X,應該預測什麼樣的輸出Y。典型的判別模型:k近鄰法、感知機、決策樹、邏輯斯蒂迴歸模型、最大熵模型、支援向量機、提升方法、條件隨機場。

監督學習三類問題:分類問題、標註問題、迴歸問題。

可用於分類問題的統計學習方法:k近鄰法,感知機,樸素貝葉斯法,決策樹,決策列表,邏輯斯蒂迴歸模型,支援向量機,提升方法,貝葉斯網路,神經網路,Winnow 可用於標註問題的統計學習方法:隱馬爾可夫模型,條件隨機場。

模型的選取標準:

  • 根據業務需求,確定優先順序進行打分;
  • 根據測試效果選擇。

模型在具體問題下的構建:

  • 資料探勘問題的模型求解;
  • 根據業務實際需要調整模型。

模型評價:基準模型,其他建模嘗試。

  • 多元線性迴歸作為基準模型;
  • 其他模型效果明顯提高,認為超越基準模型。

3.6 成果輸出

成果輸出,一般是面向組織內部,比如:同事、老闆,也有可能面向吃瓜群眾,這倆種情況的原則很不一樣,組織內部是理性交流,要講邏輯,面向觀眾,則要講情感。

(1)結構化 mece法則

MECE,是Mutually Exclusive Collectively Exhaustive 縮寫,中文意思是“相互獨立,完全窮盡”。 也就是對於一個重大的議題,能夠做到不重疊、不遺漏的分類,而且能夠藉此有效把握問題的核心,併成為有效解決問題的方法。 它是麥肯錫的第一個女諮詢顧問巴巴拉·明託(Barbara Minto)在金字塔原理(The Minto Pyramid Principle)中提出的一個很重要的原則。

視覺化的本質是面對非本領域專家,為了方便資訊的傳達,用圖形直觀的方式展示分析成果(分析模型),圖形主要是各種統計圖表和邏輯框架圖.,圖形的選擇標準主要是根據變數屬性(定量資料還是定類資料),變數個數,希望達成的展示目標決定。

具體選擇原則見下圖:

資料分析的三大框架:底層技術、分析建模、工具選擇

面向吃瓜群眾的成果輸出,感官刺激,如果是面向吃瓜群眾,那麼要儘量減少邏輯/說理的成分,儘量用視覺化的表達.視覺想象是第一說服力。生活中我們做事情,並不是理性對理性,更多的時候都是感情對感情。

3.7 模型反饋

知道貝葉斯定理嗎?其實我們最終得到的模型,本質是一個假設,具體有效沒效,需要在實踐中檢驗。

模型評價:模型效果=模型預測-實際情況。

 

關於工具選擇的框架

我們需要區分方法和工具,以上談到的資料分析框架是方法,而實現這些方法可以人力完成,也可以藉助計算機輔助,目前計算機輔助資料分析工具主要是三部分:

  • 計算機語言:Python 和 R. 我學習的是Python,Python具有高擴充套件的能力,幾乎在計算機各個領域都有應用. R具有非常全面的數學分析包,也是不錯的選擇;
  • 軟體:Excel ,power BI等. 入門的話可以掌握Excel,Excel提供了實現以上框架的全流程操作,不僅僅是做個表格那麼簡單. powerBI 是微軟推出的免費的商業智慧軟體,是視覺化不錯的工具;
  • 各種小型工具 主要是各種指數工具,還有各種資料收集工具,以下給出了圍繞營銷漏斗的工具集合。

資料分析的三大框架:底層技術、分析建模、工具選擇

 

總結

資料分析的三大框架:底層技術、分析建模、工具選擇

聊點輕鬆的,steam教育

STEAM教育思想思潮 STEAM代表科學(Science),技術(Technology),工程(Engineering),藝術(Arts),數學(Mathematics)。STEAM教育就是集科學,技術,工程,藝術,數學多學科融合的綜合教育。

steam教育並不是要求我們面面俱到,而是希望我們在1-2個領域達到80%的水準,在若干領域達到60%的程度。這一方面是因為我們需要全面的視角,這樣我們可以更加清醒的認識世界,也是因為現實業務需要我們有這樣的能力。

商業發展到今天,工作中我們遇到的問題已經不是簡單重複就可以完成的,我們需要創造性的建模,建模要求我們有廣闊的模型空間可以選擇,而STEANM教育可以給我們提供廣闊的模型空間,我們在裡面可以方便的類比,方便的尋找同構解。

以“如何有效對比”這一簡單的問題,我們試著在各個領域尋找同構問題,科學方法論中的對照實:實驗組與對照組設定。

金融學中的收益評價:一個金融產品收益=基準收益(大盤指數)+實際產品特性導致的收益。

巨集觀經濟學:房價增速 = 基準(經濟發展水平+城市化水平+通貨膨脹)+泡沫。

微觀經濟學:沉沒成本不是成本,機會成本才是真正的成本。一個選擇的真實價值=該選擇價值-其他所有選擇中價值最大的那個選項的價值。

歷史學研究現代化:理想現代化模板:英國,其他國家的現代化=英國模式+波動調整。

以上通過一個簡單的例子,想說明開闊眼界的重要性,這也是為什麼說 steam人才儲備量是衡量一個國家實力的重要標誌.

關於整個知識體系的詳細描述,將會在最後一篇資料科學邊界,做一些討論,可以關注。

今天寫的內容有點多,如果不瞭解不要著急,接下來幾天會有對框架詳細的論述。