1. 程式人生 > >產品讀書《誰說菜鳥不會資料分析(入門篇)》

產品讀書《誰說菜鳥不會資料分析(入門篇)》

什麼是資料分析?怎麼樣才是資料分析的思維?資料分析的流程有哪些?常用的資料方法又有哪些?工具呢?可以學習的網站有哪些?我覺得《誰說菜鳥不會資料分析(入門篇)》講的很清楚,能夠基本解決你想要了解的有關資料分析的基礎知識,當然,如果你沒有太多時間去詳細完整地看完整本書,那以下內容會對你有比較大的幫助。這是我學習過程中的學習筆記,也是這本書知識點的概括和總結,希望對你有所幫助。

一  資料分析那些事兒

1、什麼是資料分析?

資料分析指用適當的統計分析方法對收集來的大量資料進行分析,將它們加以彙總和理解並消化,以求最大化地開發資料的功能,發揮資料的作用。

2、分類和作用

探索性資料分析側重於發現新的特徵,驗證性資料分析側重於驗證已有假設。

3、資料分析6步曲

資料收集:資料庫、公開出版物、網際網路、市場調查

資料處理:資料清洗、資料轉化、資料提取、資料計算

注:資料探勘是高階的資料分析,側重解決:分類、聚類、關聯、預測,重點在尋找模式和規律。

撰寫報告:結論、建議或解決方案

3、常用指標和術語

  • 平均數
  • 絕對數:5000人、300元、50家
  • 相對數:20%、6倍、7成、1:5、3‰、120元/人
  • 百分比
  • 百分點:1個百分點=1%,是指變動的幅度
  • 頻數:絕對數,是一組資料中個別資料重複出現的次數
  • 頻率:相對數,次數與總次數的比,反應一個整體中各部分之間的關係。
  • 比例:相對數,總體中各部分佔全部的比,如:男生的比例是30:50(男生:男生+女生)
  • 比率:相對數,不同類別的比,如男女比率:3:2(男生:女生)
  • 倍數:相對數,一個數除以另一個數所得的商,如A/B=C,那麼A是B的C倍。
  • 番數:相對數,指原來數量的2的N次方,如翻一番,意思是原來數量的2倍,翻兩番意思是4倍
  • 同比:相對數,指歷史同時期進行比較,如去年12月與今年12月相比是同比,反應相對發展情況
  • 環比:相對數,指與前一個統計期進行比較,如今年5月與今年4月相比是環比,反應逐期發展情況

二 確定分析思路

1、資料分析方法論

資料分析方法論用來巨集觀地指導資料分析,更多的是指資料分析思路。

2、常用的資料分析方法論

營銷方面的理論模型:4P、使用者使用行為、STP理論、SWOT等

管理方面的理論模型:PEST、5W2H、時間管理、生命週期、邏輯樹、金字塔、SMART原則等

1)PEST分析法:用於巨集觀環境的分析。【PEST主要用於行業分析】

  • 政治Political:政治體制、經濟體制、財政政策、稅收政策、產業政策、投資政策、國防開支等等
  • 經濟Economic:收入水平、消費偏好、就業情況、儲蓄情況等等
  • 技術Technological:新技術的發明和發展、技術更新速度、傳播速度、專利情況等等
  • 社會Social:受教育程度、文化水平、宗教信仰、風俗習慣、審美觀點、價值觀等等

2)5W2H分析方法【5W2H可用於使用者行為分析、業務問題等等】

3)邏輯樹分析法:將問題的所有子問題分層羅列,逐步向下擴充套件【邏輯樹可用於業務問題專題分析】

作用:理清思路、避免重複和無關的思考

原則:要素化:相同問題歸納為要素

          框架化:各個要素構成框架,遵守不重不漏原則

          關聯化:保持必要的相互關係

4)4P營銷理論【4P主要用於公司整體經營情況分析】

  • 產品Product:滿足需求的東西
  • 價格Price:購買產品的價格,關係到企業利潤、成本補償、產品銷售促銷等。影響定價的三要素:需求、成本、競爭。
  • 渠道Place:產品從生產到使用者的流轉環節。
  • 促銷Promotion:刺激使用者消費,促進消費增長。促銷的四大要素:廣告、宣傳推廣、人員推銷、銷售促進。

      

5)、使用者行為理論【使用者行為理論使用者使用者行為研究分析】

有使用行為軌跡:認知——熟悉——試用——使用——忠誠

網站分析指標體系:

三、資料準備

  • 欄位與記錄
  • 資料型別:字元型資料、數值型資料

1、二維資料-----轉->一維資料

2、文字資料匯入EXCEL:資料---自文字/自網站

3、問卷錄入要求:數值題、單選題、多選題(二分法、多重分類法)、排序題、開放性文字題

四、資料處理(EXCEL)

Step 1、資料清洗:刪除多餘重複的資料,補齊缺失資料,糾正或刪除錯誤資料。

  • 重複資料的處理:函式法countif、條件格式、高階篩選、透視表、刪除重複值、
  • 缺失值的處理:定位輸入、查詢替換、條件格式(可以接受缺失值在10%以下)

定位輸入(Ctrl+G)

1)使用樣本統計量的值(常用:平均值)代替缺失值

2)用統計模型(迴歸模型、判別模型)計算出來的值去替代缺失值

3)刪除缺失記錄

4)保留,但在分析時排除

注:CTRL+ENTER 批修改值

  • 檢查資料邏輯錯誤

1)IF函式:IF(COUNTIF(B3:H3,"<>0")>3,“錯誤”,“正確”)  如果錄入的選項(非0的資料)超過3個,則單元格顯示“錯誤”,否則,顯示“正確”。

2)條件格式 OR AND

eg:=OR(B3=1,B3=0)=FALSE  如果“B3為1或0”的命題是錯誤的(=FALSE),則會被條件格式突出標記出來。

Step 2、資料加工

1)資料抽取

  • 欄位分列:選單法(特定分隔符時方便)、LEFT/RIGHT函式

  • 欄位合併:CONCATENAT、&

  • 欄位匹配:VLOOKUP

2)資料計算:

  • 簡單計算:加減乘除等
  • 函式計算:平均值、求和、日期的加減法

3)資料分組 :VLOOKUP

4)資料轉換:行列轉換、資料轉換、多選題錄入方式轉換

5)資料抽樣:RAND

五、資料分析

1、資料分析方法

補充:矩陣關聯分析法:第一象限(高度關注區)、第二象限(優先改進區)、第三象限(無關緊要區)、第四象限(維持優勢區);發展矩陣、改進難易矩陣

綜合分析的5個步驟:

資料標準化:0-1標準化、Z標準化

權重確定方法:專家訪談法、德爾菲法、層次分析法、主成分分析法、因子分析法、迴歸分析法、目標優化矩陣表等

2、高階資料分析方法

3、資料透視表

  • 百分比計算
  • 環比、同比計算
  • 資料分組計算

六、資料展現

1、通過關係選擇圖表:表達形象化、突出重點體現專業化

  • 成分:餅圖、百分比堆積柱形圖、百分比堆積條形圖、瀑布圖
  • 排序:柱形圖、條形圖、氣泡圖、帕累託圖
  • 時間序列:折線圖、柱形圖、、面積圖
  • 頻率分佈:柱形圖、條形圖、折線圖
  • 相關性:柱形圖、對稱條形圖(旋風圖)、散點圖、氣泡圖
  • 多重資料比較:雷達圖

2、表格:

  • 突出顯示單元格
  • 資料條
  • 圖示集
  • 迷你圖

3、其他好看的圖:

  • 平均線圖
  • 雙座標圖
  • 豎形折線圖
  • 人口金字塔圖
  • 漏斗圖
  • 矩陣圖、發展矩陣圖
  • 瀑布圖:用於財務分析,表示企業成本的構成、變化等
  • 帕累託圖:又叫排列圖、主次圖,按照發生頻次的高低繪製的直方圖
  • 旋風圖:對稱條形圖,可用於活動/行為前後的指標變化,具有因果關係指標之間的變化和聯絡

七、圖表規範化


1、圖表元素:標題、圖例、單位、腳註、資料來源


2、注意事項

  • 餅圖:從12點鐘開始、資料保持在5項以內(定位理論)、不要使用餅圖分離、不需要圖例、不要3D效果

  • 複合餅圖/複合條形圖:當元素大於5項時

              

  • 柱形圖:同一資料序列使用相同的顏色、不要使用傾斜的標籤(太長可用條形圖代替、縱座標軸一般從0開始(若新增資料標籤縱座標可刪除)、最好新增資料標籤、刻度線和網格線多餘、可以設定為Arial字型

  • 條形圖:同柱形圖(由大到小排列)

  • 折線圖:線條不要超過5條、不要使用傾斜標籤、縱座標軸一般從0開始、刻度線和網格線多餘、預測值用虛線表示

注:圖表會撒謊

(1)虛張聲勢的增長----刻度調整

(2)3D效果的偽裝----簡約不用3D效果

(3)逆序排列的誤導

(4)一維圖形的障眼法

3、圖表美化:簡約、整潔、對比
1)最大化資料墨水比:圖表中每一滴墨水都要有存在的理由【用在資料元素上(曲線、條形、扇形等),不要用在非資料元素(座標軸、填充色、網格線等和原始資料無關的元素)】

去掉不必要的背景填充色、去掉無意義的顏色分類、去掉裝飾性的漸變色、去掉網格線、邊框、刪掉不必要的圖例、去掉不必要的座標軸、去掉裝飾性圖片、以上不能去掉的元素儘量淡化、對需要強調的資料元素進行突出標識

2)、找出隱形的線
3)、圖表喜歡的數字格式:Arial字型
4)、突出對比:直線、箭頭、陰影等【瞭解基礎配色】

八、資料分析報告

1、資料分析報告的作用:

  • 展示分析結果
  • 驗證分析質量
  • 提供決策參考

2、資料分析報告的種類

  • 專題分析報告:單一性、深入性:切忌蜻蜓點水,泛泛而談
  • 綜合分析報告:全面性、聯絡性:從巨集觀角度反映指標之間關係
  • 日常資料通報:進度性、規範性、時效性

3、資料分析報告的結構

  • 標題:解釋基本觀點、概況主要內容、交代分析主題、提出問題
  • 目錄
  • 前言:背景分析、目的、思路
  • 正文:
  • 結論與建議

資料分析誤區:

  • 分析目的不明確,為分析而分析;
  • 缺乏業務知識,分析結果偏離實際;
  • 一味追求使用高階分析方法,熱衷研究模型;

附錄: