1. 程式人生 > >深入淺出資料分析 一

深入淺出資料分析 一

學習經驗

  • 慢慢讀。理解的內容越多,要記憶的內容越少。
    忌死讀。停一停,想一想,碰到書中的提問時,別直接翻看答案;想象真的有人在問你這個問題。強迫自己的大腦想的越深,學會、記住的概率就越大。
  • 自己做練習,自己記筆記
    我們安排了練習和筆記,但是要是我們替你完成,就像別人替你鍛鍊身體一樣;只動眼不動手也不可取,要動筆。大量證據表明,學習時的身體動作能夠提高學習效率。
  • 閱讀“世上沒有傻問題”部分
    世上沒有傻問題。這些問題並非可看可不看,這是核心內容的組成部分!請勿忽略。
  • 請將下面這段話作為最後一段床頭閱讀文字。
    有一部分學習過程(尤其是短暫極易轉變為長期記憶的過程)發生在放下書本之後,大腦需要有自己的時間進行更多的處理。如果在這段處理時間內學習新東西,那麼就會丟失一些剛學會的東西。
  • 開口大聲的討論
    說話會刺激大腦的其他部分。如果你正在努力理解一些知識或者正在努力的增加以後記住這些知識的概率,請大聲的說出這些知識。
    還有一種更好的做法,試著向別人大聲解釋這些知識。你會學的更快,可能還會發現一些閱讀時候不曾發現的名堂。
  • 大量的喝水
    充沛的體液會讓大腦處於最佳工作狀態,脫水(早在感到口渴前就會發生)則會讓認知功能下降
  • 聆聽大腦的聲音
    留意你的大腦是否超負荷工作。若你發現自己開始心不在焉,或者剛剛讀過的東西轉眼忘記,就該休息。一旦過了某個學習點,哪怕拼命塞,也無法提高學習效率,反而有可能影響學習。
  • 勤加練習
    學會資料分析的唯一辦法就是勤加練習,這正是本書的要求。資料分析是一門技術,精於此道的唯一辦法就是大量實踐。本書將帶給你大量的實踐機會:每一章中都有一個等待你解決的問題,千萬別跳過這些問題不看——大量學習都發生在解決問題的過程中。
    我們為每一個問題都提供了答案,要是卡了殼(有些細微的地方很容易給人帶來麻煩),不要不敢看!不過,請儘量先解決問題再看答案,務必讓你的辦法行之有效,然後再繼續看書中的下一部分內容。

資料分析就是仔細推敲證據

  • 資料分析這個詞涵蓋大量形形色色的工作和大量形形色色的技巧。就算有人明白的告訴你他是資料分析師,你依然無法確定她的專長。
  • 但是,所有優秀的工程師,無論專長或者目標如何,都會在工作過程中按順序執行下面這個固定基本流程:
  • 確定問題——分解問題和資料——評估——做出決策
  • 在本書的每一章中,你會一次又一次地按順序執行這些步驟,很快這些步驟就會完全成為你的第二本能。
  • 所有的資料分析師最終會被打造成能做出更好決策的人才,你要學習的是,在浩如煙海的資料彙總洞察先機,做出更好決策

確定問題

  • 未明確自己的問題或者目標就進行資料分析就如同未定下目的地就上路旅行一樣。
  • 客戶將會幫助你確定問題
    客戶將根據你的分析做決策,你需要儘可能的從他那裡多瞭解一些資訊才能確定問題。
世上沒有傻問題
  • 我總是在資料裡兜來兜去。您是說我得現在腦子裡有些特定的目標,才能哪怕只是過一眼我的資料?
    == 沒必要現在腦子裡形成資料再去瀏覽資料。但是要記住,僅僅過一眼並不是資料分析。資料分析總的來說就是認清問題,以及繼而解決問題。
  • 我聽說過探索性資料分析,就是從資料中找出一些可能想進一步進行評估的電子。這種資料分析方法中並沒有什麼“問題確定”步驟
    == 確實有這種分析方法。在探索性資料分析中,問題就是要找到一些值得進行測試的假設條件,這完全是個具體問題。
  • 很好。給我多講講對自己的問題不甚瞭解的客戶吧,那種人也需要資料分析師嗎?
    == 當然
  • 聽起來似乎那種人更加需要專業幫助
    == 的確如此,優秀的資料分析師幫助客戶思考自己的問題;他們不會等著客戶告訴他們該做什麼。要是有人能夠向客戶指出他們毫無察覺的問題,客戶會真心誠意的感謝此人。
動動筆

問題是我們想要提高保溼霜的銷量,你想問銷售這款保溼霜的CEO提出什麼問題呢?

我的問題:
    這款保溼霜競爭對手是哪些?對手的定價怎麼樣?
    廣告費和社交網路費能否加大投入?
資料分析師的問題:
    您希望銷量提高多少?
    您覺得我們怎樣才能辦到呢?
    您覺得銷量提高多少是可行的?目標銷量合理嗎?
    我們的競爭對手銷量多少?
    廣告和社交網路營銷預算是怎麼回事?

分解問題

將大問題劃分為小問題
  • 你需要將問題劃分為可管理可解決的組塊。你面對問題時通常含糊不清。
    例如:
    我們如何提高銷量?
  • 可以分解為:
    我們最好的客戶希望我們給他們什麼?
    哪種促銷方式最有可能產生效果?
    我們的廣告做的怎麼樣了?
  • 你無法直接回答大問題。但是通過回答從大問題分出來的小問題,你就可以找到大問題的答案。
將資料分解為更小的組塊

資料的處理也是如此。人們無意告訴你你所需要的精確答案的量化值,你必須自己提煉重要的因子。
如果你拿到的是原始資料表,你就會想對這些因子進行彙總,讓資料更有用。
讓我們從資料開始。嘗試分解最重要因子的最好起步辦法就是找出高效的比較因子。

  • 進行有效的比較是資料分析的核心,整書通篇都在講述這個工作。‘

相關推薦

深入淺出資料分析

學習經驗 慢慢讀。理解的內容越多,要記憶的內容越少。 忌死讀。停一停,想一想,碰到書中的提問時,別直接翻看答案;想象真的有人在問你這個問題。強迫自己的大腦想的越深,學會、記住的概率就越大。 自己做

深入淺出資料分析書要點記錄(三):第10章到第13章

10. 迴歸——預測 要點: (1)演算法:為了完成某個計算而執行的任何過程。 (2)散點圖:見第4章,用於顯示觀察結果的成對關係。 (3)平均值圖:一種散點圖,顯示了與X軸上的每個區間相對應的Y軸數值。 (4)迴歸線:最準確地貫穿平均值圖中各個點的直線,可以用等式

【讀書筆記】深入淺出資料分析

目錄  · · · · · · 1 資料分析引言:分解資料 1 2 實驗:檢驗你的理論 37 3 最優化:尋找最大值 75 4 資料圖形化:圖形讓你更精明 111 5 假設檢驗:假設並非如此

深入淺出資料分析》資源彙總

1.官網   www.headfirstlabs.com 2.Edward Tufte的圖形原則很有用。 《出色的證據》 Beautiful Evidence 《公共政策資料分析》Data Analysis for Public Policy.下載地址 

深入淺出資料分析

一、分解資料 1.仔細推敲證據 2.心智模型 二、實驗:檢驗理論 1.比較法 統計與分析的最基本原理之一,比較越多,分析結果越正確。 2.觀察研究法 被研究人自行決定自己屬於哪個群體的一種研究方法。 3.混雜因素 觀察分析法充滿混雜因素

深入淺出資料分析》下載

2018年11月01日 21:29:16 qq_43580855 閱讀數:2 標籤: 程式設計 資料

書評:《深入淺出資料分析

深入淺出系列的書被很多人譽為神書,其原因是文字詼諧,內容簡單,排版休閒。 《深入淺出資料分析》書是一本資料分析大雜燴,囊括了許多資料分析的方法,思維,工具,可把目錄中13個章節視作本書的13個分支。

深入淺出資料分析----- 學習筆記

證偽法:剔除無法證實的假設。可以克服人們專注於錯誤答案而無視於其他答案的天然傾向。通過強迫自己以完全正規的方式思考問題,會減少因忽視重要特徵情況而犯錯誤的可能性。 滿意法:選出看上去最可信的第一個假設。滿意法的問題是當人們在未對其他假設進行透徹分析的情況下選取某種假設時,往往會堅持這個假設,即

初學資料分析()【利用numpy實現矩陣標準化】

大資料分析中許多情況下需要用到矩陣標準化(使該矩陣每一列的平均值為0,標準差為1)Here is the formula: (X-mean())/std()以上運算是按列進行的,因為通常大資料分析中的矩陣X N*M,其中每一行代表一個數據,而列代表不同的性質,既是N個數據,每

筆記《深入淺出資料分析》上

這本書洪荒之力推薦。雖然是資料分析,全書都是案例,用對話的方式引導你深入學習。全程都在思考。反思這些年上學的經驗,以為書就應該是一句句定義,描述,介紹,各種枯燥的說明文。而這本看似“不正經”的書

深入淺出資料分析:最優化-用Excel求解一個線性規劃問題

《深入淺出資料分析》這本書是我看了一個知乎回答以後買的,但是買來發現,對於習慣了惜字如金和寸紙寸金的中文書的大部分人來說,這本書真的是太不好讀了。。。文中充滿了各種奇怪的插圖、箭頭、問題和對白,這本書有點像。。。小學教材。。。 不過這本書的實際內容當然很有用。比如,最優化

深入淺出資料分析(美)米爾頓著pdf

下載地址:網盤下載 內容簡介 編輯 《深入淺出資料分析》以類似“章回小說”的活潑形式,生動地向讀者展現優秀的資料分析人員應知應會的技術:資料分析基本步驟、實驗方法、最優化方法、假設檢驗方法、貝葉斯統計方法、主觀概率法、啟發法、直方圖法、迴歸法、誤差處理、相關

【python資料分析()】Numpy基礎及基本應用

一.資料處理的一般流程: 資料收集—》資料預處理—》資料處理—》資料展示 資料收集:網路爬蟲,公開資料集,其他途徑收集的資料 資料預處理:歸一化,二值化,維度變換,去重,無效資料過濾 資料處理:資料排序,資料查詢,資料統計分析 展示:列表,圖表,動態互動圖形

資料分析系列教程之pandas(

之前講了資料分析numpy庫,今天開始講資料分析教程pandas庫,可以說,python在資料分析領域獨樹一幟,離不開pandas的強有力支撐,之前教程中也說過了,numpy主要處理數值型資料,pandas不但能處理數值型,字元型等也能處理,而且相比numpy,pandas會更好用,一般情況

從0到1搭建基於Kafka、Flume和Hive的海量資料分析系統()資料收集應用

大資料時代,一大技術特徵是對海量資料採集、儲存和分析的多元件解決方案。而其中對來自於感測器、APP的SDK和各類網際網路應用的原生日誌資料的採集儲存則是基本中的基本。本系列文章將從0到1,概述一下搭建基於Kafka、Flume、Zookeeper、HDFS、Hive的海量資料分析系統的框架、核心應用和關鍵模組

python資料分析新手入門課程學習——(資料獲取(來源:慕課網)

一、資料獲取手段 1.資料倉庫(DW):將所有業務資料經彙總處理構成             1)特點:              全部事實的記錄;部分維

如何做出份優質的資料分析報告?

大家都知道,資料分析用來發現並解決問題,最後都需要把資料展示出來,把結果最終呈現給大家,只有大家都認同,決策才會得到順利的執行。那麼怎麼做出優質的資料分析報告呢?做好一份優質的資料分析報告需要確定報告框架、資料來源的獲取、資料處理、資料分析、視覺化展示這幾點就足夠了。 一份優質的資料分析報告,需要注意四

資料分析)豆瓣華語電影分析

本文首發於『運籌OR帷幄』公眾號,大家也可前往公眾號檢視,《用資料帶你瞭解電影行業—華語篇》。 在之前,我們已經用通過爬蟲獲取了豆瓣華語電影共33133部電影的資料,具體爬蟲介紹請見之前的博文,爬蟲實戰(一)——利用scrapy爬取豆瓣華語電影。本文對爬蟲過程進行簡要概述後,對這部分資料

利用Python進行資料分析閱讀筆記(

資料規整化:清理,轉換,合併,重塑 轉置(transpose)     實現的幾種方式:  import numpy as np arr = np.arange(15).reshape((3,5)) print(arr) print(arr.T) pri

python進階(資料分析numpy庫

numpy——基礎,以矩陣為基礎的數學計算模組,純數學儲存和處理大型矩陣。  這個是很基礎的擴充套件,其餘的擴充套件都是以此為基礎。 scipy——數值計算庫,在numPy庫的基礎上增加了眾多的數學、科學以及工程計算中常用的庫函式。  方便、易於使用、專為科學和工程設計的Py