1. 程式人生 > >《商業資料分析》讀書筆記(一)

《商業資料分析》讀書筆記(一)

前言

 

1.介紹:資料分析思考

資料機會的普遍存在

案例:法國颶風

案例:預測客戶流失

資料科學,工程,和資料驅動決策制定

資料處理和“大資料”

從大資料1.0到大資料2.0

作為戰略資產的資料和資料科學能力

資料分析思考

這本書

資料探勘和資料科學,再訪

化學不是關於試管的:資料科學VS資料科學家的工作

總結

 

前言

 

這本書適合:

與資料科學家共事的商務人士,主導資料科學導向的專案和資料科學相關的風投人士。

試圖用資料科學解決商務問題的開發者

有抱負的資料科學家

 

這本書重點在於介紹商務資料科學背後的原則,而非演算法細節。

讀者不需要深厚的數學素養,但是內容依舊具有技術性。因為它不是一個全域性概覽性的樹。

 

這本書橫跨展望問題,到應用資料科學技巧,到部署結果提升決策制定水平的整個過程。

 

概念適合三大類:

1.關於資料科學如何植入到組織中的概念,包括吸引,構建,培養資料科學團隊;資料科學如何轉化為競爭優勢的方法;與資料科學團隊相處的戰術概念

2.資料分析思維的大體方法。幫助人識別合適的資料和考慮合適的方法。概念包括資料探勘過程以及不同複雜度的資料探勘任務

3.真正從資料中挖掘知識的整體概念。

 

 

這本書不光被本系的MBA喜歡,其他理工學生也喜歡。還被其他幾個學校作為教材。

 

 

第一章 介紹:資料分析思考

 

要有大大的夢想,小夢想不能驅動人心——歌德

 

過去十五年在商務基礎設施方面有了廣闊的投資,這改善了在企業各方面手機資料的能力實質上商業的各個方面現在都對資料收集敞開大門而且經常甚至配備了資料收集裝備:運營,製造,供應鏈管理,消費者行為,營銷表現,工作流程等等。與此同時,資訊正在諸如市場趨向,行業新聞,和競爭者運動方面有更廣泛的可用性。這種對資料廣泛的可用性讓人對從資訊中抽取有用資訊的理論更感興趣,那就是——資料科學領域。

 

**

商業的各個層級都有資料,而且可用性日趨增大,資料科學就是從資料中抽取有用資訊。

**

 

資料機會普遍存在

 

隨著大量資料可用,幾乎各行各業的公司都在應用資料提高競爭優勢。過去,公司會僱傭統計學家,建模師和分析師手動探索資料集,但是資料的體量和多樣性已經遠遠手動分析的能力。同時,計算機已經更強大,網路無處不在,可以連線資料集和更廣更深分析的演算法已經開發出來。種種現象的匯聚讓資料科學原則和資料探勘技術的商業應用大大擴充套件。

 

營銷領域現主要用於目標營銷,線上廣告,交叉銷售推廣。客戶關係管理,管理消耗和最大化期望客戶價值。

金融領域用於信用評分和交易

運營領域欺詐偵測和勞工管理

主要零售商沃爾瑪和亞馬遜在從營銷到供應鏈管理方方面面應用資料科學。

 

本書首要目標是幫助你從資料角度看待商業問題和理解從資料中抽取有用資訊的基本原則。當然,這並不是說,閱讀這本書以後就會擁有商務或資料科學意識,師傅領進門,修行在個人。

 

兩個例子

 

法國颶風

沃爾瑪資訊長在颶風來臨前一個星期通過歷史資料分析在接下來一週的貨物需求量,來管理庫存。挖掘出什麼資訊?不僅是顯而易見的瓶裝水會大賣,而且草莓和啤酒也會大賣。如果不進行資料探勘,就得不到這個資訊,到時候會斷貨。導致銷售損失。

 

**

商業資料分析,目標是解決商務問題。賣更多東西。

對於任何人,處在任何位置,都需要做決策,決策背後能否用資料支援呢?

**

 

預測客戶流失

這些資料分析表現如何?考慮第二個,一個更典型的商業行動方案,如何通過資料視角看待它。這個問題會作為一個動態例子來闡明這本書提出的主要問題並且提供一個參考通用模型。

 

資料無處不在。

資料科學的核心作用是預測,發現背後的規律,用這種規律來預測將來發生的事情

這就引出來一個問題,我想知道什麼,或是別人特別想知道什麼,這個東西可不可以被預測。

mege公司面臨使用者流失問題,假設你就是分析員。

他們打算給客戶提供一項激勵以保留現有客戶,你的任務就是在細節上決定把這些激勵給哪些客戶(要知道,營銷預算有限,保留老客戶比吸引新客戶更省錢,而且也不能給所有人這項激勵,必須充分運用這些預算)

 

仔細思考你需要什麼資料以及如何利用他們?

描述客戶的特徵向量,包括最終是否流失,帶來的利潤等等歷史資料。

 

電信和金融領域的客戶保留中大量應用資料探勘

 

資料科學,工程,和資料驅動決策制定

 

資料科學在通過(自動)分析理解現象中包括原則,流程和技巧。這本書中,我們將資料科學的根本目標設定為改善決策制定,因為它通常在商業中帶來直接利益。

 

資料驅動決策並不完全依賴於經驗和直覺或是抽象的資料分析,而是兩者的結合。

資料驅動決策已經被科學家確證了可以顯著提高決策水平。

 

沃爾瑪的對手瞄準(TARGET)從歷史資料中分析預測誰會懷孕,以便進行精準營銷。

從歷史資料中帶著發現一些有用的東西的希望去挖掘,而非簡單測驗一個假設。

 

對於客戶管理中的資料科學(以下簡稱DS)應用,關鍵目的是保留客戶。預測哪些客戶會流失,預測每個客戶的可能消費是多少,決定要在他身上投入多少。無論是否有DS的參與,營銷活動都必須進行,顯然,DS讓營銷更有效了。

 

同樣的邏輯可以應用於許多領域,在直接營銷,線上廣告,信用評分,金融交易,服務檯管理,欺詐偵測,艘多排序,產品推薦等等領域都有DS的大量集中應用。

 

資料驅動決策(data driving decision making,DDD)支援決策制定,並且商業決策由計算機系統自動制定的情況越來越多。

 

自動決策在不同行業有不同的應用率。在電信和金融領域內最早被採納,很大程度上是因為它們較早具備資料網路和大範圍計算的應用,這允許他們對大資料聚合和建模以及應用決策諮詢模型。

 

**

自動決策以後就像機器一樣越來越被人信賴和依賴,因為人的決策過程,說到底就是數學,既然是數學,就有可能被程式執行。這是比機電裝置更高一級別的自動化。

但是人的直覺,人的無意識或是潛意識,也就是現在還無法用邏輯解釋的創造靈感,目前來看還無法用演算法代替。

因此,自我實現,在演算法時代,更凸顯了重要性。不能把人當做工具。應該把人當做具有創造性和主觀能動性的人。不要試圖完全掌控別人,要給予別人充分的自主性。企業不是軍隊。

**

 

上世紀90年代金融電信行業就部署了大資料決策系統。接著是零售業,然後是網路營銷,如亞馬遜和網飛,因為越來越多的人在網上消費,這要求系統有作出瞬間線上商業決策的能力。

 

資料科學的核心在於發現規律和預測。

基礎設施鋪設——》資料科學的個性化應用

資訊社會,資料越來越多,資料科學能力成為戰略能力。

培養資料科學思維:從資料分析的角度看待問題。

這是在只覺得基礎上,增加這一種能力,能讓人成為更為完善,更為整合的人。

注意:也千萬不要忽視直覺力,這是我們作為人最珍貴的能力。

資料科學對我來說是一種有力的工具。它可以用來解決我關心的問題。


 

直覺,是走向和諧完滿的唯一途徑。

自我實現,是我唯一神聖使命。

大資料的個性化應用,是現在的主流。


 

資料處理和大資料

 

有必要離題一下。資料處理不是DS,資料工程(DE)和資料處理(DP)對支援DS很重要,但是他們更廣泛。DS需要DE/DP出來的資料,但他們不是DS本身。DS是從資料中抽取知識,實現DDD。

 

熱門的Hadoop /HBase/MongoDB都是屬於資料處理和資料工程領域。

 

DS的本質,是從資料中獲取知識。

 

從大資料1.0到大資料2.0

 

作者將資料科技類比成網際網路科技。當你有了基本的通訊網路之後,你會想幹更多的事情。

你就從web1.0跨越到了為web2.0,當你有了更多的資料之後,你就會對資料有更多思考,考慮現在能不能做以前從未做過的事情,或者能不能比以前做得更好?這就開始了跨越。

 

亞馬遜在網路和資料技術應用方面都走在了最前線。

意思就是有了更深入或是更細分的應用?

 

資料和資料科技能力作為一種戰略資產

持有這種觀點,可以讓決策者進行清楚明確的思考。注重在這方面的投資。

資料和資料科學能力缺一不可。建造拔尖的資料科學團隊不是平凡的事業,但是可以在決策領域產生巨大的改變。

 

西奈銀行是一個經典案例。上世紀80年代資料科技給它帶來鉅變。給失約概率建模將這個行業從個人失信可能性評估改變到戰略性的大規模評估,這隨之帶來了大量的經濟效益。雖然現在看起來很奇怪,但是在那是,信用卡有同樣定價,因為:1)公司沒有足夠的資訊系統處理大規模不同定價, 2)銀行管理層認為顧客不接受區別定價

 

**

真讓我有些吃驚,也有些受到啟發。現在存在的東西,只適合它創造的時候,並不適合現在。萬事萬物都在不斷的發展變化著,對待事情就像對待人一樣,不能有成見,保持開放的胸懷和頭腦。

鄧小平和李光耀都具有這種魄力。無論自己犯了多麼大的錯誤,損失了多少東西,一旦自己發現方向錯了或走錯了路,就會毫不猶豫的

 

上個世紀八九十年代,銀行的信用卡定價系統從統一變革到了個性化!

因為當時沒有足夠強大的的資訊系統對每個客戶進行個個性化信用評估,甚至銀行認為人們根本不會接受區別定價?!

事情應該怎麼做?這是獨立理性思考的範疇。而事情的現狀是什麼樣則不一定合理。所謂的變革,就是從發現這種不合理開始。

“存在即合理”是一句沒用的廢話。這只不過是理論家們為了自圓其說發明的狗屁不通的屁話。目的就是讓人們看不懂,想不通。

銀行本質上就是借貸。

當然需要考量借貸人的信用?傻子才不這麼想!

但是,從技術角度做不到。

現在有許多行業其實也到了啟動這項變革的節點。是什麼呢?有資料的地方就有知識和預見。有預見能力就可以更好的決策。

 

這個西奈銀行的案例很有趣,值得反覆研習。

 

**

 

 

大約1990年,richard faribanks and morris nigel 認為資訊科技已經足夠強大到計算個性化信用(個性化應用已經成為了一種趨勢,正在被實踐)。他們跑遍各大銀行沒有得到高管的支援,最後在一家區域性銀行——西奈銀行得到了支援。他們要對每個客戶的贏利性和失約性進行建模。

 

開始西奈前了幾年的資料籌集過程,導致了可觀的損失,但是他們把這些損失看作是對資料科學的投資。因此,在股東抱怨重重的時候堅持下來。

 

開始信用評級之應用到了銀行內客戶資料,後來又引入了社會統計資料,更多的資料讓交易表現獲得了驚人的成長。

亞馬遜收集資料,給客戶進行個性化推薦讓營業額顯著增長。

 

 

臉書上有海量的個人和他們的喜好資料。但是這些資料能否被充分應用還是個問題。小扎不是接受國會質詢了嗎?

 

**

大量的行業應用案例,確實說明了資料和資料科學大有用武之地。

**

 

作者的觀點是資料科技的個性化應用。

 

這本書

這本書偏重於理念。但也不是不注重技術。技術承載了種種理念。

這本書奉獻很多注意力在從大資料中抽取有用的(何為有用?非凡的,能指導實際行動的)模型或模式,或說規律(也就是道)

比如,在客戶流失案例中,是發現模式,行為模式,幫助我們預測哪些人不會與我們再續約。

 

資料分析思維

分析類似客戶流失問題的案例提高了我們用資料分析解決問題的能力。推廣擴大這種視角是這本書的目的之一。當我們面臨一個業務問題時,應該能夠評估是否和如何用資料來解決改善這個問題。我們討論了一系列促進仔細思考的基本概念和原則。我們開發了一個框架讓分析成為一個系統。

 

DDD在商業活動中扮演越來越重要的角色。所以,不管你是否要直接參與到DDD中,都應該對它有所瞭解,這樣才能有能力與其互動,或者發掘它的威脅。

當你的諮詢師說要挖掘一個數據集時,你能夠進行基本的判斷,該不該這麼做;

 

從較小的方面說,一個僱員要能和資料科學團隊互動,也需要知道基本的原則和概念。這種不理解對資料團隊傷害很大。種種不理解會浪費資料科學團隊的時間,甚至作出錯誤決策。

 

**

作為一個商業資料科學工作者,就有義務向別人(任何人)解釋為什麼你做的事情重要。。。它有什麼實際作用。資料科學人員必須具有說服力,才能讓別人心甘情願協助工作。

作者提出了一個重要且清晰的觀點:從資料中提取有用資訊,什麼是有用?非凡的——有些東西即使不做資料分析也可以得到,那就不是有用的;可執行的——發現了知識,但是根本與商業問題聯絡不起來,沒法指導商業決策或商業行為,這也叫無用。

**

 

 

以下是本書中的基本理念,它們以及更多的理念會在後續章節中詳細說明。

基本理念:

從資料中抽取有用知識可以系統的有邏輯的按照定義好的步驟完成。跨行業資料探勘標準流程,縮寫是CRISP-DM(2000年),是這個過程的一個成典。

 

**

簡言之,資料探勘有章可循。

2015年,IBM發行了新版本。縮寫ASUM-DM。

**

 

基本理念:

資訊科技可以發現資訊豐富的描述性屬性。

拿客戶流失案例說,一個客戶對應多個屬性,如使用,服務歷史,和其他。那麼哪個屬性給我們提供了它要停止續約的資訊,提供了多少資訊。有時候,這個過程涉及到粗略的找到與“流失”相關的變數。分析師或許會進行一些假設檢驗,並且還有一些工具幫助我們推進這個實驗。或者,分析師可以將資訊科技應用到自動發現重要屬性——本質上是做大規模自動篩選。更進一步,這個理念可以一再應用到進行多屬性模型構建。

 

**

簡言之,自動化特徵工程。甚至,自動化模型構建。作者應該是要告訴我們,應該有用程式自動化一些東西這個理念,並且應用這個理念。學會應用自動化工具甚至創造自動化工具。

**

 

基本理念:

如果你使勁兒審視一個數據集,你會發現一些東西,但會失去泛化能力。過擬合是個重要概念,尤其在實際問題中。它滲透到了資料科學處理,演算法和評估的各個部分。

 

基本理念:

規劃資料探勘解法和評估結果包含仔細思考它將要被應用到的環境。

如果我們的目標是抽取潛在有用知識,我們如何具體定義有用?它關鍵取決於應用。以流失管理為例,我們如何應用從歷史資料中抽取出來的模式?應不應該把客戶價值加入到離開可能性的考量中?寬泛一點說,這個模式相對於一些其他選擇能帶來更好的決策嗎?如果隨機決策效果怎麼樣?

 

**

這個理念是最重要的,就是切合具體商務問題情景。思考DS能不能解決問題。能解決什麼問題。又沒有更好的其他方式解決問題。。。。這些問題需要我們思考,使勁而思考。

**

 

化學不是關於試管的:資料科學VS 資料科學家的工作

再繼續進行之前,我得在簡要說一下資料科學的工程一面。就如同一個化學家一定是一個稱職的實驗室技師一樣,一個數據科學家或資料科學工作者一定是能夠應用軟體工具的。

 

說了這一點,這本書關注通用原則與理念。技術發展迅速,但是這些理念過去二十年和未來幾十年不會變化太大。

 

總結