1. 程式人生 > >【資料科學】迄今最全面的資料科學應用總結:16個分析學科及落地應用

【資料科學】迄今最全面的資料科學應用總結:16個分析學科及落地應用

640?wx_fmt=png&wxfrom=5&wx_lazy=1

資料科學,資料探勘,機器學習,統計學,運籌學等方面有什麼不同?

在這裡,我比較幾個重疊的分析學科,來解釋差異和共同點。除了歷史原因,有時候除了別的東西外別無其他。有時候,差異是真實而微妙的。我還提供了典型的職位,分析型別以及傳統上與每個學科相關的行業。帶下劃線的域是主要的子域。

首先,我們從描述資料科學這個新的學科開始。

職位包括資料科學家,首席科學家,高階分析師,分析總監等等。它涵蓋了所有行業和領域,尤其是數字分析,搜尋技術,市場營銷,欺詐檢測,天文學,能源,健康護理,社交網路,金融,法醫學,安全(NSA),移動,電信,天氣預報和欺詐檢測。

專案包括分類學建立(文字挖掘,大資料),適用於大資料集的聚類,推薦引擎,模擬,統計評分引擎的規則系統,根本原因分析,自動出價,取證,外星行星檢測以及恐怖分子的早期發現活動或流行病。資料科學的一個重要組成部分是自動化,機器到機器的通訊,以及在生產模式下不間斷執行的演算法(有時是實時的),例如檢測欺詐,預測天氣或預測房價為每個家庭(Zillow)。

資料科學專案的一個例子是建立增長最快的資料科學Twitter個人資料,用於計算營銷。它利用大資料,是病毒式營銷/增長黑客策略的一部分,還包括自動化的高質量,相關聯合內容生成(簡而言之,數字出版3.0版)。

與大多數其他分析行業不同,資料科學家被認為具有良好的商業頭腦和領域專業知識 - 他們傾向於成為企業家的原因之一。資料科學家有許多型別,因為資料科學是一門寬泛的學科。許多高階資料科學家掌握著他們的藝術/工藝,擁有全部的技能和知識;他們確實是招聘者找不到的獨角獸。招聘經理和不知情的管理人員喜歡狹隘的技術技能,而不是深厚的,廣泛的和專業化的業務領域的專業知識 - 當前教育系統的副產品,有利於學科孤島,而真正的資料科學是孤立的破壞者。獨角獸資料科學家(名詞不當,因為他們並不稀奇 - 有些著名的風險投資家)通常擔任顧問或高管。初級資料科學家往往更專注於資料科學的一個方面,擁有更多的熱門技術(Hadoop,Pig,Cassandra),如果他們接受了適當的培訓和/或有公司的工作經驗, Facebook,谷歌,eBay,蘋果,英特爾,Twitter,亞馬遜,Zillow等。潛在候選人的資料科學專案可以在這裡找到。

資料科學與重疊

電腦科學:計算複雜性,網際網路拓撲和圖論,Hadoop等分散式架構,資料管理(資料流和記憶體分析的優化),資料壓縮,計算機程式設計(Python,Perl,R)以及處理感測器和流資料(設計自動駕駛的汽車)

統計學:包括多變數檢驗,交叉驗證,隨機過程,抽樣,無模型置信區間的實驗設計,但不包括對大資料詛咒的假設的p值或模糊測試

機器學習和資料探勘:資料科學確實完全包含了這兩個領域。

運籌學:資料科學包含大部分運籌學,以及旨在基於分析資料優化決策的任何技術。

商業智慧:資料科學是設計/建立/識別重要指標和KPI,建立資料庫模式(不管是否使用NoSQL),儀表板設計和視覺化以及資料驅動策略以優化決策和投資回報率的每個BI方面。

與其他分析標準進行比較

機器學習:非常流行的電腦科學學科,資料密集型,部分資料科學與資料探勘密切相關。機器學習是關於設計演算法(如資料探勘)的重點,但重點是生產模式的原型演算法,設計自動更新自動系統(招標演算法,廣告定位演算法),不斷訓練/重新訓練/更新訓練集/驗證並改進或發現新的規則(欺詐檢測)。 Python現在是ML開發的流行語言。核心演算法包括聚類和監督分類,規則系統和評分技術。接近人工智慧的子域(參見下面的條目)是深度學習。

資料探勘:這個學科是關於設計演算法來從相當大的和潛在的非結構化資料(文字挖掘)中提取洞察力,有時被稱為金塊發現,例如在檢視5000萬行資料後挖掘一個巨大的僵屍網路。技術包括模式識別,選擇,聚類,監督分類,幷包含一些統計技術(儘管沒有使用大多數統計方法的p值或置信區間)。相反,重點是強大的,資料驅動的,可擴充套件的技術,對發現原因或可解釋性沒有太大的興趣。因此資料探勘與統計資料有一定的交集,是資料科學的一個子集。資料探勘應用於計算機工程,而不是數學科學。資料探勘者使用開源和Rapid Miner等軟體。

預測建模:本身不是一門學科。預測建模專案遍佈所有學科的所有行業。預測建模應用程式旨在基於過去的資料預測未來,通常但不總是基於統計建模。預測往往伴隨著置信區間。預測建模的根源在統計學上。

統計:目前,統計主要是關於調查(通常用SPSS軟體進行),理論學術研究,銀行和保險分析(營銷組合優化,交叉銷售,欺詐檢測,通常與SAS和R),統計程式設計,社會科學,全球變暖研究(和空間天氣模型),經濟研究,臨床試驗(製藥業),醫學統計學,流行病學,生物統計學和政府統計學。聘請統計人員的機構包括人口普查局,IRS,CDC,EPA,BLS,SEC和EPA(環境/空間統計)。需要安全檢查的工作薪酬較高,而且相對安全,但製藥行業的高薪工作(統計人員的金雁)受到外包,公司合併和承受醫療保健壓力等諸多因素的威脅。由於保守的風險不利的醫藥行業的巨大影響,統計已經成為一個不適應新資料,不創新,資料科學鬆懈,工業統計,運籌學,資料探勘,機器學習等領域的狹窄領域,在那裡使用相同的聚類,交叉驗證和統計訓練技術,儘管以更自動的方式和更大的資料。 10年前被稱為統計學家的許多專業人士,在過去幾年裡,他們的職位已經變成資料科學家或分析師。現代子領域包括統計計算,統計學習(更接近機器學習),計算統計(接近資料科學),資料驅動(無模型)推理,體育統計和貝葉斯統計(MCMC,貝葉斯網路和分層貝葉斯模型正在流行,現代技術)。其他新技術包括支援向量機,結構方程模型,預測選舉結果和整合模型。

工業統計:非統計人員(具有良好統計培訓的工程師)經常進行統計,從事工程專案,如產量優化或負載平衡(系統分析員)。他們使用非常實用的統計資料,他們的框架比傳統統計更接近六西格瑪,質量控制和運營研究。也發現在石油和製造業。所使用的技術包括時間序列,方差分析,實驗設計,生存分析,訊號處理(濾波,去噪,去卷積),空間模型,模擬,馬爾可夫鏈,風險和可靠性模型。

數學優化:用單純形演算法,傅立葉變換(訊號處理),微分方程和Matlab等軟體解決業務優化問題。這些應用數學家在IBM,研究實驗室,NSA(密碼學)和金融行業(有時招聘物理或工程專業的畢業生)等大公司都有發現。這些專業人員有時會用統一的技術解決與統計學家完全相同的問題,儘管他們使用不同的名稱。數學家們使用最小二乘法進行插值或外推;統計學家使用線性迴歸進行預測和模型擬合,但是兩個概念都是相同的,並且依賴於完全相同的數學機器:只是描述相同事物的兩個名字。然而,數學優化比運算研究更接近統計學,僱傭數學家而不是其他實踐者(資料科學家)的選擇往往是由歷史原因決定的,尤其是對於像NSA或IBM這樣的組織。

精算科學:只是使用生存模型的保險(汽車,健康等)統計的一個子集:預測何時死亡,根據您的健康狀況(吸菸者,性別,既往疾病)確定您的醫療保險費用,以確定您的保險費。還預測極端的洪水和天氣事件,以確定保費。後來的這些模式出乎意料地是錯誤的(最近),並導致了比預期更大的支出。由於某些原因,這是一個非常活躍,分散的統計人員社群,不再稱自己的統計學家(職稱是精算師)。他們看到他們的平均薪酬隨著時間的推移而增長很好:對專業的限制和管理就像律師一樣,除了保護主義以外,沒有任何其他的原因可以提高薪水,減少合格申請人的數量。精算科學的確是資料科學(一個子領域)。

HPC:高效能運算本身並不是一門學科,但應該是資料科學家,大資料實踐者,電腦科學家和數學家關心的問題,因為它可以重新定義這些領域的計算正規化。如果量子計算成功,將徹底改變演算法設計和實現的方式。 HPC不應該與Hadoop和Map-Reduce混淆:HPC與硬體相關,Hadoop與軟體相關(儘管嚴重依賴Internet頻寬和伺服器配置以及鄰近性)。

行動調查:縮寫為OR。他們早在20年前就已經從統計中分離出來了,但是他們就像孿生兄弟,他們各自的組織(INFORMS和ASA)一起合作。 OR是關於決策科學和優化傳統業務專案:庫存管理,供應鏈,定價。他們大量使用馬爾可夫鏈模型,蒙特卡洛模擬,排隊和圖論,以及諸如AIMS,Matlab或Informatica等軟體。傳統的大公司使用OR,新的和小的(初創公司)使用資料科學來處理定價,庫存管理或供應鏈問題。許多運營研究分析師正在成為資料科學家,因為與OR相比,在資料科學方面有更多的創新和增長前景。另外,OR問題可以通過資料科學來解決。或者與六西格瑪重疊(見下文),也解決了經濟計量問題,在軍隊和國防部門有許多從業人員/應用。汽車交通優化是OR問題的一個現代例子,通過模擬,通勤者調查,感測器資料和統計建模來解決。

六個西格瑪:摩托羅拉和通用電氣幾十年前就大力推廣,這更多的是一種思維方式(一種商業哲學,如果不是一種崇拜),而不是一種紀律。用於質量控制和優化工程流程(參見本文中的工業統計的條目),由大型傳統公司進行。他們有一個擁有27萬名會員的LinkedIn小組,是包括我們資料科學小組在內的任何其他解析LinkedIn小組的兩倍。他們的座右銘是簡單的:把你的努力集中在20%的時間,產生80%的價值。應用簡單的統計資料(我很同意簡單的東西是必須的),這個想法是消除業務流程中的差異來源,使它們更可預測並提高質量。許多人認為六西格瑪是舊的東西,將消失。也許,但是基本的概念是堅實的,將保持不變:這些也是所有資料科學家的基本概念。你可以說六西格瑪是一個簡單得多的簡單操作研究版本(參見上面的條目),其中統計建模保持在最低限度。風險:非合格人員使用非強大的黑盒統計工具來解決問題,可能會導致災難。在某些方面,六西格瑪是一個更適合業務分析師(見下面的商業情報條目)比嚴重的統計學家更適合的學科。

定量分析:Quant人只是為華爾街工作的資料科學家,如高頻交易或股市套利問題。他們使用C ++,Matlab,來自著名的大學,賺取大筆資金,但當投資回報率太南太快,就馬上失去工作。他們也可以從事能源貿易。許多在經濟衰退期間被解僱的人現在都在解決點選套利,廣告優化和關鍵詞招標等問題。數量有統計背景(少數),數學優化和工業統計。

人工智慧:它回來了。與資料科學的交叉是模式識別(影象分析)和自動化(有些人會說智慧)系統的設計,以執行各種任務,在機器對機器通訊模式中,例如識別正確的關鍵字(和正確的出價) Google AdWords(付費點選廣告系列每天涉及數百萬個關鍵字)。我也考慮過智慧搜尋(建立一個搜尋引擎,返回您期望的結果,比Google廣泛得多)是資料科學中最大的問題之一,也可能是人工智慧和機器學習問題。一個古老的AI技術是神經網路,但現在正在失去人氣。相反,神經科學越來越受歡迎。

電腦科學:資料科學與電腦科學有一些重疊:Hadoop的和對映簡化的實現,演算法和計算的複雜性,以設計快速,可擴充套件的演算法,資料管理以及網路拓撲對映,隨機數生成,加密,資料壓縮和隱寫等問題。儘管這些問題也與統計科學和數學優化相重疊)。

計量經濟學。為什麼它與統計資料分開尚不清楚。許多分支機構脫離統計資料,因為它們變得不那麼通用,並開始開發自己的特定工具。但簡而言之,計量經濟學在本質上是非常統計的,使用時間序列模型,如自迴歸過程。也與操作研究(本身與統計資訊重疊!)和數學優化(單純形演算法)重疊。計量經濟學家如ROC和效率曲線(六西格瑪從業者也是如此,參見本文的相應條目)。許多人沒有很強的統計背景,而Excel的是他們主要或唯一的工具。

資料工程:由大型組織中的軟體工程師(開發人員)或架構師(設計師)執行(有時由小公司的資料科學家執行),這是電腦科學的應用部分(參見本文中的條目),以便為允許各種資料易於在記憶體或近儲存器中處理,並能很好地流向終端使用者(包括大資料消費者,如資料科學家)。目前受到攻擊的子域是資料倉庫,因為這個術語與靜態,孤立的資料庫,資料體系結構和資料流相關聯,受到NoSQL,NewSQL和圖形資料庫的興起的威脅。將這些舊架構轉化為新架構(只在需要時)或者使其與新架構相容,這是一項有利可圖的業務。

商業智慧:縮寫為BI。通過電子郵件傳送或交付/呈現給管理人員,競爭情報(分析第三方資料)以及參與資料庫模式設計(與資料架構師一起工作),重點關注儀表板建立,度量標準選擇,生成和安排資料報告(統計摘要)有效地收集有用的,可操作的業務資料。典型職位是業務分析師,但有些更多涉及市場營銷,產品或財務(預測銷售額和收入)。他們通常擁有MBA學位。有些人已經學習了諸如時間序列等高階統計資料,但大多數只使用(和需要)基本統計資料,而輕量級分析則依靠IT來維護資料庫和收集資料。他們使用Excel(包括多維資料集和資料透視表,但不是高階分析),Brio(Oracle瀏覽器客戶端),Birt,Micro-Sreategy或Business Objects(作為終端使用者執行查詢)等工具,儘管其中一些工具越來越多地配備了更好的分析能力。除非他們學習如何編寫程式碼,否則他們將與一些在決策科學,見解提取和演示(視覺化),KPI設計,業務諮詢以及投資回報率/收益/業務/流程優化方面表現優異的多價資料科學家競爭。商業智慧和市場研究(但不是競爭情報)正在經歷衰退,而人工智慧正在經歷一個復甦。這可能是週期性的。部分原因是由於不適應需要工程或資料科學技術來處理和提取價值的新型資料(例如非結構化文字)。

資料分析:這是自1995年以來新的商業統計術語,它涵蓋了廣泛的應用,包括欺詐檢測,廣告組合建模,歸因建模,銷售預測,交叉銷售優化(零售),使用者細分,客戶流失分析,計算顧客的長期價值和收購成本等等。除大公司外,資料分析師是初級角色;這些從業者比資料科學家的知識和經驗要窄得多,他們缺乏(也不需要)企業願景。它們是詳細的,並向諸如資料科學家或分析主管等管理人員報告。在大公司中,像資料分析師III這樣具有職稱的人可能是非常高階的,但他們通常是專業的,缺乏資料獲得的廣泛知識科學家們在大大小小的公司工作。

商業分析:與資料分析一樣,但僅限於業務問題。傾向於多一點財政,營銷或投資回報的風味。熱門職位包括資料分析師和資料科學家,但不包括業務分析師(請參閱業務智慧商業智慧入門,不同的領域)。

最後,還有一些最近出現的專業分析學科:健康分析,計算化學和生物資訊學(基因組研究)等。

640?wx_fmt=png

人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統(新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。

AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務和資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。

領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間

給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。

子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。

如果說上一次哥倫布地理大發現,拓展的是人類的物理空間。那麼這一次地理大發現,拓展的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!

新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。

產業智慧官  AI-CPS

用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:

新技術:“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧”;新產業:“智慧製造”、“智慧農業”、“智慧金融”、“智慧零售”、“智慧城市”、“智慧駕駛”;新模式:“財富空間”、“特色小鎮”、“賽博物理”、“供應鏈金融”

詳細介紹,訪問官網:AI-CPS.NET

本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!

產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:[email protected]