大資料應該這樣學：資料探勘與資料分析知識流程梳理

阿新 • • 發佈：2018-12-31

編輯文章

資料探勘和資料分析的不同之處：

在應用工具上，資料探勘一般要通過自己的程式設計來實現需要掌握程式語言；而資料分析更多的是藉助現有的分析工具進行。

在行業知識方面，資料分析要求對所從事的行業有比較深的瞭解和理解，並且能夠將資料與自身的業務緊密結合起來；而資料探勘不需要有太多的行業的專業知識。

交叉學科方面，資料分析需要結合統計學、營銷學、心理學以及金融、政治等方面進行綜合分析；資料探勘更多的是注重技術層面的結合以及數學和計算機的集合

資料探勘和資料分析的相似之處：

對大資料的概念都是模糊不清的，大資料是什麼，能做什麼，學的時候，該按照什麼線路去學習，學完往哪方面發展，想深入瞭解

想學習的同學歡迎加入大資料學習qq群：458345782，有大量乾貨（零基礎以及進階的經典實戰）分享給大家

並且有清華大學畢業的資深大資料講師給大家免費授課，給大家分享目前國內最完整的大資料高階實戰實用學習流程體系。

資料探勘和資料分析都是對資料進行分析、處理等操作進而得到有價值的知識。

都需要懂統計學，懂資料處理一些常用的方法，對資料的敏感度比較好。

資料探勘和資料分析的聯絡越來越緊密，很多資料分析人員開始使用程式設計工具進行資料分析，如SAS、R、SPSS等。而資料探勘人員在結果表達及分析方面也會藉助資料分析的手段。二者的關係的界限變得越來越模糊。

資料探勘

1 數學預備知識

概率論：支撐整個資料探勘演算法和機器學習演算法的數學基礎，要熟悉常見的一些概率分佈。

矩陣論：線性代數中對資料探勘最有用的部分，還有一些線性空間相關知識也很重要。

資訊理論：將資訊和數學緊密連線在一起並完美的表達的橋樑，需要掌握資訊熵、資訊增益等相關知識。

統計學：資料分析最早的依賴基礎，通常和概率論一起應用，現在的機器學習和資料探勘很多都是基於統計的，常見的均值、方差、協方差等都要熟練掌握。

2 程式設計基礎

資料探勘需要一定的程式設計基礎，因為要實現模型以及資料的處理很多工作都是需要程式來進行的，資料探勘常用的程式語言如下：

SQL：資料庫的熟練使用是任何資料探勘人員必不可少的技能。

C++ ：有很多的標準模板庫以及機器學習模型庫進行呼叫可以方便程式設計實現。

Python：對字串處理有極大的優勢，是解釋型語言，實現簡單，而且有很多開源的機器學習模型庫的支援，可處理大規模資料。

Matlab：擁有強大的矩陣運算，也是解釋型語言，有很多發展較成熟庫可以直接呼叫，支援資料結果的視覺化表示，但是處理資料量有限。

R：近年興起的資料分析程式語言，資料視覺化做的比較好，語法簡單，學習成本很低，很多非程式設計人員都可以數量掌握。

Java：使用範圍最廣的程式語言，有很多社群進行交流，進行程式設計實現具有靈活高效的特點，不足之處就是實現功能的程式碼量較大（相對於其他資料探勘程式語言）。

Scala: 一種具有面向物件風格、函式式風格、更高層的併發模型的程式語言。同時Scala是大資料處理平臺Spark的實現語言。

3 資料探勘的模型知識

機器學習和資料探勘是緊密相關的，要進行資料探勘需要掌握一些機器學習所用的方法和模型知識，通過模型的訓練可以得到處理資料的最優的模型。資料探勘常用的模型如下：

3.1 監督學習模型

就是人們常說的分類，通過已有的訓練樣本（即已知資料以及其對應的輸出）去訓練得到一個最優模型（這個模型屬於某個函式的集合，最優則表示在某個評價準則下是最佳的），再利用這個模型將所有的輸入對映為相應的輸出，對輸出進行簡單的判斷從而實現分類的目的，也就具有了對未知資料進行分類的能力。

3.1.1決策樹：

決策樹是用於分類和預測的主要技術之一，決策樹學習是以例項為基礎的歸納學習演算法，它著眼於從一組無次序、無規則的例項中推理出以決策樹表示的分類規則。構造決策樹的目的是找出屬性和類別間的關係，用它來預測將來未知類別的記錄的類別。它採用自頂向下的遞迴方式，在決策樹的內部節點進行屬性的比較，並根據不同屬性值判斷從該節點向下的分支，在決策樹的葉節點得到結論。

主要的決策樹演算法有ID3、C4.5（C5.0）、CART、PUBLIC、SLIQ和SPRINT演算法等。它們在選擇測試屬性採用的技術、生成的決策樹的結構、剪枝的方法以及時刻，能否處理大資料集等方面都有各自的不同之處。

3.1.2 貝葉斯方法：

貝葉斯（Bayes）分類演算法是一類利用概率統計知識進行分類的演算法，如樸素貝葉斯（Naive Bayes）演算法。這些演算法主要利用Bayes定理來預測一個未知類別的樣本屬於各個類別的可能性，選擇其中可能性最大的一個類別作為該樣本的最終類別。由於貝葉斯定理的成立本身需要一個很強的條件獨立性假設前提，而此假設在實際情況中經常是不成立的，因而其分類準確性就會下降。為此就出現了許多降低獨立性假設的貝葉斯分類演算法，如TAN（Tree Augmented Native Bayes)演算法，它是在貝葉斯網路結構的基礎上增加屬性對之間的關聯來實現的。

3.1.3 神經網路

神經網路是一種應用類似於大腦神經突觸聯接的結構進行資訊處理的數學模型。在這種模型中，大量的節點（稱”神經元”）之間相互聯接構成網路，即”神經網路”，以達到處理資訊的目的。神經網路通常需要進行訓練，訓練的過程就是網路進行學習的過程。訓練改變了網路節點的連線權的值使其具有分類的功能，經過訓練的網路就可用於物件的識別。目前，神經網路已有上百種不同的模型，常見的有BP神經網路、徑向基RBF網路、Hopfield網路、隨機神經網路（Boltzmann機）、競爭神經網路（Hamming網路，自組織對映網路）等。但是當前的神經網路仍普遍存在收斂速度慢、計算量大、訓練時間長和不可解釋等缺點。

3.1.4 支援向量機（SVM）

支援向量機（SVM，Support Vector Machine）是根據統計學習理論提出的一種新的學習方法，它的最大特點是根據結構風險最小化準則，以最大化分類間隔構造最優分類超平面來提高學習機的泛化能力，較好地解決了非線性、高維數、區域性極小點等問題。對於分類問題，支援向量機演算法根據區域中的樣本計算該區域的決策曲面，由此確定該區域中未知樣本的類別。

3.1.5 整合學習分類模型

整合學習是一種機器學習正規化，它試圖通過連續呼叫單個的學習演算法，獲得不同的基學習器，然後根據規則組合這些學習器來解決同一個問題，可以顯著的提高學習系統的泛化能力。主要採用（加權）投票的方法組合多個基學習器，常見的演算法有裝袋（Bagging）、提升/推進（Boosting）、隨機森林等。整合學習由於採用了投票平均的方法組合多個分類器，所以有可能減少單個分類器的誤差，獲得對問題空間模型更加準確的表示，從而提高分類器的分類準確度。

3.1.6 其他分類學習模型

此外還有logistics迴歸模型、隱馬爾科夫分類模型（HMM）、基於規則的分類模型等眾多的分類模型，對於處理不同的資料、分析不同的問題，各種模型都有自己的特性和優勢。

3.2 無監督學習模型

在非監督式學習中，資料並不被特別標識，學習模型是為了推斷出資料的一些內在結構，應用場景包括關聯規則的學習以及聚類等。常見的聚類演算法如下所示：

3.2.1 K-means聚類

K-means演算法的基本思想是初始隨機給定K個簇中心，按照最鄰近原則把待分類樣本點分到各個簇。然後按平均法重新計算各個簇的質心，從而確定新的簇心。一直迭代，直到簇心的移動距離小於某個給定的值。

3.2.2 基於密度的聚類

根據密度完成物件的聚類。它根據物件周圍的密度（如DBSCAN）不斷增長聚類。典型的基於密度方法包括：DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法通過不斷生長足夠高密度區域來進行聚類；它能從含有噪聲的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義為一組“密度連線”的點集。OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一個聚類，而是為自動互動的聚類分析計算出一個增強聚類順序。

3.2.3 層次聚類方法

層次聚類方法對給定的資料集進行層次的分解，直到某種條件滿足為止。層次凝聚的代表是AGNES演算法，層次分裂的代表是DIANA演算法。具體又可分為凝聚的，分裂的兩種方案。

凝聚的層次聚類是一種自底向上的策略，首先將每個物件作為一個簇，然後合併這些原子簇為越來越大的簇，直到所有的物件都在一個簇中，或者某個終結條件被滿足，絕大多數層次聚類方法屬於這一類，它們只是在簇間相似度的定義上有所不同。

分裂的層次聚類與凝聚的層次聚類相反，採用自頂向下的策略，它首先將所有物件置於同一個簇中，然後逐漸細分為越來越小的簇，直到每個物件自成一簇，或者達到了某個終止條件。

3.2.4 譜聚類

譜聚類(Spectral Clustering, SC)是一種基於圖論的聚類方法——將帶權無向圖劃分為兩個或兩個以上的最優子圖，使子圖內部儘量相似，而子圖間距離儘量距離較遠，以達到常見的聚類的目的。其中的最優是指最優目標函式不同，可以是割邊最小分割，也可以是分割規模差不多且割邊最小的分割。譜聚類能夠識別任意形狀的樣本空間且收斂於全域性最優解，其基本思想是利用樣本資料的相似矩陣(拉普拉斯矩陣)進行特徵分解後得到的特徵向量進行聚類。

此外常用的聚類方法還有基於網格的聚類、模糊聚類演算法、自組織神經網路SOM、基於統計學的聚類演算法（COBWeb、AutoClass）等。

3.3 半監督學習

3.3.1 半監督學習概述

半監督學習演算法要求輸入資料部分被標識，部分沒有被標識，這種學習模型可以用來進行預測，但是模型首先需要學習資料的內在結構以便合理的組織資料來進行預測。應用場景包括分類和迴歸，演算法包括一些對常用監督式學習演算法的延伸，這些演算法首先試圖對未標識資料進行建模，在此基礎上再對標識的資料進行預測。如圖論推理演算法（Graph Inference）或者拉普拉斯支援向量機（Laplacian SVM.）等。

3.3.2 Multi-view algorithm(多視角演算法)

一般多用於可以進行自然特徵分裂的資料集中．考慮特殊情況（每個資料點表徵兩個特徵）：每一個數據點看成是兩個特徵的集合，然後利用協同訓練(Co-training algorithm)進行處理．協同訓練（co-training）演算法，此類演算法隱含地利用了聚類假設或流形假設，它們使用兩個或多個學習器，在學習過程中，這些學習器挑選若干個置信度高的未標記示例進行相互標記，從而使得模型得以更新。

3.3.3 Graph-Based Algorithms(基於圖的演算法)

基於圖的演算法是基於圖正則化框架的半監督學習演算法，此類演算法直接或間接地利用了流形假設，它們通常先根據訓練例及某種相似度度量建立一個圖，圖中結點對應了（有標記或未標記）示例，邊為示例間的相似度，然後，定義所需優化的目標函式並使用決策函式在圖上的光滑性作為正則化項來求取最優模型引數。

3.4 文字處理模型

3.4.1 分詞模型

分詞模型主要在處理文字過程中使用，在此特指中文分詞模型。中文分詞演算法現在一般分為三類：基於字串匹配，基於理解，基於統計的分詞。

基於字串匹配分詞：

機械分詞演算法。將待分的字串與一個充分大的機器詞典中的詞條進行匹配。分為正向匹配和逆向匹配；最大長度匹配和最小長度匹配；單純分詞和分詞與標註過程相結合的一體化方法。所以常用的有：正向最大匹配，逆向最大匹配，最少切分法。實際應用中，將機械分詞作為初分手段，利用語言資訊提高切分準確率。優先識別具有明顯特徵的詞，以這些詞為斷點，將原字串分為較小字串再機械匹配，以減少匹配錯誤率；或將分詞與詞類標註結合。

基於理解分詞：

分詞同時進行句法語義分析等模擬人對句子的理解，包括分詞子系統，句法語義系統，總控部分。總控部分協調下，分詞字系統可以獲得有關詞，句子等的句法和語義資訊對分詞歧義進行判斷。需要大量的語言知識資訊。

基於統計分詞：

相鄰的字同時出現的次數越多，越有可能構成一個詞語，對語料中的字組頻度進行統計，不需要切詞字典，但錯誤率很高。可以考慮：使用基本詞典進行關鍵詞分詞，使用統計方法識別新片語，兩者結合。

3.4.2 TF-IDF模型

TF-IDF（term frequency–inverse document frequency）是一種用於資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法，用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加，但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜尋引擎應用，作為檔案與使用者查詢之間相關程度的度量或評級。除了TF-IDF以外，因特網上的搜尋引擎還會使用基於連結分析的評級方法，以確定檔案在搜尋結果中出現的順序。

TFIDF的主要思想是：如果某個詞或短語在一篇文章中出現的頻率TF高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。TFIDF實際上是：TF * IDF，TF詞頻(Term Frequency)，IDF反文件頻率(Inverse Document Frequency)。TF表示詞條在文件d中出現的頻率（另一說：TF詞頻(Term Frequency)指的是某一個給定的詞語在該檔案中出現的次數）。IDF的主要思想是：如果包含詞條t的文件越少，也就是n越小，IDF越大，則說明詞條t具有很好的類別區分能力。如果某一類文件C中包含詞條t的文件數為m，而其它類包含t的文件總數為k，顯然所有包含t的文件數n=m+k，當m大的時候，n也大，按照IDF公式得到的IDF的值會小，就說明該詞條t類別區分能力不強。（另一說：IDF反文件頻率(Inverse Document Frequency)是指果包含詞條的文件越少，IDF越大，則說明詞條具有很好的類別區分能力。）但是實際上，如果一個詞條在一個類的文件中頻繁出現，則說明該詞條能夠很好代表這個類的文字的特徵，這樣的詞條應該給它們賦予較高的權重，並選來作為該類文字的特徵詞以區別與其它類文件。這就是IDF的不足之處.

3.4.3 LDA模型

LDA（Latent Dirichlet Allocation）是一種文件主題生成模型，也稱為一個三層貝葉斯概率模型，包含詞、主題和文件三層結構。所謂生成模型，就是說，我們認為一篇文章的每個詞都是通過“以一定概率選擇了某個主題，並從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文件到主題服從多項式分佈，主題到詞服從多項式分佈。

LDA是一種非監督機器學習技術，可以用來識別大規模文件集（document collection）或語料庫（corpus）中潛藏的主題資訊。它採用了詞袋（bag of words）的方法，這種方法將每一篇文件視為一個詞頻向量，從而將文字資訊轉化為了易於建模的數字資訊。但是詞袋方法沒有考慮詞與詞之間的順序，這簡化了問題的複雜性，同時也為模型的改進提供了契機。每一篇文件代表了一些主題所構成的一個概率分佈，而每一個主題又代表了很多單詞所構成的一個概率分佈。

4 模型評價指標

4.1 模型評價概述

建模構建過程中會得出一系列的分析結果、模式或模型。同一個取樣資料可以利用多種資料分析方法和模型進行分析，模型評價的目的之一就是從這些模型中自動找出一個最好的模型出來，另外就是要針對業務對模型進行解釋和應用。

模型效果評價通常分兩步，第一步是直接使用原來建立模型的樣本資料來進行檢驗。假如這一步都通不過，那麼所建立的決策支援資訊價值就不太大了。一般來說，在這一步應得到較好的評價。這說明你確實從這批資料樣本中挖掘出了符合實際的規律性。第一步通過後，第二步是另外找一批資料，已知這些資料是反映客觀實際的、規律性的。這次的檢驗效果可能會比前一種差，差多少是要注意的，若是差到所不能容忍程度，那就要考慮第一步構建的樣本資料是否具有充分的代表性，或是模型本身是否夠完善。這時候可能要對前面的工作進行反思了。若這一步也得到了肯定的結果時，那所建立的資料探勘模型應得到很好的評價了。

4.2 常用的模型評價方法

4.2.1 預測準確率

預測準確率又稱作精度是檢索出相關文件數與檢索出的文件總數的比率，衡量的是檢索系統的查準率。取值在0和1之間，數值越接近1，查準率就越高。

計算公式：正確率 = 提取出的正確資訊條數 / 提取出的資訊條數

4.2.2 召回率

召回率是指檢索出的相關文件數和文件庫中所有的相關文件數的比率，衡量的是檢索系統的查全率。取值在0和1之間，數值越接近1，查全率就越高。

計算公式：召回率 = 提取出的正確資訊條數 / 樣本中的資訊條數

4.2.3 綜合指標F值

F值為正確率和召回率的調和平均值，能夠綜合平衡的去表示模型的效能效果。

計算公式：F值 = 正確率 * 召回率 * 2 / (正確率 + 召回率)

4.2.4 ROC曲線

受試者工作特性（Receiver Operating Characteristic，ROC）曲線是一種非常有效的模型評價方法，可為選定臨界值給出定量提示。將靈敏度（Sensitivity）設在縱軸，1-特異性（1-Specificity）設在橫軸，就可得出ROC曲線圖。該曲線下的積分面積（Area）大小與每種方法優劣密切相關，反映分類器正確分類的統計概率，其值越接近1說明該演算法效果越好。

4.2.5 資料相似度

聚類分群效果可以通過向量資料之間的相似度來衡量，向量資料之間的相似度定義為兩個向量之間的距離（實時向量資料與聚類中心向量資料），距離越近則相似度越大，即該實時向量資料歸為某個聚類。常用的相似度計算方法有：歐幾里得距離法（Euclidean Distance）、皮爾遜相關係數法（Pearson Correlation Coefficient）、Cosine相似度和Tanimoto係數法。

4.2.6 其他的模型評價方法

除上述的模型評價方法外，還有一些較為詳細的模型評價方法。如可以用相對絕對誤差、平均絕對誤差、根均方差、相對平方根誤差等指標來衡量。此外模型的魯棒性和容錯性以及處理資料的速度、能夠處理資料的規模等都是衡量一個模型的重要指標。

5 資料探勘開發平臺

5.1 單機模型開發平臺

直接在單機上部署資料探勘開發環境，比如說安裝MySQL+python就可以搭建一個數據挖掘環境。

5.2分散式叢集開發平臺

5.2.1 Hadoop叢集環境

Hadoop 是一個通過分散式叢集技術，將多個物理機或虛擬機器(VMware等廠商的虛擬化技術在一個物理機上執行多個虛擬機器)當作一臺機器執行。基於Hadoop的資料探勘資料探勘一旦完成，就會生成挖掘結果即模式。

5.4.2 Spark叢集環境

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的並行，Spark，擁有Hadoop MapReduce所具有的優點；但不同於MapReduce的是Job中間輸出結果可以儲存在記憶體中，從而不再需要讀寫HDFS，因此Spark能更好地適用於資料探勘與機器學習等需要迭代的map reduce的演算法。

6 資料探勘的開發流程

6.1 資料獲取

6.2 資料清洗

6.3 資料變換

6.4 特徵工程

6.5 模型訓練

6.6 模型優化

6.7 結果分析

三、資料分析

相比於資料探勘，資料分析更多在於利用一定的工具和一定的專業知識分析資料。最初的資料分析來源於統計學家和經濟學家的一些理論，進而結合一定的實際應用場景解決問題。資料分析更多的是偏重於業務層次的，對於大多數非計算機相關專業人士來說，掌握一般的資料分析方法是十分有用的，入門上手也相對簡單。

1 數學和專業的預備知識

概率論：資料分析的重要數學基礎，要熟悉常見的一些概率分佈。

統計學：資料分析最早的依賴基礎，通常和概率論一起應用，資料分析要掌握常見的均值、方差、協方差等。

心理學：資料分析往往要結合不同的學科知識進行分析，在資料分析的過程中，分析人員往往要結合使用者的心理進行結果的調整和分析。

專業知識：一般來說，資料分析人員是對某一特定領域進行分析，這就要求分析人員具備一定的行業的專業知識。

2 使用資料分析軟體

SPSS:功能非常強大非常專業的資料統計軟體，介面友好，輸出結果美觀漂亮。SPSS軟體具有資訊的採集、處理、分析進行全面評估和預測等功能。包含廣義線性混合模型、自動線性模型、一個統計網頁入口portal和直復營銷direct marketing功能。

SAS: 是一個模組化、整合化的大型應用軟體系統，由數十個專用模組構成，功能包括資料訪問、資料儲存及管理、應用開發、圖形處理、資料分析、報告編制、運籌學方法、計量經濟學與預測等等。

Excel:辦公套件中最能勝任資料分析的軟體，簡單實用。

Sql:非計算機專業的資料分析人員要操作資料必備的資料庫語言。

R: 近年興起的資料分析程式語言，資料視覺化做的比較好，語法簡單，學習成本很低，很多非程式設計人員都可以數量掌握。

3 資料分析模型選取

資料分析人員可以藉助一些現場的分析軟體進行分析，這些軟體集成了一些良好的分析模型，分析人員可以根據自己的實際應用場景進行合適的模型選擇。基本的分析方法有：對比分析法、分組分析法、交叉分析法、結構分析法、漏斗圖分析法、綜合評價分析法、因素分析法、矩陣關聯分析法等。高階的分析方法有：相關分析法、迴歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對應分析法、時間序列等。

4 分析結果展示

資料分析的結果通過一些視覺化圖形或者報表形式進行展示能夠增強對分析結果的理解。

常用的的分析結果展示方法有：

圖表展示：用一些柱狀圖、餅圖、盒圖等進行展示。

曲線展示：運用走勢曲線或者ROC曲線進行展示。

文字展示：通過語言文字描述進行結果的分析展示，但是不夠直觀。

5 資料分析的流程

5.1 資料獲取

5.2 資料清洗

5.3 分析工具選取

5.4 資料分析模型選擇

5.5 資料處理

5.6 處理結果展示

5.7 結果資料分析

延展閱讀：企業級大資料平臺實踐之路

新一代技術+商業作業系統：

AI-CPS OS

在新一代技術+商業作業系統（AI-CPS OS：雲端計算+大資料+物聯網+區塊鏈+人工智慧）分支用來的今天，企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中，利用AI-CPS OS形成數字化+智慧化力量，實現行業的重新佈局、企業的重新構建和自我的煥然新生。

AI-CPS OS的真正價值並不來自構成技術或功能，而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務和資料+分析一體化，這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合，沒有顛覆現狀的意願，這些將不可能實現。

領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量，領導者必須在行業、企業與個人這三個層面都保持領先地位：

重新行業佈局：你的世界觀要怎樣改變才算足夠？你必須對行業典範進行怎樣的反思？

重新構建企業：你的企業需要做出什麼樣的變化？你準備如何重新定義你的公司？

重新打造自己：你需要成為怎樣的人？要重塑自己並在數字化+智慧化時代保有領先地位，你必須如何去做？

AI-CPS OS是數字化智慧化創新平臺，設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端，可以幫助企業將創新成果融入自身業務體系，實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的數字化+智慧化力量與行業、企業及個人三個層面的交叉，形成了領導力模式，使數字化融入到領導者所在企業與領導方式的核心位置：

精細：這種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切，進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

智慧：模型隨著時間（資料）的變化而變化，整個系統就具備了智慧（自學習）的能力。

高效：企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力，這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

不確定性：數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗，其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域：技術、文化、制度。

邊界模糊：數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化，還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長：

創造虛擬勞動力，承擔需要適應性和敏捷性的複雜任務，即“智慧自動化”，以區別於傳統的自動化解決方案；

對現有勞動力和實物資產進行有利的補充和提升，提高資本效率；

人工智慧的普及，將推動多行業的相關創新，開闢嶄新的經濟增長空間。

給決策制定者和商業領袖的建議：

超越自動化，開啟新創新模式：利用具有自主學習和自我控制能力的動態機器智慧，為企業創造新商機；

迎接新一代資訊科技，迎接人工智慧：無縫整合人類智慧與機器智慧，重新

評估未來的知識和技能型別；

制定道德規範：切實為人工智慧生態系統制定道德準則，並在智慧機器的開

發過程中確定更加明晰的標準和最佳實踐；

重視再分配效應：對人工智慧可能帶來的衝擊做好準備，制定戰略幫助面臨

較高失業風險的人群；

開發數字化+智慧化企業所需新能力：員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說，創造兼具包容性和多樣性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《論語·子路》雲端計算、大資料、物聯網、區塊鏈和人工智慧，像君子一般融合，一起體現科技就是生產力。

如果說上一次哥倫布地理大發現，拓展的是人類的物理空間。那麼這一次地理大發現，拓展的就是人們的數字空間。在數學空間，建立新的商業文明，從而發現新的創富模式，為人類社會帶來新的財富空間。雲端計算，大資料、物聯網和區塊鏈，是進入這個數字空間的船，而人工智慧就是那船上的帆，哥倫布之帆！

新一代技術+商業作業系統AI-CPS OS作為新一輪產業變革的核心驅動力，將進一步釋放歷次科技革命和產業變革積蓄的巨大能量，並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節，形成從巨集觀到微觀各領域的智慧化新需求，催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革，深刻改變人類生產生活方式和思維模式，實現社會生產力的整體躍升。

對大資料的概念都是模糊不清的，大資料是什麼，能做什麼，學的時候，該按照什麼線路去學習，學完往哪方面發展，想深入瞭解

想學習的同學歡迎加入大資料學習qq群：458345782，有大量乾貨（零基礎以及進階的經典實戰）分享給大家。

並且有清華大學畢業的資深大資料講師給大家免費授課，給大家分享目前國內最完整的大資料高階實戰實用學習流程體系。

大資料應該這樣學：資料探勘與資料分析知識流程梳理

大資料應該這樣學：資料探勘與資料分析知識流程梳理

資料探勘與資料分析

資料探勘與資料分析的區別

資料探勘與資料建模步驟

資料探勘與資料分析的主要區別是什麼？

一篇文章告訴你大資料應該怎麼學

大資料：網際網路大規模資料探勘與分散式處理pdf

大資料就業前景怎麼樣？hadoop工程師、資料探勘、資料分析師薪資多少？

《資料探勘與資料化運營實戰：思路、方法、技巧與應用》第一章什麼是資料化運營

吳裕雄資料探勘與分析案例實戰（3）——python數值計算工具：Numpy

吳裕雄資料探勘與分析案例實戰（4）——python資料處理工具：Pandas

人工智慧、大資料、雲端計算、資料探勘與機器學習概述

【摘錄】大資料探勘與知識發現的應用領域

Thinking in SQL系列之六：資料探勘Apriori關聯分析再現啤酒尿布神話

大資料（十）：MapTask工作機制與Shuffle機制（partitioner輸出分割槽、WritableComparable排序）

大資料探勘之資料預處理

《大資料網際網路大規模資料探勘與分散式處理》閱讀筆記(二)

從資料沉澱、資料探勘和資料呈現這三個概念瞭解大資料

【免費課程】小白學資料探勘與機器學習

帶你看資料探勘與機器學習-廈大EDP上課出勤預測

大資料應該這樣學：資料探勘與資料分析知識流程梳理

相關推薦