1. 程式人生 > >淺談資料探勘(概論)

淺談資料探勘(概論)

前言:學習資料的來源均出自,《圖解機器學習》-杉山將,中國工信出版集團。《資料探勘導論》-戴紅,清華大學出版書,資料探勘演算法原理與實現。

筆者自述:不知道什麼時候就開始有想學習資料探勘這一塊的知識,但是卻從來都沒有過開始。直到幾天前,突然鬼使神差的去了圖書館,找了基本資料探勘方面的書籍。當讀完導論的時候,發現自己已經不能自給,深深的愛上了這個領域的東西。由於已經好久沒接觸計算機方面的知識了,現在又是一次挑戰,我相信我可以的,希望廣大走在奮鬥道路上的朋友一同加油。我們揚帆起航,駛向遠方。當然還有另外一個原因,那就是,因為本人今年大四,可能繼續攻讀研究生,但是不想把時間浪費在大四這一年無所事事的生活中,於是下定決心去找一份實習,雖然發了很多簡歷,但是基本上都是被拒了,所以堅定了我想好好學習一門技術的原因。

今天只是一個開始,資料探勘這個領域的知識很多,以後我會不定時的釋出自己的學習程序,與君共勉,我們一同加油,這麼做的目的不是想怎麼怎麼樣,只是想大家能很好的監督我。我們一起前進。我們都不是神的孩子,我們都是有夢的孩子。

         今天我們來談談,資料探勘的入門,資料探勘這門技術很深奧,我們以後會慢慢給出。

一、資料探勘的簡單介紹

         首先明確一個概念,資料探勘不是簡單的資料處理,他會用到資料庫知識,機器學習知識,統計學知識等等。就好比你想追一個你不太熟悉的女孩子,你想知道,她喜歡什麼樣子的食物,喜歡什麼型別的電影、音樂,什麼樣子的性格等等,那麼你又不好意思直接詢問,於是,你就開啟她的朋友圈,微博,qq等一系列的社交工具。從這裡邊選取有用的資訊進行使用,來判別她是什麼型別的姑娘,平時喜歡做一些什麼,所以學好資料探勘,可以使我們能迅速瞭解一個姑娘,找到女朋友,結束這麼多年的單身狀態。所以這也是我學習資料探勘的一個原因。

二、機器學習

         機器學習(Machine Learning,ML)是模擬人類的學習方法來解決計算機獲取知識問題的方法。我看了很多本關於機器學習的資料,發現裡邊對於機器學習的分類大體一致,我們這裡採用《圖解機器學習》裡的分類,機器學習按照資料種類的不同,可以分為以下三類,監督學習,非監督學習,強化學習。

分類

演算法

應用

監督學習

1預測數值型資料的迴歸

2預測分類標籤的分類

3預測順序的排序

1手寫文字識別

2聲音處理

3影象處理

4垃圾郵件分類與攔截

5網頁檢索

6基因診斷

7股票預測

無監督學習

1聚類

2異常檢測

1人造衛星故障檢測

2視訊分析

3社交網站解析

4聲音訊號解析

強化學習

1迴歸

2分類

3聚類

4降維

1機器人的自動控制

2計算機遊戲的人工智慧

3市場戰略的最優化等方面

表格中的技術和應用我給自己定下的目標就是都進行訓練。

         接下來就是幾種演算法的形象化解釋和理解

迴歸:把實函式在樣本點附近加以近似的有監督的函式近似問題。

分類:指對於指定的模式進行識別的有監督的模式識別問題。

異常檢測:輸入樣本點中包含異常資料的問題。

聚類:與分類問題相同,也是模式識別問題。

降維:從高緯度的資料中提取關鍵資訊,將其轉換為易於計算的低維度問題進而求解的方法。

         學習模型而是分為以下三種,線性模型,核模型,層級模型。

三、資料探勘的過程

         資料探勘的過程說的簡單一點就是,從一堆資料中,通過一些演算法,限定的條件,找到你需要的資料的過程,那麼,資料來自什麼地方,面對大量的資料它們存貯在什麼地方,他們的資料型別是什麼樣子的,使用什麼樣的演算法才是最準確的,才能得到我們想要的結果呢,又怎麼進行資料模型的檢測呢,那當所有的一些都完事了,這個模型又有什麼應用呢?所有的一些,你是不是很迫不及待的想要去了解了呢?下面畫一個流程示意圖:


 



資料探勘技術的選擇至關重要:以下十點需參考,

1判斷這個特定問題是否需要監督,是否需要進行關聯分析。

2不同的資料探勘技術對資料集中的屬性之間的相關程度有不同的適應性。

3不同的資料探勘技術對資料型別本身很敏感,明確輸入屬性是分類的,還是數值的,還是混合的,輸出的型別是分類的還是數值的。

4針對資料本身,還應該瞭解資料的分佈,比如統計技術則事先假設資料是正太分佈的。這種假設是否與實際相等,是在採取統計技術前考慮。

5針對資料本身,還應該瞭解屬性對於分類的預測能力。

6對於資料集中存在噪聲資料和缺失資料的考慮。

7如果學習是有指導的,判斷有一個輸出屬性還是多個輸出屬性。

8對所學的知識的解釋能力往往也在選擇某種技術建模時需要考慮到的內容。

9在選擇挖掘技術時是否有時間上的考慮。

10選擇機器學習技術還是統計技術的一些考慮。

綜上所述,可以進行多選擇不同的演算法,來得出最好的資料結果。

四、資料探勘的發展

         資料探勘的發展主要是分為四大類,其中包括:web挖掘,空間資料探勘,流資料探勘,資料探勘與視覺化技術,在這裡邊我認為最重要的技術就是流挖掘技術。之後的學習會有詳細的學習筆記。

1 web資料探勘

web資料探勘

基於網頁內容的挖掘

基於使用者使用習慣的挖掘

基於網頁結構的挖掘

聚類

關聯規則

語義web

網頁內容挖掘

搜尋結果挖掘

文字挖掘

多媒體挖掘

關聯規則

個性化服務

商務智慧

客戶分析

用途分析

系統改善建議

電子商務

入侵檢測

Web代理

Xml(DTD)挖掘

Html文件挖掘

導航

   以上的具體應用會在後邊的學習中給出。

         我們瞭解了web在那幾個方面進行資料探勘,那麼接下來就是我們挖掘的資料從何而來呢?

資料來源

特點

來源

關鍵問題

多型別,無規律,無結構和多噪聲的特點

1使用者註冊資訊

2網頁內容資訊

3網頁站點結構資訊

4使用者搜尋資料

5網頁日誌資訊

6代理伺服器資料

1網頁的動態性

2提取使用者真正感興趣的資訊

3面對廣泛的使用者群

4Web網頁文件結構的複雜

5海量的資料來源

         接下來我們說完了資料來源,但是海量資料中,總有你想獲得資料,那麼多量的資料我們可以稱為知識,那麼知識本身是不是也應該有一定的分類呢?下面是對於知識的分類結構

 

         隱形知識:非結構化的形式,例如:留言,社群,日誌,博文。

         顯性知識:結構化特性,例如:標籤,評分和使用者資料。

         衍生知識:搜尋,聚類和文字挖掘。

以上就是web資料探勘的淺談,深入的理解和例子,還要進一步學習。

2 空間資料探勘

         空間資料是人們藉以認識自然和改造自然的重要資料,空間資料庫中包含空間資料和非空間資料

         空間資料的特點:

(1)      資料來源十分豐富,資料量非常大,資料型別多,存取方法複雜。

(2)      涉及領域十分廣泛,凡與空間位置相關的資料,都可進行挖掘。

(3)      挖掘方法和演算法非常多,大多數演算法比較複雜,難度大。

(4)      知識的表達方式多樣,對知識的理解和評判依賴人對客觀世界的認知程度。

         接下來介紹空間資料探勘的方法:

方法名稱

作用

舉例

統計分析方法

分析空間資料的常用方法,有效地處理數值型資料

變差函式和kriging方法代表的地學統計

空間分析法

GIS關鍵技術,區別與一般數字製圖系統的主要標誌

預處理和特徵提取方法

歸納學習法

大量的經驗資料中抽取出一般的規則和模式

C4.5演算法

關聯規則挖掘方法

事物資料庫中發現顧客購買多種商品的搭配規律

Apriori演算法

聚類演算法

按照一定的距離或相似性係數將資料分成一系列相互區分的組

K-means演算法

分類方法

預先給定的類,從而將資料庫中的資料分配給定的類中

決策樹

粗糙及方法

廣泛應用處理不精確,不確定和不完全的資訊,分析和知識獲取

雲理論

處理不確定性的新理論

雲模型,虛擬雲,雲運算,雲變換

3 流資料探勘

         傳統的資料管理系統,只能用於處理永久的資料和進行瞬時的查詢。

流資料

定義

特點

挖掘關鍵技術

應用及前景

流資料是一個沒有界限的資料序列,產生速度快,是連續、有序、實時、無限的元組序列

資料連續不斷到達

流資料頻繁模式挖掘技術

網路監控

有序性,實時性

流資料相似性搜尋技術

感測器

概要性

流資料任意形狀聚類技術

航天科技

近似性

流資料分類技術

股票市場

單遍處理性

金融市場

即時性

4 資料探勘與視覺化技術

         視覺化將資料、程式、複雜系統的結構及動態行為用圖形,影象,動畫等視覺化的形式表示。本質上:將抽象資料到可視結構的對映。

視覺化技術

技術名稱

實現方式

功能

標準2D/3D技術

條形圖、線條圖

視覺化

幾何轉化顯示技術

散點圖矩陣

使散點圖用矩陣的方式表達多維據集

解刨檢視

把截面和投影組合起來,顯示中間維的結構面貌

平行座標法

不同資料型別之間的差異

星型座標法

N維資料空間中的點被表示成這個二維平面的一個點

圖示顯示技術

多維資料項

密集畫素顯示技術

吧每一維資料值對映到一個彩色的畫素上

區域性關係,依賴性和熱點提供詳細資訊

層疊式顯示技術

以分層方式將資料分開表示在子空間中

仔細選擇

         以上的知識內容只是淺談資料探勘,那麼淺談系列還會持續更新。讀者有什麼意見,可以直接給我留言,並且想跟我一起幹掉資料探勘這門技術的,我們可以一起討論。

相關推薦

資料概論

前言:學習資料的來源均出自,《圖解機器學習》-杉山將,中國工信出版集團。《資料探勘導論》-戴紅,清華大學出版書,資料探勘演算法原理與實現。 筆者自述:不知道什麼時候就開始有想學習資料探勘這一塊的知識,但是卻從來都沒有過開始。直到幾天前,突然鬼使神差的去了圖書館,找了基本資料

用 WEKA 進行資料 1簡介和迴歸

簡介 什麼是 資料探勘?您會不時地問自己這個問題,因為這個主題越來越得到技術界的關注。您可能聽說過像 Google 和 Yahoo! 這樣的公司都在生成有關其所有使用者的數十億的資料點,您不禁疑惑,“它們要所有這些資訊幹什麼?”您可能還會驚奇地發現 Walmart 是最為先進的進行資料探勘並將結果

資料KDD初學基礎概要

資料探勘(KDD)Knowledge discovery in database 從各種各樣的應用資料中發現有趣資料模式。 資料來源包括:資料庫、資料倉庫、Web、其他資訊儲存庫。 可挖掘的資料型別:資

資料1知識點總結

詳細文章轉自:https://blog.csdn.net/sinat_22594309/article/details/74923643資料探勘的一般過程包括以下這幾個方面:1、 資料預處理2、 資料探勘3、 後處理一、資料預處理主要手段分為兩種:選擇分析所需的資料物件和屬性

資料2關聯規則FpGrowth演算法

介紹了關聯規則挖掘的一些基本概念和經典的Apriori演算法,Aprori演算法利用頻繁集的兩個特性,過濾了很多無關的集合,效率提高不少,但是我們發現Apriori演算法是一個候選消除演算法,每一次消除都需要掃描一次所有資料記錄,造成整個演算法在面臨大資料集時顯得無能

在R中使用支援向量機SVM進行資料

在R中,可以使用e1071軟體包所提供的各種函式來完成基於支援向量機的資料分析與挖掘任務。請在使用相關函式之前,安裝並正確引用e1071包。該包中最重要的一個函式就是用來建立支援向量機模型的svm()函

大宗交易資料

思路 在網上可以看到很多關於股票的資料探勘,其中也包括了一些大宗交易的資料探勘和分析。本人之前也做過比較長時間的學習,所以出於好奇,嘗試對這類資料進行挖掘: 最開始的想法 來看下百度百科對於大宗交易的解釋: 百度百科的大宗交易介紹 總的來說,就是大宗

資料倉庫與資料

一·資料處理的兩種基本型別:操作型,分析型。 二·操作型數據和分析型資料的區別 操作型資料 分析型資料 細節的 綜合的,或提煉的 在存取瞬間是準確的(當前資料) 代表過去的資料(歷史資料) 可更新 不可更新 操作需求

資料分類模型的描述與效能評估,以決策樹為例

關於分類的第一部分我們要講一些關於分類的基本概念,然後介紹最基本的一種分類模型-決策樹模型,再基於此討論一下關於分類模型的效能評估。 =================================

跟我一起資料1——建立資料倉庫的意義

資料倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。資料倉庫是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個數據儲存,出於分析性報告和決策支援的目的而建立。 為企業提供需要業務智慧來指導業務流程改進和監視時間、成本、質量和控制。

跟我一起資料20——網站日誌挖掘

收集web日誌的目的 Web日誌挖掘是指採用資料探勘技術,對站點使用者訪問Web伺服器過程中產生的日誌資料進行分析處理,從而發現Web使用者的訪問模式和興趣愛好等,這些資訊對站點建設潛在有用的可理解的未知資訊和知識,用於分析站點的被訪問情況,輔助站點管理和決策支援等。 1、

新浪微博資料python本週人們在討論的熱門話題的提取

分析熱門話題微博: (1)人們在討論(查詢)什麼話題(熱門話題) (2)該話題下的微博獲取 (3)那些人轉發了微博(涉及的人物) (4)轉發的時間和地點(話題的在時間和空間上的影響度) (5)網民對此持有什麼態度(情感分析) 開始之前,python的字典和列表的操作知識必須

KDD資料韓家煒學習----導論

為什麼進行資料探勘 有需求,才會有解決需求的辦法。 對於工作,學習,生活中的各種海量資料,我們需要一種工具來從這些資料中發現有價值的資訊,把這些資料轉化成有組織的知識----需求產生 解決辦法:資料探勘 經典的例子:谷歌預測流感趨勢 資料庫系統技術的演變,如下圖

使用Weka進行資料Weka教程九模型序列化/持久化儲存和載入

有很多時候,你在構建了一個模型並完成調優後,你很可能會想把這個模型存入到磁碟中,免得下次再重新訓練。尤其是神經網路、SVM等模型訓練時間非常長,重新訓練非常浪費時間。那麼怎麼持久化模型呢? 其實既然模型也是一個JAVA物件,那我就按照JAVA的序列化和反序列化

【強烈推薦】:關於系統學習資料Data Mining的一些建議!!

微信公眾號 關鍵字全網搜尋最新排名 【機器學習演算法】:排名第一 【機器學習】:排名第一 【Python】:排名第三 【演算法】:排名第四 關於資料探勘 提到收據挖掘(Data Mining, DM),很多想學習的同學大多數都會問我: 什麼是資料探勘? 怎麼培養資料分析的能力? 如何成為一名資料科學家? (

python/pandas資料十四-groupby,聚合,分組級運算

groupby import pandas as pd df = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','one','two','one'],

使用Weka進行資料Weka教程六Weka取樣Filter/Resample/SMOTE

資料預處理中,有一個原理很簡單但是非常重要的部分:取樣。良好的取樣可以讓資料集變得平衡,會大大的提高預測和分類的效果。 取樣是很複雜的一個領域,背後涉及到資料的分佈/資料的性質等很多內容。常見的取樣有: Simple Random Sampling(簡單隨機

資料機器學習面試--SVM面試常考問題

應聘資料探勘工程師或機器學習工程師,面試官經常會考量面試者對SVM的理解。 以下是我自己在準備面試過程中,基於個人理解,總結的一些SVM面試常考問題(想到會再更新),如有錯漏,請批評指正。(大神請忽視) 轉載請註明出處:blog.csdn.net/szlcw1 SVM的原

python/pandas資料十四-groupby,聚合,分組級運算---很全

groupby import pandas as pd df = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','one','two','one'],

機器學習和資料主流演算法介紹

對機器學習和資料探勘的科學定義是這樣的: 機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不