1. 程式人生 > >資料探勘入門--概念梳理

資料探勘入門--概念梳理

目錄

什麼是知識?知識有什麼用

大資料3V

資料探勘流程

文字挖掘

機器學習簡介


什麼是知識?知識有什麼用

知識的傳統定義來源於資訊科學,知識的概念通常表示為金字塔的一部分,該金字塔有時也成為知識層次,其中資料是基礎,資訊是中間層,而知識在最頂層。

攀登金字塔意味著從資料中提煉知識,這需要經歷內容和意義的整合,當攀登這個金字塔時,所用技術可以幫助我們更加深入的理解原始資料,更重要的是幫助我們理解生成這些資料的使用者,換言之,它會變得更加有用。

大資料3V

大資料的3V即是容量 volume 多樣性 variety 速度 velocity ,容量指的是處理分佈在不同機器中的資料,這意味著需要一個與處理小量資料完全不同的基礎架構,此外,容量與速度是相關的,當資料快速增長時,大這個概念也在不斷變化,最後多樣性是指如何以不同的

格式和結果呈現資料,這些多樣的資料通常不相容且帶有不同語義。社會媒體資料也具有3V特性。

資料探勘流程

(1)鑑權

(2)資料收集

(3)資料清洗和預處理

(4)建模和分析

(5)結果呈現

文字挖掘

文字挖掘是從非結構化的文字資料中獲得結構化資訊的過程,文字挖掘適用於大多數社交媒體平臺,因為使用者可以用帖子和評論的方式釋出內容。

文件分類:將一個文件指定為一個或多個類別

文件聚類:將文件分組為子集,也稱作簇,每個類中的資料是一致的,且與其他類的資料有區別。

文件摘要:生成一個簡短版的文件,目的是為使用者減少資訊量,同事保留原始版本中最重要的內容。

實體抽取:在文字中定位,並對實體分類,類別如人物地點,機構等。

情感分析:識別並對文字中的情感和意見分類,以理解對特定產品,話題,服務等的態度。

機器學習簡介

機器學習是構建演算法從資料中學習並進行預測的科學,他和資料探勘緊密相關,有時這兩個領域可以互換,這兩個領域的主要區別在於:機器學習側重於基於資料的已知屬性進行預測,而資料探勘則側重於基於資料的未知屬性發現新資訊。

機器學習最流行的方法分為監督學習和無監督學習兩類。

監督學習可以用來解決分類這樣的問題,在分類問題中,資料帶有額外屬性,而我們想要預測類的標籤,在這種情況下,分類器會將每個輸入物件與期望輸出關聯起來,然後分類器基於輸入物件的特徵進行推斷,為新的未見輸入預測期望的標籤,監督學習常用的方法有樸素貝葉斯、支援向量機、和神經網路系列模型。

無監督學習已知資料並不帶有標籤問題,這類問題的典型例項就是聚類,在聚類問題中,演算法會試圖尋找資料節點中的隱藏結構,以便將相似的項分為一類,另一個應用是識別不屬於特定組的項,最常用的方法是K均值演算法。