1. 程式人生 > >基於Access資料來源的Clementine資料探勘技術

基於Access資料來源的Clementine資料探勘技術


一、資料探勘簡介

    資料探勘(Data Mining,DM)又稱資料庫中的知識發現(Knowledge Discover in Database,KDD),是目前人工智慧和資料庫領域研究的熱點問題,所謂資料探勘是指從資料庫的大量資料中揭示出隱含的、先前未知的並有潛在價值的資訊的非平凡過程。資料探勘是一種決策支援過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、視覺化技術等,高度自動化地分析企業的資料,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。

二、使用例項

    本文運用資料探勘技術中的關聯規則對某學校的學生成績資料進行深入分析,並選擇關聯分析中GRI模型分析各因素的關聯規則,得出了學生專業基礎課程與專業課程之間的相關趨勢。資料來源是基於Access資料庫的學生成績表,裡面儲存了學生基礎課和專業課的成績級別。

三、實現過程

1、配置ODBC資料來源

    首先開啟系統C盤下的Windows資料夾(系統要求:Win7及更高版本的Windows系統),找到名為SysWOW64命名的資料夾並開啟,在該資料夾下找到名為odbcad32.exe的工具,並以管理員身份執行該配置工具,出現下圖:


     開啟資料來源管理器後需要我們手動新增學生成績表的資料來源,首先點選新增,在建立新資料來源列表框中選擇Mircrosoft Access Driver(*.mdb,*.accdb),具體操作如下圖:


    選擇後點擊完成,在彈出的對話方塊中填入我們的資料來源名,並在資料庫框中選擇我們需要新增的Access資料庫。


2、在Clementine中新增資料來源

    配置完ODBC後需要我們在Clementine中新增SQL資料來源檔案。雙擊SQL資料來源在彈出的對話方塊中選擇資料來源,在類表框中選擇新增新的資料庫連線,選中學生成績表資料來源後點擊連線。


    在資料來源中我們將註解改為定製,並命名為匯入資料。

3、對資料來源進行散點分析

    新增散點圖,並將X欄位設定為基礎課,Y欄位設定為專業課,點選執行,得到下圖。


    從散點圖中可以較直觀的看清楚兩種課程成績的分佈情況。

4、資料選擇去除學號

    將匯入的資料進行篩選,去除學號,並生成具體成績表,操作完後的模型圖如下:


5、對資料進行型別分析

   對資料進行篩選後,需要對資料進行型別分析,選中資料選擇模型圖,雙擊新增型別。


   新增型別分析後,為了生成GRI圖,需要新增專業課對基礎課的絕對值網路圖。


6、GRI建模

   新增GRI建模圖形,並將專業課和基礎課新增到前項和後項中。

三、結果分析

    這個過程主要是分析大學生基礎課成績和專業課成績中可能存在的各種關聯以及各種關聯的程度如何,從而進一步分析其中存在的因果關係。為了保證結果分析和預測的全面性,在本例中,對關聯規則中的兩個重要關聯指標最小支援度和最小可信度的最小閾值均設定為0。

    執行模型圖後,得到如表2所示結果:

表2 基礎課成績和專業課成績關聯分析表

例項

後項

前項

支援度 %

置信度

提升

48

基礎課 = 中

專業課 = 中

29.81

64.58

2.07

26

基礎課 = 良好

專業課 = 優秀

16.15

57.69

3.20

34

基礎課 = 及格

專業課 = 及格

21.12

58.82

2.10

    分析表2,如果設定最小支援度為20%,最小可信度為60%,從而得到一個弱關聯規則是:基礎課成績為“及格”的學生,在專業課中取得“及格”成績的支援度、可信度和提升值分別為21.12%,58.82%和2.10。

    如果設定最小支援度為30%,最小可信度為70%,從而得到另一個強關聯規則是:基礎課成績為“中”的學生,專業課也為“中”的支援度、可信度和提升值分別為29.81%,64.58%和2.07。

    通過對以上關聯規則資料探勘提供的各項指標,對該大學院校學生成績分析與預測的結果如下:該大學院校學生專業課程類成績略高於基礎課程類成績,原因是多方面的,其中涉及到專業課程類師資力量配備強大、改進了專業類課程教學方法和手段、挖掘“中”等學生的學習潛力以及學生對專業課學習積極性等,該學院應根據自己的實際情況作進一步的分析。



一、資料探勘簡介

    資料探勘(Data Mining,DM)又稱資料庫中的知識發現(Knowledge Discover in Database,KDD),是目前人工智慧和資料庫領域研究的熱點問題,所謂資料探勘是指從資料庫的大量資料中揭示出隱含的、先前未知的並有潛在價值的資訊的非平凡過程。資料探勘是一種決策支援過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、視覺化技術等,高度自動化地分析企業的資料,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。

二、使用例項

    本文運用資料探勘技術中的關聯規則對某學校的學生成績資料進行深入分析,並選擇關聯分析中GRI模型分析各因素的關聯規則,得出了學生專業基礎課程與專業課程之間的相關趨勢。資料來源是基於Access資料庫的學生成績表,裡面儲存了學生基礎課和專業課的成績級別。

三、實現過程

1、配置ODBC資料來源

    首先開啟系統C盤下的Windows資料夾(系統要求:Win7及更高版本的Windows系統),找到名為SysWOW64命名的資料夾並開啟,在該資料夾下找到名為odbcad32.exe的工具,並以管理員身份執行該配置工具,出現下圖:


     開啟資料來源管理器後需要我們手動新增學生成績表的資料來源,首先點選新增,在建立新資料來源列表框中選擇Mircrosoft Access Driver(*.mdb,*.accdb),具體操作如下圖:


    選擇後點擊完成,在彈出的對話方塊中填入我們的資料來源名,並在資料庫框中選擇我們需要新增的Access資料庫。


2、在Clementine中新增資料來源

    配置完ODBC後需要我們在Clementine中新增SQL資料來源檔案。雙擊SQL資料來源在彈出的對話方塊中選擇資料來源,在類表框中選擇新增新的資料庫連線,選中學生成績表資料來源後點擊連線。


    在資料來源中我們將註解改為定製,並命名為匯入資料。

3、對資料來源進行散點分析

    新增散點圖,並將X欄位設定為基礎課,Y欄位設定為專業課,點選執行,得到下圖。


    從散點圖中可以較直觀的看清楚兩種課程成績的分佈情況。

4、資料選擇去除學號

    將匯入的資料進行篩選,去除學號,並生成具體成績表,操作完後的模型圖如下:


5、對資料進行型別分析

   對資料進行篩選後,需要對資料進行型別分析,選中資料選擇模型圖,雙擊新增型別。


   新增型別分析後,為了生成GRI圖,需要新增專業課對基礎課的絕對值網路圖。


6、GRI建模

   新增GRI建模圖形,並將專業課和基礎課新增到前項和後項中。

三、結果分析

    這個過程主要是分析大學生基礎課成績和專業課成績中可能存在的各種關聯以及各種關聯的程度如何,從而進一步分析其中存在的因果關係。為了保證結果分析和預測的全面性,在本例中,對關聯規則中的兩個重要關聯指標最小支援度和最小可信度的最小閾值均設定為0。

    執行模型圖後,得到如表2所示結果:

表2 基礎課成績和專業課成績關聯分析表

例項

後項

前項

支援度 %

置信度

提升

48

基礎課 = 中

專業課 = 中

29.81

64.58

2.07

26

基礎課 = 良好

專業課 = 優秀

16.15

57.69

3.20

34

基礎課 = 及格

專業課 = 及格

21.12

58.82

2.10

    分析表2,如果設定最小支援度為20%,最小可信度為60%,從而得到一個弱關聯規則是:基礎課成績為“及格”的學生,在專業課中取得“及格”成績的支援度、可信度和提升值分別為21.12%,58.82%和2.10。

    如果設定最小支援度為30%,最小可信度為70%,從而得到另一個強關聯規則是:基礎課成績為“中”的學生,專業課也為“中”的支援度、可信度和提升值分別為29.81%,64.58%和2.07。

    通過對以上關聯規則資料探勘提供的各項指標,對該大學院校學生成績分析與預測的結果如下:該大學院校學生專業課程類成績略高於基礎課程類成績,原因是多方面的,其中涉及到專業課程類師資力量配備強大、改進了專業類課程教學方法和手段、挖掘“中”等學生的學習潛力以及學生對專業課學習積極性等,該學院應根據自己的實際情況作進一步的分析。