1. 程式人生 > >AI: 開始學習AI--Machine Learning 。二,建立機器學習資料模型。

AI: 開始學習AI--Machine Learning 。二,建立機器學習資料模型。

 AI:開始學習AI--第一課 Machine Learning 。二,使用預測資料模型。

ML環境建立完成之後,要開始第一個實驗如何使用外部資料模型。

在Azure Machine Learning中找到DATASETS 然後單擊Samples,能看到如下資料。


  • 但這次要學習的,使用的之前下載的exercise.csv 這是MPP網站下載,由於要考試而使用的資料,下載地址,我上傳到CSDN下載區域。可以在這裡下載:https://download.csdn.net/download/jason_dct/10372910
  • 開始上傳資料:
  • 在Datasets處單擊 New --上傳資料--找到 exercise.csv 上傳資料。之後把檔案裡的calories.csv也上傳了。
  • 上傳成功之後如下圖。

  • 下面我們在原來的資料基礎上建立一個新的示例。
  • 單擊,Experiments 單擊New 在彈出的新頁面裡單擊 Blank experiment, 找到剛剛上傳的資料集如下圖所示。

  • 開啟左側TreeView,展開Saved Datasets 再展開 My Datasets。找到上傳的資料,把exercise.csv 和calories.csv 拖到中間面板。

  • 驗證資料,單擊exercise.csv 下標題的visualize,出現如下圖效果,看下性別,身高及心律情況。

  • 下面要做的事,是把兩個資料集連線起來。在搜尋的位置新增Join Data。直接把Join Data 連結控制元件拖進來。分別把exercise.cs和calories.csv 連進來。這裡在沒有關聯完成之前,Join Data 有紅色的歎號。

  • 然後配置資料,在左側找到Launch Column Selector,單擊之後出現下圖,要查的列拖到右側。這裡選擇關聯的欄位是User_ID。這裡選好之後,要選擇另一個數據源,就是calories.csv.

  • 在選擇另外一個數據源的時候,要注意規則,下圖選擇的規則是列包含User_ID.

  • 然後點選對勾資料管理以及完成,之前出現的紅色歎號也已經消失。注意為了是卡路里的計算更為準確,資料量更大。選擇左外連線(Left outer join),為了是資料更準確,選擇把預設的 Key right column 的勾點掉。
  • 配置完成之後的效果:

  • 這個是資料關聯已經配置完成,單擊下面的Run,執行一下剛才的配置。配額完成之後,檢視卡路里資料。單擊Join Data 控制元件下的1出現了visualize。出現下圖,證明已經獲得自己所有的資料。然後開始分析,人們在鍛鍊時,不同階段,不同的指標消耗的卡路里。

  • 之後為了方便匯出,我再使用Data Format Coversions下的 Convert to CSV 工具匯出方面我們檢視的資料。把Convert to CSV按鈕拖到中間。然後單擊下側的Run。
  • 在執行成功之後,單擊Convert to CSV按鈕,找到Open in new Notebook 選擇python 3
  • Python 3程式碼,當然也可以選擇C#,Java ,R語言。在這個課程部分使用的Python。
  • from azureml import Workspace
    ws = Workspace()
    experiment = ws.experiments['689143e6396e419986281b0f9cec0f7c.f-id.f8b63ecfc57a4f438926df2617cc7b1d']
    ds = experiment.get_intermediate_dataset(
        node_id='4fba9e4c-1aac-4b14-b552-f6dfd897e035-102',
        port_name='Results dataset',
        data_type_id='GenericCSV'
    )
    frame = ds.to_dataframe()
    整個程式碼頁面如下。單擊執行之後,可以檢視如下資料。這些資料是CSV中讀取的,在資料中做了外連線之後的結果。

  • 在開發環境裡錄入如下程式碼,生成Chart 圖表
  • # Create a scatter plot matrix 建立一個散點圖 段傳濤 2018-04-26
    %matplotlib inline 
    
    
    import seaborn as sns  
    num_cols = ["Age", "Height", "Weight", "Duration",
                "Heart_Rate", "Body_Temp", "Calories"] 
    sns.pairplot(frame[num_cols], size=2)
    然後單擊執行,能看到我們根據不同人的鍛鍊結果獲得卡路里資料的資料模型。

  • 生成圖表的演算法用的Python 的matplotlib 演算法。關於Matplotlib 演算法這裡就不詳細展開介紹了,詳細內容可以網上搜一下或者參看這裡:https://blog.csdn.net/duanchuanttao/article/details/80089491

到這裡為止資料已經準備完畢,如果有一些控制元件、術語不清楚可以參考:https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/machine-learning-module-descriptions

我就不贅述了。

下面要建立一個迴歸模式、預測演算法和釋出預測服務。敬請期待。