AI: 開始學習AI--Machine Learning 。二,建立機器學習資料模型。
阿新 • • 發佈:2018-12-31
AI:開始學習AI--第一課 Machine Learning 。二,使用預測資料模型。
ML環境建立完成之後,要開始第一個實驗如何使用外部資料模型。
在Azure Machine Learning中找到DATASETS 然後單擊Samples,能看到如下資料。
- 但這次要學習的,使用的之前下載的exercise.csv 這是MPP網站下載,由於要考試而使用的資料,下載地址,我上傳到CSDN下載區域。可以在這裡下載:https://download.csdn.net/download/jason_dct/10372910
- 開始上傳資料:
- 在Datasets處單擊 New --上傳資料--找到 exercise.csv 上傳資料。之後把檔案裡的calories.csv也上傳了。
- 上傳成功之後如下圖。
- 下面我們在原來的資料基礎上建立一個新的示例。
- 單擊,Experiments 單擊New 在彈出的新頁面裡單擊 Blank experiment, 找到剛剛上傳的資料集如下圖所示。
- 開啟左側TreeView,展開Saved Datasets 再展開 My Datasets。找到上傳的資料,把exercise.csv 和calories.csv 拖到中間面板。
- 驗證資料,單擊exercise.csv 下標題的visualize,出現如下圖效果,看下性別,身高及心律情況。
- 下面要做的事,是把兩個資料集連線起來。在搜尋的位置新增Join Data。直接把Join Data 連結控制元件拖進來。分別把exercise.cs和calories.csv 連進來。這裡在沒有關聯完成之前,Join Data 有紅色的歎號。
- 然後配置資料,在左側找到Launch Column Selector,單擊之後出現下圖,要查的列拖到右側。這裡選擇關聯的欄位是User_ID。這裡選好之後,要選擇另一個數據源,就是calories.csv.
- 在選擇另外一個數據源的時候,要注意規則,下圖選擇的規則是列包含User_ID.
- 然後點選對勾資料管理以及完成,之前出現的紅色歎號也已經消失。注意為了是卡路里的計算更為準確,資料量更大。選擇左外連線(Left outer join),為了是資料更準確,選擇把預設的 Key right column 的勾點掉。
- 配置完成之後的效果:
- 這個是資料關聯已經配置完成,單擊下面的Run,執行一下剛才的配置。配額完成之後,檢視卡路里資料。單擊Join Data 控制元件下的1出現了visualize。出現下圖,證明已經獲得自己所有的資料。然後開始分析,人們在鍛鍊時,不同階段,不同的指標消耗的卡路里。
- 之後為了方便匯出,我再使用Data Format Coversions下的 Convert to CSV 工具匯出方面我們檢視的資料。把Convert to CSV按鈕拖到中間。然後單擊下側的Run。
- 在執行成功之後,單擊Convert to CSV按鈕,找到Open in new Notebook 選擇python 3
- Python 3程式碼,當然也可以選擇C#,Java ,R語言。在這個課程部分使用的Python。
整個程式碼頁面如下。單擊執行之後,可以檢視如下資料。這些資料是CSV中讀取的,在資料中做了外連線之後的結果。from azureml import Workspace ws = Workspace() experiment = ws.experiments['689143e6396e419986281b0f9cec0f7c.f-id.f8b63ecfc57a4f438926df2617cc7b1d'] ds = experiment.get_intermediate_dataset( node_id='4fba9e4c-1aac-4b14-b552-f6dfd897e035-102', port_name='Results dataset', data_type_id='GenericCSV' ) frame = ds.to_dataframe()
- 在開發環境裡錄入如下程式碼,生成Chart 圖表
然後單擊執行,能看到我們根據不同人的鍛鍊結果獲得卡路里資料的資料模型。# Create a scatter plot matrix 建立一個散點圖 段傳濤 2018-04-26 %matplotlib inline import seaborn as sns num_cols = ["Age", "Height", "Weight", "Duration", "Heart_Rate", "Body_Temp", "Calories"] sns.pairplot(frame[num_cols], size=2)
- 生成圖表的演算法用的Python 的matplotlib 演算法。關於Matplotlib 演算法這裡就不詳細展開介紹了,詳細內容可以網上搜一下或者參看這裡:https://blog.csdn.net/duanchuanttao/article/details/80089491
到這裡為止資料已經準備完畢,如果有一些控制元件、術語不清楚可以參考:https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/machine-learning-module-descriptions
我就不贅述了。
下面要建立一個迴歸模式、預測演算法和釋出預測服務。敬請期待。