Watson Explorer for Data Science Experience:藉助 IBM 的頂級資料科學平臺充分利用非結構化資料...
ofollow,noindex" target="_blank">80% 的企業資料為非結構化資料 因此被稱為“暗”資料,究其原因就在於沒有高階技術對資料進行有效處理,就無法揭示出資料中隱藏的真正價值。例如,車輛事故報告中包含各種結構化資料點(如車輛型號、受傷人數或者位置),以及用於描述事故狀況的非結構化資料(如“在不平整路面上踩剎車時車輛未停止行駛,導致發生事故”)。文字分析(或自然語言處理)可從文字中提取關鍵資訊,並將此資訊轉換為結構化資料。在此示例中,“剎車”被註釋為“元件”,“不平整路面”被註釋為“環境”,從而實現將文字像結構化資料一樣進行處理。因此,計算機可以將 所發生狀況的描述 與 離散事件特徵 結合在一起進行處理。
什麼是 Watson Explorer for Data Science Experience?
Watson Explorer (WEX) 是一個市場領先的搜尋和內容挖掘平臺,由 IBM 研究院建立,旨在為企業提供深層文字分析功能。Watson Explorer for Data Science Experience (DSX) 將 Watson Explorer 文字挖掘功能與 DSX 的功能緊密整合,用於實施資料科學家的工作流程,從而根據文字資料中隱藏的資訊來制定出考慮周全的業務決策。
圖 1 描述了資料科學家如何使用機器學習建立預測模型的典型工作流程。

圖 1.建立預測模型的工作流程
在圖 1 中,以上藍框表示利用 Watson Explorer for Data Science Experience 增強的任務。綠框表示通過將 Watson Explorer 與 Data Science Experience 和平臺上嵌入的工具(例如,SPSS Modeler 和 Notebook)相整合而增強的任務。
探索和理解資料
Watson Explorer for Data Science Experience 將 Watson Explorer 專有的 Content Miner 技術與 DSX Local 的使用者介面緊密整合起來。首先,資料科學家可以建立一個 Watson Explorer 集合,作為 DSX Local 資產。在圖 2 中,我們建立了 Retail Voice of the Customer 集合。
圖 2.Watson Explorer 集合作為 DSX Local 資產進行管理。
建立此集合後,可將文字資料從 DSX Local 資料集註入此集合。隨後,資料科學家可以使用嵌入 DSX Local 使用者介面的 Watson Explorer Content Miner,探索此集合中的文字資料。Content Miner 可通過統計評分方法(例如,文字資料中的關鍵字頻率或關聯)來直觀顯示資訊。這種非常直觀且易於操作的文字分析方法為資料科學家提供了快速系統化理解文字資訊的途徑,而無需分析大量非結構化資料。
圖 3.DSX Local 中的 Watson Explorer Content Miner
為機器學習模型提取相關特徵
在資料科學家理解文字資料中所包含的資訊後,可決定稍後要用於分析的文字特徵。例如,資料科學家可能想要根據車輛事故原因(如“由剎車裝置導致的事故”或“由發動機導致的事故”)對車輛事故報告進行分類。通過 Content Miner,資料科學家可以使用元件名稱進行分類。例如,“ABS”或“剎車片”之類的關鍵字可能與歸入“由剎車裝置導致的事故”一類的文字資料密切關聯。因此,資料科學家可將元件名稱註冊到 Watson Explorer 的使用者字典註釋器中。根據註釋器設定,Watson Explorer 可註釋關鍵字,並將註釋結果轉換為向量化資料。向量化資料稱為“特徵”,此流程即“特徵提取”流程。這些特徵可用作使用機器學習的預測模型的輸入。
訓練、部署、評估和使用機器學習模型
DSX Local 為資料科學家提供了團隊合作的機會。Watson Explorer for Data Science Experience 利用非結構化資料分析和視覺化擴充套件了 DSX Local 的功能,進而滿足團隊新人和專家的不同需求。
DSX Notebook 是面向具有程式設計背景的資料科學家的分析工具。可在 Notebook 上使用 Python API 呼叫 Watson Explorer 的功能(圖 4)。此 API 還支援資料科學家使用特徵提取(圖 5)功能。因此,資料科學家可使用生成的向量化資料來建立預測模型(圖 6)。最後,可將模型部署至模型管理和部署伺服器,以便進行聯機評分。
圖 4.可從 Notebook 將 Watson Explorer 的功能作為 Python 庫呼叫
圖 5.WEX Feature Extractor 可將文字資料轉化為向量化資料
圖 6.使用 Watson Explorer 生成的向量化資料建立邏輯迴歸模型
SPSS Modeler 是 DSX 中另一種用於直觀開發預測模型的工具。SPSS Modeler 上最近引入的 WEX Feature Extractor 節點可呼叫 Watson Explorer 的特徵提取功能,從而能夠輕鬆將文字資料轉化為向量化資料(圖 7)。隨後,其他 SPSS 節點可使用向量化資料作為輸入來建立預測模型
圖 7.SPSS Modeler 中用於 DSX Local 的 WEX Feature Extractor 節點
小結
Watson Explorer for Data Science Experience (DSX) 通過文字分析功能增強了 DSX Local,以便支援資料科學團隊充分利用 Watson Explorer 強大的自然語言處理功能,幫助企業通過結構化資料分析和非結構化資料分析制定出更好的決策。
對於企業使用者和業務使用者, Watson Explorer Deep Analytics Edition 將不斷通過新功能增強自身作為平臺的價值,支援開展認知搜尋和非結構化資料分析。最新版本的 Watson Explorer Deep Analytics Edition Version 12.0.1 包含諸多技術增強功能,例如,全新的情緒分析檢視、基於 Web 的全新 NLP 資源定製工具等等。
瀏覽 Watson Explorer for Data Science Experience 網站,瞭解更多資訊
本文翻譯自: Watson Explorer for Data Science Experience: Leverage unstructured data analytics with IBM’s premier data science platform (2018-08-17)