1. 程式人生 > >獨家 | 一文帶你讀懂特徵工程!

獨家 | 一文帶你讀懂特徵工程!

640?wx_fmt=png

作者:Bhalchandra Madhekar 

翻譯:陳之炎

校對:張玲

本文1800字,建議閱讀7分鐘

本文描述了一個典型的基於跨行業標準流程的標準機器學習管道,作為資料探勘行業的標準過程模型。

無論它的規模和大小如何,資料已經成為現代企業、公司和組織的一流資產。任何一個智慧系統都需要資料驅動,無論它多複雜。每個智慧系統的核心,均有一個或多個基於某種資料學習方法的演算法,例如機器學習、深度學習或統計方法,它們利用這些資料來生成知識,並在一段時間內提供智慧洞察。

演算法本身是非常通用的,但無法在普通原始資料上有效發揮作用。因此,需要從原始資料中提取有意義的特徵,我們才能夠理解和使用這些資料。

任何一個智慧資料洞察系統基本上都由端到端的管道組成:

  • 先是獲取原始資料

  • 然後利用資料處理技術,從這些資料中獲取、處理和提取有意義的特徵和屬性

  • 最後,通常利用統計模型或機器學習模型等技術對這些特徵進行建模

如果有必要的話,還需要根據手頭要解決的問題部署該模型以供將來使用。

640?wx_fmt=png

獲取原始資料後,直接在資料之上構建模型是魯莽的,因為我們無法從普通原始資料中獲得想要的結果或效能,而且演算法本身也不會自動從中提取有意義的特徵。在上圖中指出的資料準備方面,在對原始資料進行必要的清洗、預處理分析之後,便可以採用多種方法從中提取有意義的屬性或特徵。特徵工程是一門藝術,也是一門科學,這也是為什麼資料科學家在建模之前通常會把70%的時間花在資料準備上。

 “特徵工程是將原始資料轉化為特徵的過程,這些特徵可以更好地向預測模型描述潛在問題,從而提高模型對未見資料的準確性。”

-Jason Brownlee博士

這讓我們深入瞭解了為什麼特徵工程是一個將資料轉化成作為機器學習模型輸入的特徵的過程,換句話說,高質量的特徵有助於提高模型整體的效能和準確性。特徵在很大程度上與基本問題相關聯。

因此,即使機器學習任務在不同的場景中可能是相同的,比如將物聯網事件分類為正常和異常行為,或者將客戶情緒分類,但每個場景中提取的特徵都會有很大的不同。

什麼是特徵?

特徵通常是建立在原始資料之上的特定表示,它是一個單獨的可測量屬性,通常用資料集中的列表示。對於一個通用的二維資料集,每個觀測值由一行表示,每個特徵由一列表示,對於每一個觀測具有一個特定的值。

640?wx_fmt=jpeg

因此,就像上圖中的例子一樣,每行通常表示一個特徵向量,所有觀察到的全部特徵集形成一個二維特徵矩陣,也稱為特徵集。這類似於用來表示二維資料的資料框或電子表格。機器學習演算法通常與這些數值矩陣或張量一起工作,因此絕大多數特徵工程技術都是將原始資料轉換為一些數值表達,以便演算法理解。


基於資料集的特徵可以分為兩大類:

  • 固有的原始特徵是直接從資料集獲得的,沒有額外的資料操作。

  • 派生特徵通常是從特徵工程中獲得的,是從現有的資料屬性中提取出來的特徵。

舉一個簡單的例子:通過將當前日期減去訂單日期,可以從包含“訂單日期”的訂單資料集中建立一個新的“訂單履行日期”。另一方面,在特定的深度學習演算法中,特徵通常比較簡單,因為演算法本身會內部轉化資料。這種方法需要的資料量會比較大,並以犧牲解釋性為代價。然而,在影象處理或自然語言處理用例中,這樣的折中方法往往是值得的。

對於公司面臨的大多數其他用例,例如預測分析,特徵工程是將資料轉換成機器學習所需要的格式。特徵的選擇對模型的解釋性和效能都至關重要。如果沒有特徵工程,今天的大公司就無法部署精確的機器學習系統。

特徵工程

數值資料通常以標量值的形式描述觀測、記錄或測量資料。在這裡,我們所說的數值資料是指連續資料,而不是通常用來表示分類資料的離散資料。數值資料也可以是向量值,其中向量中的每個值或實體都可以表示一個特定的特徵。整數和浮點數是連續數值資料中最常見和最廣泛使用的數值資料型別

即使數值資料可以直接輸入機器學習模型,在構建模型之前,仍然需要設計與場景、問題和領域相關的特徵。因此,對特性工程的需求仍然存在。

原文標題:Feature Engineering

原文連結:https://dzone.com/articles/feature-engineering-1

譯者簡介

640?wx_fmt=png

陳之炎,北京交通大學通訊與控制工程專業畢業,獲得工學碩士學位,歷任長城計算機軟體與系統公司工程師,大唐微電子公司工程師,現任北京吾譯超群科技有限公司技術支援。目前從事智慧化翻譯教學系統的運營和維護,在人工智慧深度學習和自然語言處理(NLP)方面積累有一定的經驗。業餘時間喜愛翻譯創作,翻譯作品主要有:IEC-ISO 7816、伊拉克石油工程專案、新財稅主義宣言等等,其中中譯英作品“新財稅主義宣言”在GLOBAL TIMES正式發表。能夠利用業餘時間加入到THU 資料派平臺的翻譯志願者小組,希望能和大家一起交流分享,共同進步

翻譯組招募資訊

工作內容:需要一顆細緻的心,將選取好的外文文章翻譯成流暢的中文。如果你是資料科學/統計學/計算機類的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友歡迎加入翻譯小組。

你能得到:定期的翻譯培訓提高志願者的翻譯水平,提高對於資料科學前沿的認知,海外的朋友可以和國內技術應用發展保持聯絡,THU資料派產學研的背景為志願者帶來好的發展機遇。

其他福利:來自於名企的資料科學工作者,北大清華以及海外等名校學生他們都將成為你在翻譯小組的夥伴。

點選文末“閱讀原文”加入資料派團隊~

轉載須知

如需轉載,請在開篇顯著位置註明作者和出處(轉自:資料派ID:datapi),並在文章結尾放置資料派醒目二維碼。有原創標識文章,請傳送【文章名稱-待授權公眾號名稱及ID】至聯絡郵箱,申請白名單授權並按要求編輯。

釋出後請將連結反饋至聯絡郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。


640?wx_fmt=png640?wx_fmt=jpeg

點選“閱讀原文”擁抱組織