1. 程式人生 > >【譯文】驅動系統方法:四步設計出好的資料產品

【譯文】驅動系統方法:四步設計出好的資料產品

翻譯:克迪

歡迎訪問網易雲社群,瞭解更多網易技術產品運營經驗。

 

在過去幾年中, 我們看到了許多基於預測建模的資料產品。這些產品的範圍從天氣預報到推薦引擎, 再到比航空公司本身更準確地預測航空公司航班時間的服務。但這些產品仍然只是在做預測, 而不是問他們基於預測後下一步需要採取什麼行動。人們對預測技術可以是有趣很感興趣,從基礎數學的角度這種技術很有深度。但我們最終還是需要採取下一步行動繼續前行。這項技術的存在是為了構建能夠徹底改變整個行業的資料產品。既然如此, 我們為何不繼續構建下去呢?

 

為了啟動這一程序, 我們建議採取四步走的方法, 這種方法已經變革了保險業。我們稱之為驅動系統法, 靈感來自於新興的自駕汽車領域。工程師們首先確定了一個明確的目標: 他們希望汽車在沒有人為干預的情況下安全地從 a 點行駛到 b 點。偉大的預測建模是整個解決方案中的一個重要部分。偉大的預測建模是解決方案的重要組成部分, 但它不再獨立存在;隨著產品變得更加複雜, 它就會融合到每一個組成部分,貌似消失得無影蹤。有人使用

谷歌的自駕汽車, 完全意識不到之所以車輛開行都是上百個 (如果不是上千種的話) 的模型和 PB級的資料發揮作用的結果。但隨著資料科學家不斷構建日益複雜的產品, 他們需要一種系統的設計方法。我們並不是說驅動系統方法是最好的或唯一的方法;我們的目標是在資料科學和事業領域之間展開對話, 以推進我們的集體願景。

 

基於目標物件的資料產品

 

我們正在進入作為驅動系統的資料時代, 在這個系統中我們使用資料不僅是為了生成更多的資料 (以預測的形式), 還是利用資料產生可操作的結果。這是驅動系統方法的目標。闡述這個過程的最好方法是用一個熟悉的資料產品: 搜尋引擎。早在 1997年, AltaVista就是演算法搜尋世界的王者。雖然他們的模型善於尋找相關網站, 但使用者最感興趣的答案往往被埋在搜尋結果的第100頁。隨後, 谷歌出現了, 並通過一個簡單的問題開始改變線上搜尋: 使用者在搜尋查詢中輸入內容的主要目標是什麼?

谷歌意識到,其實目標是顯示最相關的搜尋結果;對於其他公司來說, 這可能是在增加利潤、改善客戶體驗、為機器人找到最佳路徑, 或者平衡資料中心的負載。一旦我們確定了目標, 第二步就是指定我們可以控制的系統輸入, 確定我們可以拉動的槓桿來影響最終的結果。就谷歌而言, 他們可以控制搜尋結果的排名。第三步是考慮他們需要哪些新的資料來產生這樣的排名;他們發現可以使用連結到某些其他頁面的隱含資訊資料來達到這個效果。只有在這前三個步驟之後, 我們才開始考慮建立預測模型。我們的目標和可用的槓桿, 已經擁有哪些資料, 還需要收集哪些額外的資料, 所有這些決定了我們可以建立的模型。模型將以槓桿和不可控變數作為它們的輸入;模型的輸出可以結合在一起來預測我們目標的最終狀態。

 

谷歌的驅動系統方法的第4步現在是科技歷史的一部分: 拉里·佩奇和謝爾蓋·布林發明了圖形遍歷演算法網頁排名, 並在其之上構建了一個引擎, 使搜尋發生了革命性的變化。但你不必發明下一個網頁排名來構建一個龐大的資料產品。我們將展示一個不需要電腦科學博士就可實現的第4步系統方法。

 

模型裝配線: 最優決策組的案例研究

 

通過正確的預測模型優化可操作的結果可能是公司最重要的戰略決策。對於保險公司來說, 保單價格就是產品, 所以最優定價模式對他們來說就像汽車製造的裝配線一樣。保險公司在預測方面有幾個世紀的經驗, 但在過去大概有10年的時間, 保險公司往往未能就每個新客戶的收費價格做出最佳的商業決定。他們的精算師可以建立模型, 預測客戶發生事故的可能性和索賠的預期價值。但這些模型並沒有解決定價問題, 因此保險公司會在猜測和市場研究相結合的基礎上制定價格。

這種情況在1999年被一家名為 "最優決策組" (ODG) 的公司徹底改變。ODG通過以往使用的驅動系統方法和採取可適用於廣泛問題的步驟4解決了這一難題。他們首先確定了保險公司要達到的目標: 制定一個價格,這個價格會一個很長的時間段最大限度地提高新客戶利潤的淨現值,問題是會受到某些限制, 如維持市場份額。從那裡, 他們開發了一個優化的定價流程, 為保險公司的底線增加了數億美元。[注: 合著者傑里米·霍華德創立了ODG]

ODG確定了保險公司可以控制的槓桿: 向每個客戶收取什麼價格, 要涵蓋哪些型別的事故, 在營銷和客戶服務上花費多少錢, 以及如何對競爭對手的定價決定做出反應。他們還考慮了超出他們控制範圍的投入, 如競爭對手的戰略、巨集觀經濟條件、自然災害和客戶的 "依附度"。他們考慮了預測客戶對價格變化的反應所需的額外資料。有必要通過在數月內隨機更改幾十萬項政策的價格來構建此資料集。雖然保險公司不願意在真正的客戶上進行這些實驗, 這樣做法會使他們因此失去一些客戶, 但實際上他們被優化的政策定價可能帶來的巨大收益所吸引。最後, ODG開始設計可用於優化保險公司利潤的模型。

ODG建模器的第一個元件是新策略和續訂的價格彈性模型 (客戶接受給定價格的概率)。價格彈性模型是價格曲線與客戶接受以該價格為條件的政策條件的概率。這條曲線路線是從幾乎肯定接受的低價到幾乎永遠不漲價。

ODG建模器的第二個組成部分與保險公司的利潤有關, 條件是客戶接受這個價格。低價產品的利潤將是紅色的,主要是因為第一年預期索賠的價值, 再加上收購新客戶併為其提供服務的任何間接費用造成。將這兩條曲線相乘將建立顯示價格與預期利潤的最終曲線 (參見下面的預期利潤數字)。最終曲線有一個可明確識別的本地最大值, 代表第一年向客戶收取的最佳價格。

ODG還構建了客戶保留模型。這些模型預測客戶是否會在一年內更新保單, 允許價格變化, 願意跳槽到競爭對手手中。這些額外的模型可以結合年度模型來預測未來五年新客戶的利潤。

這套新的模型並不是最終的答案, 因為它只標定一組給定輸入的結果。裝配線上的下一臺機器是模擬器, 它讓ODG問 "如果" 問題, 看看槓桿如何影響最終結果的分佈。預期的利潤曲線只是可能結果表面的一部分。為了構建整個曲面, 模擬器在廣泛的輸入範圍內執行模型。運營商可以調整輸入槓桿來回答具體的問題, 比如: "如果我們公司在第一年向客戶提供較低的噱頭價格, 但在第二年提高保費, 會發生什麼?"他們還可以探討保險公司控制之外的投入是如何決定利潤分配的: "如果經濟崩潰, 客戶失業怎麼辦?如果100年的洪水襲擊了他的家呢?如果一個新的競爭對手進入市場, 而我們的公司沒有反應, 會對我們的底線產生什麼影響? "由於模擬是在每個保單級別進行的, 因此保險公司可以檢視一組給定的價格變化對收入、市場份額和其他指標隨時間變化的影響。

模擬器的結果被輸入到優化器, 優化器獲取可能表象結果, 並確定最高點。優化器不僅可以找到最好的結果, 還可以識別災難性的結果, 並顯示如何避免出現這樣的結果。有許多不同的優化技術可供選擇 (請參見下面的邊欄), 但它是一個很好理解的領域, 具有可靠且可訪問的解決方案。ODG的競爭對手使用不同的技術來尋找最佳價格, 但他們傳輸的是相同的全資料產品。重要的是, 使用驅動系統方法與模型裝配線相結合, 可以彌合預測模型和可操作結果之間的差距。Irfan Ahmed的雲物理提供了一個很好的預測建模分類, 描述了整個裝配線過程:

"在處理數百或數千個個別組件模型以瞭解全系統的行為時, 必須進行 ' 搜尋 '。我認為這是一個複雜的機器 (全系統), 在那裡撤出了遮幕,你可以在控制實驗下對機器的每個重要部分進行建模, 然後模擬相互作用。此處請注意不同級別: 各個元件的模型, 在給定一組輸入的模擬中繫結在一起, 在搜尋優化器中的不同輸入集中迭代。

 

推薦系統的驅動系統方法

 

讓我們看看如何將這一過程應用到另一個行業: 營銷。我們首先將驅動系統方法應用於熟悉的示例, 推薦引擎, 然後將其構建為整個優化的營銷策略。

 

推薦引擎是基於構建良好的預測模型資料產品的一個成熟案例, 這些模型沒有達到最佳目標。目前的演算法根據購買歷史和類似客戶的歷史資料, 預測客戶會喜歡什麼產品。像亞馬遜這樣的公司代表了曾經作為一個巨大的稀疏矩陣進行的每一次收購, 客戶是以行顯示和產品為列顯示。一旦他們有了這種格式的資料, 資料科學家就會應用某種形式的協同過濾來 "填寫矩陣"。例如, 如果客戶 a 購買產品1和 10, 而客戶 b 購買產品1、2、4和 10, 則引擎會建議 a 購買2和4。這些模型善於預測客戶是否會喜歡給定的產品, 但它們往往會推薦客戶已經知道或已經決定不購買的產品。亞馬遜的推薦引擎可能是最好的, 但很容易讓它顯示出它的累贅缺陷。以下是在亞馬遜上搜尋特里·普拉特切特的《迪斯科世界系列》中的最新一本書的截圖:所有的建議都是針對同一系列的其他書的, 但一個很好的假設是, 搜尋 "特里·普拉特切特" 的客戶已經知道這些書了。在提要的第2頁到第14頁上可能有一些意想不到的建議, 但是有多少客戶會費心點選?相反, 讓我們使用傳動系統方法設計一個改進的推薦引擎, 首先要重新考慮我們的目標。推薦引擎的目的是通過給使用者意想不到的驚喜把因為沒有推薦他/她沒有購買的書籍來推動額外的銷售。我們真正想做的是模仿Zite執行長馬克·約翰遜的經驗, 他在最近的TOC演講中給出了客戶推薦體驗應該是什麼樣子的完美例子。他走進紐約市的斯特蘭德書店, 要了一本類似託尼·莫里森的《寵兒》的書。櫃檯後面的女孩推薦了威廉·福克納的《奧索洛姆·阿布索倫》。在亞馬遜上, 類似查詢的最高結果導致了託尼·莫里森的另一本書和著名的有色女作家的幾本書。斯特蘭德書商提出了一個精彩而牽強的建議, 可能更多的是基於莫里森寫作的特點, 而不是表面上的相似之處她切入了顯而易見的部分, 提出了一個建議, 將客戶送回家的新書, 並在未來一次又一次地返回斯特蘭德。這並不是說亞馬遜的推薦引擎不可能建立同樣的聯絡;問題是, 這個有益的推薦將被埋在推薦源的深處, 與 "親愛的信徒" 有更明顯相似之處的書下面。其目的是為了逃避推薦過濾氣泡, 這個詞最初是由 Eli Pariser 創造的, 用來描述個性化新聞源只顯示溫和流行的文章或進一步證實讀者現有的偏見的趨勢。

正如Altavista-google 示例一樣, 書商可以控制的槓桿是建議的排名。還必須收集新資料, 以生成將導致新銷售的建議。這將需要進行許多隨機實驗, 以便收集關於為廣泛的客戶提出的廣泛建議的資料。

驅動系統過程的最後一步是構建模型裝配線。擺脫推薦泡沫的一種方法是構建一個建模器, 其中包含兩個購買概率模型, 條件是看到或看不到推薦。這兩種概率之間的差異是向客戶提供的特定建議的實用程式函式 (請參閱下面的推薦引擎圖)。如果演算法推薦了一本熟悉的書, 客戶已經拒絕了 (兩個元件都是小的) 或一本書, 他或她會買, 即使沒有建議 (兩個元件都很大, 互相取消), 這款案例發生率較低。我們可以構建一個模擬器來測試我們庫存的許多可能書籍中每一本的效用, 或者可能只是在類似客戶購買的協作過濾模型的所有輸出上, 然後構建一個簡單的優化器, 對那些在推薦書籍基礎上他們的模擬效用。一般來說, 在選擇目標函式進行優化時, 我們需要少強調 "函式", 多強調 "目標"。使用我們資料產品的人的目標是什麼?我們到底在幫助他或她做出什麼選擇?

 

 

優化終身客戶價值

 

同樣的系統方法可以用來優化整個營銷策略。這包括零售商在實際買賣交易之外與客戶的所有互動, 無論是做產品推薦、鼓勵客戶檢視網上商店的新功能, 還是傳送促銷活動。對零售商來說, 做出錯誤的選擇是有代價的, 其結果形式是利潤率降低 (不影響額外銷售的折扣)、其主頁上稀缺的不動產機會成本減少 (在推薦源中佔用客戶產品的空間)不喜歡或將在沒有推薦的情況下購買) 或客戶調出產品) (傳送如此多無幫助電子郵件促銷活動, 以至於客戶將所有未來通訊過濾為垃圾郵件)。我們將展示如何構建優化的營銷策略, 以減輕這些影響。

 

正如前面的每一個例子中, 我們首先問: "營銷策略試圖達到什麼目標?"第二個問題: "我們有什麼槓桿可以用來實現這個目標?"例如:

 

1 我們可以讓產品的建議令人驚喜和開心(使用上一節中概述的優化建議)。

2 我們可以為客戶還沒有完全準備好購買或本來會在其他地方購買的產品提供量身定製的折扣或特別優惠。

3 我們甚至可以撥打客戶貼心聯絡電話, 只是為了瞭解使用者是如何享受我們的網站, 讓他們覺得他們的反饋是有價值的。我們需要收集哪些新資料?這可能因情況而異, 但少數線上零售商正在採取創造性的方法來採取這一步驟。線上時尚零售商Zafu展示瞭如何鼓勵客戶參與這一資料收集過程。很多網站都賣名牌牛仔, 但對很多女性來說, 高階牛仔褲是她們從未在網上購買過專案, 因為不試穿就很難找到合適的牛仔褲。Zafu的做法不是直接送顧客去穿上衣服, 而是首先問一系列簡單的問題, 比如顧客的身體型別、其他牛仔褲的合身程度以及他們的時尚偏好。只有這樣, 客戶才能瀏覽到 Zafu 的推薦庫存選擇。資料收集和建議步驟不是附加步驟;它們是Zafu的整個商業模式--女式牛仔褲現在是一個數據產品。Zafu可以調整他們的建議, 以適應他們的牛仔褲, 因為他們的系統正在問正確的問題 從目標開始, 資料科學家就會考慮他們需要為建模器構建哪些其他模型。我們可以保留我們已經建立的 "類似" 模型以及建議和不建議購買的因果關係模型, 然後採取分階段的方法新增更多的模型, 我們認為這將提高營銷效率。我們可以新增一個價格彈性模型來測試提供折扣如何改變客戶購買商品的概率。我們可以構建一個耐心模型, 讓客戶能夠容忍目標不明確的通訊: 他們何時將其排除在外, 並將我們的郵件直接過濾到垃圾郵件?("如果 hulu 再給我看一次同樣的狗食廣告, 我就不再看了!")採購序列因果關係模型可用於識別關鍵的 "進入產品"。例如, 一條牛仔褲, 往往搭配一個特定的頂部, 或一系列小說的第一部分, 往往導致整套系列的銷售。

 

一旦我們有了這些模型, 我們就構建了一個模擬器和一個優化器, 並在組合模型上執行它們, 以找出哪些建議將實現我們的目標: 推動銷售和改善客戶體驗。

 

物理資料產品的最佳實踐

 

人們很容易誤以為, 由於資料存在於抽象的某個地方, 在電子表格或雲中, 資料產品只是抽象的演算法。因此, 我們想通過向您展示基於目標的資料產品如何已經是有形世界的一部分。這些例子最重要的是, 設計這些資料產品的工程師並不是從製造一個 neato 機器人開始, 然後尋找與之有關的東西。他們從一個目標開始,諸如 "我希望我的車開車送我要去的地方", 然後設計了一個隱蔽的資料產品來完成這個任務。工程師們常常安靜地走在演算法應用程式的前沿, 因為他們長期以來一直在以基於物件的方式思考自己的建模挑戰。工業工程師是最早開始使用神經網路的工程師之一, 他們將神經網路應用於裝配線優化設計和質量控制等問題。布萊恩·裡普利關於識別的開創性著作, 為上世紀 7 0年代基本被遺忘的工程論文提供了許多想法和技術的功勞。

 

在設計產品或製造工藝時, 驅動系統類似工藝過程, 然後是模型整合、模擬和優化, 是系統工程師工具包中常見的一部分。在工程中, 通常需要將許多元件模型連結在一起, 以便能夠同時對它們進行模擬和優化。這些公司在構建最終產品中的每個元件和系統模型方面都有豐富的經驗, 無論他們是在建造伺服器工場還是戰鬥機機型。機械系統可能有一個詳細的模型, 熱力系統可能有一個單獨的模型, 電氣系統可能有另一個模型, 等等。所有這些系統都有關鍵的相互作用。例如, 電氣系統中的電阻會產生熱量, 需要將其納入熱擴散和冷卻模型的輸入。過熱可能會導致機械部件翹曲, 產生的應力應該應輸入到機械模型中。

 

下面的螢幕截圖取自鳳凰整合設計的模型整合工具。雖然它來自一個完全不同的工程學科, 但這張圖表與我們為資料產品推薦的驅動系統方法非常相似。目標明確: 建造飛機機翼。翼箱包括跨度、錐度比和掃描等設計槓桿。資料是在機翼材料的物理性質;成本列在應用程式的另一個選項卡中。有一個模型的空氣動力學和機械結構, 然後可以給到模擬器, 以產生成本, 重量, 升力係數和誘導阻力的關鍵翼輸出。這些結果可以提供給優化器, 以建立一個功能良好且具有成本效益的飛機機翼。

 

由於預測建模和優化對各種活動變得更加重要, 請注意工程師會對那些似乎不會立即出現在資料業務中的行業造成困擾。例如, "傳動系統方法" 一詞的靈感已經出現在山景的街道上。我們現在可以讓資料驅動我們, 而不是資料被驅動。假設我們想從舊金山到2012年聖克拉拉的斯特拉塔會議。我們可以建立一個簡單的距離/限速模型, 用一把尺子和一張路線圖來預測到達時間。如果我們想要一個更復雜的系統, 我們可以建立另一個交通擁堵模型, 另一個模型來預測天氣狀況及其對最安全最高速度的影響。在構建這些模型時, 有很多很酷的挑戰, 但它們本身並不把我們帶到目的地。如今, 使用某種型別的啟發式搜尋演算法來預測沿各種路線 (模擬器) 的行駛時間, 然後選擇最短的路線 (優化器), 受到避免橋樑通行費或最大限度地增加油耗等限制, 這是很微不足道的。但為什麼不把它想得更大呢?而不是衛星導航系統女性機器人的聲音告訴我們走哪條路, 往哪裡轉, 需要什麼來製造一輛自己做出這些決定的汽車呢?為什麼不把模擬和優化引擎與物理引擎捆綁在一起, 都在汽車的黑匣子裡呢?讓我們來看看這是如何應用傳動系統方法的。我們已經確定了我們的目標: 製造一輛自己駕駛的汽車。槓桿是我們都熟悉的車輛控制: 方向盤、加速器、剎車等。接下來, 我們考慮汽車需要收集哪些資料;它需要收集道路資料的感測器, 以及能夠檢測路標、紅色或綠燈以及意外障礙 (包括行人) 的攝像頭。我們需要定義我們需要的模型, 例如預測轉向、制動和加速效果的物理模型, 以及解釋路標資料的模式識別演算法。正如谷歌汽車自動駕駛專案的一位工程師在最近的一篇連線文章中所說, "我們每秒鐘分析和預測世界 2 0次"。報價中失去的是該預測的結果。車輛需要使用模擬器來檢查它可能採取的行動的結果。如果現在左轉, 會不會撞上那個行人?如果在這樣的天氣條件下, 它以每小時55英里的速度右轉, 會不會滑出道路?僅僅預測會發生什麼還不夠好。自動駕駛需要採取下一步: 模擬所有的可能性後, 它必須優化模擬的結果, 以選擇加速和制動, 轉向和訊號的最佳組合, 讓我們安全到達聖克拉拉。預測只告訴我們會有意外。一個優化者告訴我們如何避免事故的發生。

 

改進資料收集和預測模型非常重要, 但我們要強調的重要性, 首先是用產生可操作結果的槓桿來確定一個明確的目標。資料科學開始滲透, 即使是我們生活中最根本的元素。隨著科學家和工程師越來越善於將預測和優化應用於日常問題, 他們正在擴充套件可能的藝術, 優化從我們的個人健康到我們居住的房屋和城市的一切。以出口和人群控制屏障的位置為槓桿, 將模擬流體動力學和湍流的模型應用於改善交通和人流。這改善了地鐵站的緊急疏散程式, 減少了體育賽事期間人群踩踏危險。Nest正在設計智慧恆溫器, 瞭解房主的溫度偏好, 然後優化他們的能耗。在機動車交通方面, IBM 與斯德哥爾摩市實施了一個專案, 優化交通流量, 將交通擁堵減少了近四分之一, 並將市中心的空氣質量提高了 2 5%。特別有趣的是, 沒有必要建立一個複雜的新資料收集系統。任何有按流量計費的城市都已經掌握了所有必要的資訊;他們只是還沒有找到一種方法從中萃取有價值的資訊。

在另一個基於目標的資料產品有能力改變生活的領域, 矽谷的 CUM 擴充套件專案是建立資料產品的一個積極專案, 以幫助自然災害或人為災害發生後的急救人員。矽谷卡內基梅隆大學 的珍妮·斯坦伯格向我們解釋了預測演算法在災害響應中的許多可能應用, 從文字挖掘和對推特的情緒分析 (以確定損害的程度) 到成群結隊的用於偵察和救援的自主機器人, 用於物流優化工具, 幫助多個司法管轄區協調其響應。這些災難應用程式是一個特別好的例子, 說明了為什麼資料產品需要簡單、設計良好的介面來產生具體的建議。在緊急情況下, 只產生更多資料的資料產品沒有什麼用處。資料科學家現在擁有構建增加共同利益的產品的預測工具, 但他們需要意識到, 如果不同時產生優化、可實現的結果, 構建模型是不夠的。

 

資料產品的未來

 

我們引入了驅動系統方法, 為設計下一代偉大的資料產品提供了一個框架, 並描述了本質上如何依賴於優化。今後, 我們希望看到在商學院以及統計部門教授優化。我們希望看到資料科學家推送的產品, 旨在產生理想的業務成績。這仍然是資料科學的曙光。我們不知道未來會開發什麼設計方法, 但現在, 資料科學界需要圍繞一個共享的詞彙和產品設計過程進行聯合, 這些詞彙和產品設計過程可以用來教育其他人如何從它們的價值中獲得更大的價值。預測模型。如果我們不這樣做, 我們會發現我們的模型只使用資料來建立更多的資料, 而不是使用資料來建立行動、擾亂行業和改變生活。

 

我們究竟是想要提供資料的產品, 還是想要基於資料交付結果的產品?傑里米·霍華德在他的斯特拉塔 CA 12 會議上研究了這些問題, "從預測模型到優化: 下一個前沿"。


原文:https://www.oreilly.com/ideas/drivetrain-approach-data-products


免費領取驗證碼、內容安全、簡訊傳送、直播點播體驗包及雲伺服器等套餐

更多網易技術、產品、運營經驗分享請點選


相關文章:
【推薦】 細嚼慢嚥 Mongoose 5