WWW 2019微軟亞洲研究院6篇入選論文一覽
編者按: WWW 2019(The Web Conference)於5月13-17日在美國舊金山召開,今年會議共收到投稿1247篇,錄取225篇,錄取率為18%。微軟亞洲研究院共有6篇論文入選,內容包括推薦系統知識圖譜中的多工特徵學習、知識圖卷積網路 、 中文分詞與中文實體識別 、 雲服務故障預測和診斷 、 深度學習在移動端APP上的應用情況等,感興趣的讀者可以在“閱讀原文”中下載論文。
基於知識圖譜的推薦系統
在資訊爆炸時代,推薦系統的目標是對使用者需求進行建模,為使用者推薦其可能感興趣的物品,如電影、音樂、餐館等,滿足其個性化偏好。由於使用者互動資料的稀疏性,傳統的協同過濾方法已經不能很好地適應真實的推薦場景,引入更多的輔助資訊對提升推薦系統的效能至關重要。
在以下兩篇論文中,我們以知識圖譜為輔助資訊提出了兩種不同的模型。知識圖譜是一種異構圖,每個節點是一個實體,邊則表述了實體之間的關係。對於推薦系統而言,如果知識圖譜中的實體集合包含了物品集合,知識圖譜就提供了物品之間豐富的語義關聯。這種關聯可以用來輔助推薦系統的決策,提升推薦結果的準確率、多樣性和可解釋性。
知識圖譜增強推薦中的多工特徵學習
Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation
Hongwei Wang, Fuzheng Zhang, Miao Zhao, Wenjie Li, Xing Xie, Minyi Guo
論文連結:https://arxiv.org/abs/1901.08907
在該論文中,我們將推薦系統和知識圖譜建模視為兩個分離但是相關的任務,設計了一個多工學習的框架,利用知識圖譜建模任務來輔助推薦系統任務(下圖a)。這兩個任務之所以相關,是因為推薦系統中的一個物品會和一個或多個知識圖譜中的實體相對應,因此,它們在各自的向量空間中的表徵應該有相關性。為了表達這種相關性,我們在提出的模型中設計了一個“交叉-壓縮”單元,這個單元顯式地對物品表徵和實體表徵的高階互動進行建模,並自動控制兩個任務之間的知識的交叉遷移。
交叉-壓縮單元(上圖b)首先對輸入的物品表徵向量和實體表徵向量的每一個維度的互動都進行建模,得到一個交叉矩陣及其轉置;然後再對交叉矩陣及其轉置進行壓縮,重新得到物品和實體表徵向量。通過交叉-壓縮單元,物品向量和實體向量之間得以充分地互動,知識圖譜的資訊也可以流入推薦系統中,輔助提升其泛化能力。
我們通過理論分析,證明了交叉-壓縮單元具有足夠的能力來擬合物品向量和實體向量之間的高階互動。我們也可以證明該框架是多種模型的泛化推廣的結果,包括factorization machines、deep&cross network和cross-stitch network。實驗結果表明,我們提出的模型在多個真實場景中比對比方法有明顯的效能提高,例如,在電影推薦資料集MovieLens-1M中有11.6%的點選率提升,在圖書推薦資料集Book-Crossing中有66.4%的召回率提升。另外,實驗結果也表明我們的方法在使用者-物品互動非常稀疏時也有良好的表現。
推薦系統的知識圖卷積網路
Knowledge Graph Convolutional Networks for Recommender Systems
Hongwei Wang, Miao Zhao, Xing Xie, Wenjie Li, Minyi Guo
論文連結:https://arxiv.org/abs/1904.12575
與上面的方法不同,在本文中,我們對知識圖譜的建模更加偏向於結構資訊。圖卷積網路(graph convolutional networks,GCN)是最近提出的一種圖表徵學習方法,它在學習節點表徵時被證明具有優越的效能。本文是GCN在知識圖譜建模中的推廣。
由於知識圖譜是異構圖,而GCN只能對普通的同構圖進行建模,因此我們需要將知識圖譜進行轉化。為此,我們提出使用一個“使用者-關係評分函式”,在給定一個使用者的情況下,將知識圖譜中邊(即關係)的種類轉化成了權值資訊。對於轉化後的知識圖譜,我們首先對每個節點的多跳鄰居進行取樣(見下圖a),得到了固定大小的鄰居集合。然後,我們逐層將鄰居節點的表徵進行加權聚合,並當作該節點在下一輪中的表徵(見下圖b)。這裡的加權係數即為我們在上一步中得到的邊的權值資訊。經過k層聚合之後,一個節點的最終表徵就融合了其最多k跳的鄰居節點的資訊,這有助於在知識圖譜中探索和擴充套件使用者的興趣。
我們在三個真實的推薦系統資料集(MovieLens-20M,Book-Crossing,Last.FM)上進行了實驗,結果表明我們的方法取得了優秀的效能表現。例如在點選率預測中,KGCN實現了在三個資料集上的平均4.4%,8.1%和6.2%的提升,在top-k推薦中,KGCN的召回率曲線也均高於對比方法。
中文分詞與中文實體識別
結合分詞的中文命名實體識別
Neural Chinese Named Entity Recognition via CNN-LSTM-CRF and Joint Training with Word Segmentation
Fangzhao Wu, Junxin Liu, Chuhan Wu, Yongfeng Huang, Xing Xie
論文連結:https://github.com/liujunxin/CNER-IN-WWW19
命名實體識別是指文字中抽取實體的名稱並將其分類到特定類別的任務,被廣泛應用於實體連結、關係抽取、自動問答等一系列下游任務中。相比英文命令實體識別,中文實體識別存在更大的挑戰。首先,中文文字缺少顯式的詞語分隔符,比如英文中的空格等,因此實體邊界的識別更加困難;其次,中文句子的區域性和全域性上下文資訊對於實體識別都非常重要;另外,相比於英文命名實體識別,中文命名實體識別的標註資料更加缺乏。
為了解決這些問題,本論文提出了一種結合漢語分詞的中文命名實體識別框架(如下圖所示),通過聯合訓練中文命名實體識別模型和漢語分詞模型來提升中文命名實體識別模型對中文實體邊界的識別能力。同時,本論文提出了一種CNN-LSTM-CRF的中文命名實體識別模型,用來更好地對中文句子的區域性和全域性上下文資訊進行建模。此外,本論文提出了一種基於同類實體替換的自動標註資料構造方法,能夠從已有的少量標註資料中構造更多的偽標註樣本,顯著提升模型的泛化能力。
本論文在第三屆和第四屆SIGHAN中文處理競賽的命名實體識別資料集上進行了實驗。如下表所示,CNN-LSTM-CRF模型在中文命名實體識別任務上的效能要顯著優於目前流行的LSTM-CRF模型。同時,結合漢語分詞的聯合框架可以有效提升中文命名實體識別的效果。此外,本論文提出的偽標註資料構造方法可以顯著提升不同中文命名實體識別模型的效能,尤其是在未登入實體(OOV)上的表現,證明這些自動構造的偽標註資料有效提升了模型的泛化能力。
結合詞典和無標註資料的中文分詞
Neural Chinese Word Segmentation with Lexicon and Unlabeled Data via Posterior Regularization
Junxin Liu, Fangzhao Wu, Chuhan Wu, Yongfeng Huang, Xing Xie
論文連結:https://github.com/liujunxin/CWS-IN-WWW19
近年來,基於神經網路的方法被廣泛應用於中文分詞,並取得了不錯的效果。然而這些方法通常依賴於大量的有標註資料來訓練模型,並且很難正確識別那些極少或沒有出現在訓練資料中的詞語。由於詞語分佈的長尾特徵,構造一個能完全並充分覆蓋所有詞語的資料集是一個非常艱鉅的任務。
由於存在很多大規模、高質量的漢語詞典,並且無標註的漢語句子相對容易獲取,本論文提出了一種能充分利用漢語詞典和無標註資料的中文分詞方法,以降低對標註資料的依賴,提升分詞效果。我們提出了一個基於後驗正則 (posterior regularization) 演算法的框架,能夠將中文詞典和無標註資料生成間接監督資訊並用於模型訓練,從而約束中文分詞模型的預測空間。我們使用CNN-CRF模型作為基礎的神經網路分詞模型(如左下圖所示),同時利用詞典和無標註資料產生的間接監督資訊和有標註資料中包含的直接監督資訊來訓練神經網路分詞模型,並通過多次迭代來逐步優化模型的效果。
該論文在第三屆SIGHAN中文處理競賽的兩個中文分詞任務資料集上進行實驗。實驗結果(如下表所示)表明,論文提出的方法能夠顯著地提升中文分詞的效果,並降低對標註資料的依賴。
此外,這一方法還可用於中文分詞的領域遷移。下表是從新聞領域向小說和微博領域進行遷移的實驗結果,通過我們的框架將目標領域的詞典的無標註資料融入到模型訓練中,可以有效提升中文分詞模型的領域遷移效能。
更可靠的雲服務
雲服務系統的中斷預測和診斷
Outage Prediction and Diagnosis for Cloud Service Systems
Yujun Chen, Xian Yang, Qingwei Lin, Hongyu Zhang, Feng Gao, Zhangwei Xu, Yingnong Dang, Dongmei Zhang, Hang Dong, Yong Xu, Hao Li, Yu Kang
論文連結:http://chenjohn.cn/files/2019/www_2019_chen.pdf
在大型雲系統中,系統故障會極大地影響系統可用性。為了維護系統的正常執行,在檢測到故障時,需要高效的故障管理機制來及時診斷和止損。目前大部分針對大型複雜系統(如資料中心、網格系統和防禦系統)的預測和診斷故障的方法只考慮某個單一子系統的行為,而忽略了相關係統的影響。雖然集中研究單一子系統也有利於提升系統的可用性,但對於Azure這樣的大型雲系統是不夠的。
像Azure這樣的大型系統包含許多子系統(即服務),每個子系統由許多相互關聯的元件和服務組成。同時,服務是元件上層的一個概念。也就是說,整個複雜系統是由若干個服務組成,一個服務又有諸多小的元件構成。每個元件或服務都有自己的監控方式,可以定期收集檢查元件執行狀態的訊號。這些來自元件/服務的訊號反映了系統各個方面的健康狀態,例如雲節點可用資源、節點/資料中心流量、響應延遲、溫度和功耗等等。
我們在該論文中提出一種新的方法來解決大型複雜系統的故障預測和診斷問題,關注大型系統中各個元件存在的關聯性及其對故障檢測與修復的幫助。針對元件和服務關聯性問題,我們藉助因果分析方法FCI中的條件獨立檢驗確定各個元件或服務收集的時域訊號是否存在相關性。通過因果分析時域訊號的關聯性,將不同層次之間的元件訊號和服務訊號進行關聯性構建,得到元件和服務的關聯圖。再借助樹分類器(XGBoost)利用時域訊號特徵和相關的元件與服務資訊進行故障的預測工作。在實際使用時,我們提出的方法不僅可以在故障預測中取得較好的效果,還能夠對元件或服務發生的故障進行診斷,定位最本質的故障資訊。
深度學習在APP中的應用
深度學習在移動端app上的應用情況
A First Look at Deep Learning Apps on Smartphones
Mengwei Xu, Jiawei Liu, Yuanqiang Liu, Felix Xiaozhu Lin, Yunxin Liu, Xuanzhe Liu
論文地址:https://arxiv.org/pdf/1812.05448.pdf
程式碼地址:https://github.com/xumengwei/MobileDL
為彌補深度學習研究和工程實踐之間的差距及對深度學習在移動端應用這一新熱點的研究空缺,我們對Google Play上16,500個最流行的安卓應用程式進行了首次實證研究,利用靜態分析工具揭示了最早期使用深度學習的應用程式是哪些,它們使用深度學習的用途及方式。一方面,這一研究成果描繪了智慧手機使用深度學習技術的前景,另一方面,它也敦促開發者對智慧手機上部署的深度學習模型進行優化。
我們設計了一個半自動化執行的分析工具來實現研究目標。首先從給定的定安卓應用程式集中識別出使用了深度學習的應用程式,然後用由工具aapt提取manifest 檔案並從相應的Google Play網頁中獲取元資訊,用Model Extractor模組從assets資料夾中提取深度學習模型。然而在支離破碎的深度學習框架的生態系統下,深度學習模型大多采用不同的格式,因而Model Extractor對每一種框架都有一個驗證器。但許多模型並沒有以明文形式儲存在apk檔案中,對於這種情況,模型提取器嘗試對應用程式進行反向工程,並提取可分析的模型。
研究結果表明,深度學習的早期採用者是排名最靠前的應用程式;深度學習多被用作應用程式的核心構建塊;針對移動端的深度學習框架正受到越來越多的關注;大多數應用程式使用的深度學習模型缺少明顯的優化;移動裝置上使用的深度學習模型比預期的要輕量;移動裝置上使用的模型未受到很好的保護。
論文下載
下載地址:https://www.msra.cn/wp-content/uploads/2019/05/WWW2019.zip
長按掃碼,下載論文
你也許還想看 :
感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:[email protected]。