1. 程式人生 > >【知識圖譜】復旦大學:基於知識圖譜的使用者畫像技術研究

【知識圖譜】復旦大學:基於知識圖譜的使用者畫像技術研究

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

復旦大學 基於知識圖譜的使用者畫像技術研究

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

0?wx_fmt=jpeg 
基於標籤的使用者畫像

基於標籤的使用者畫像:給 使用者打興趣、行先、屬性等不同維度的標籤,並 賦以不同的權重,以準確刻畫使用者。

當前畫像的主要問題
-不全
•資料稀疏 
•隱私保護
-不準
•噪音標籤 
•粒度太粗

0?wx_fmt=jpeg 
什麼是知識圖譜

0?wx_fmt=jpeg 
知識圖譜

知識圖譜是一種海量知識表徵形式, 表達了客類實體及其之間的各種語義關係。
-更高的實體、概念覆蓋率
-更為豐富的語義關係 -自動化構建程度
-較高的資料質量

0?wx_fmt=jpeg 
利用知識圖譜改善使用者畫像

0?wx_fmt=jpeg 
基於社交圖譜的標籤擴充套件

0?wx_fmt=jpeg 
基於社交圖譜的標籤傳播

問題:很多使用者處於隱私考慮,不願釋出標籤,或者刻意隱藏自己的行為
思路:從你的好友,尋求關於你的合適標籤
方法:基於PageRank機制,讓好友的標籤傳播到特定使用者
-越多好友具有某個標籤,使用者越可能具有某個標籤
-關係越強,標籤越可能傳播到某個使用者

0?wx_fmt=jpeg 
基於標籤傳播的使用者畫像

0?wx_fmt=jpeg

0?wx_fmt=jpeg 
基於知識圖譜的標籤擴充套件

0?wx_fmt=jpeg 
基於知識圖譜的標籤擴充套件

0?wx_fmt=jpeg

0?wx_fmt=jpeg 
標籤泛化

0?wx_fmt=jpeg 
基於最小描述長度的標籤泛化

0?wx_fmt=jpeg

0?wx_fmt=jpeg

0?wx_fmt=jpeg

0?wx_fmt=jpeg 
基於知識圖譜的誇平臺推薦

0?wx_fmt=jpeg

0?wx_fmt=jpeg

0?wx_fmt=jpeg 
網際網路標籤系統體系架構

產品由"三庫一引擎"構成,可以獨立構建。也可以作為大資料分析處理平臺的有機組 成部分,定位於業務感知層,向下對接資料融合層,對上服務於資料應用層。

0?wx_fmt=jpeg 
URL標籤化及維護實現原理

0?wx_fmt=jpeg

0?wx_fmt=jpeg

0?wx_fmt=jpeg

0?wx_fmt=jpeg

0?wx_fmt=jpeg

0?wx_fmt=jpeg

0?wx_fmt=jpeg 
知識工場

0?wx_fmt=jpeg

0?wx_fmt=jpeg

0?wx_fmt=jpeg

阿里知識圖譜多智慧:千萬級別攔截量,億級別全量智慧稽核次數

新零售技術解讀 

導讀:阿里巴巴生態裡積累了海量的商品資料,這些寶貴的商品資料來自於淘寶、天貓、1688、AliExpress等多個市場,同時品牌商、行業運營、治理運營、消費者、國家機構、物流商等多種角色參與其中,貢獻著校正著這樣一個龐大的商品庫。但無論從智慧財產權保護角度,還是提升消費者購物體驗,實現商品資料的標準化(商品規範的統一和商品資訊的確定性), 以及與內外部資料之間的深度互聯,意義都非常重大,阿里商品知識圖譜承載著商品標準化這一基礎性,根源性的工作。

0?wx_fmt=jpeg

在馬老師 “像治理酒駕一樣治理假貨”的號召下,藉助阿里知識圖譜的建設,阿里電商平臺管控從過去的“巡檢”模式升級為釋出端實時逐一檢查。在海量的商品釋出量的挑戰下,最大可能地藉助大資料、人工智慧阻止壞人、問題商品進入阿里生態。同時面臨問題商家實時的對弈、變異和惡意攻擊等諸多挑戰,知識圖譜仍然保持著每天千萬級別的攔截量,億級別的全量智慧稽核次數,在濫發、侵權、合規、假貨、經營範圍等多個場景全面與問題賣家正面交鋒,實時對弈。為了最大限度地保護智慧財產權,保護消費者權益,我們對知識圖譜推理引擎技術提出了智慧化、自學習、毫秒級響應、可解釋等更高地技術要求,實現良好的社會效益。

阿里知識圖譜運用

阿里商品知識圖譜承載著商品標準化這一基礎性,根源性的工作。通過知識表示來規範對商品資料的描述。基於此,我們才能知道哪些商品是同樣一件產品,我們才能確切地知道一個品牌是否被授權,品牌下的產品賣到了哪些市場。

阿里知識圖譜以商品、 標準產品、 標準品牌、 標準條碼、標準分類為核心, 利用實體識別、實體鏈指和語義分析技術,整合關聯了例如輿情、百科、國家行業標準等9大類一級本體,包含了百億級別的三元組,形成了巨大的知識網。

阿里知識圖譜綜合利用前沿的NLP、語義推理和深度學習等技術,打造全網商品智慧服務體系,服務阿里生態中的各個角色。商品知識圖譜廣泛地應用於搜尋、前端導購、平臺治理、智慧問答、品牌商運營等核心、創新業務。能夠幫助品牌商透視全域性資料,幫助平臺治理運營發現假貨,幫助行業基於確定的資訊選品,做人貨場匹配提高消費者購物體驗等等。為新零售、國際化提供可靠的智慧引擎。

引入機器學習演算法搭建推理引擎

我們設計了一套框架做知識表示和推理。此外:知識圖譜實體、關係、詞林(同義詞、上下位詞)、垂直知識圖譜(例如地理位置圖譜、材質圖譜)、機器學習演算法模型等都納入進來做統一的描述。

按照不同場景,我們把推理分為:上下位和等價推理;不一致性推理;知識發現推理;本體概念推理等。例如

1.上下位和等價推理。 檢索父類時,通過上下位推理把子類的物件召回,同時利用等價推理(實體的同義詞、變異詞、同款模型等),擴大召回。 例如,為保護消費者我們需要攔截 “產地為某核汙染區域的食品”, 推理引擎翻譯為 “找到產地為該區域,且屬性項與“產地”同義,屬性值是該區域下位實體的食品,以及與命中的食品是同款的食品”。

2.不一致推理。在與問題賣家對弈過程中,我們需要對商品標題、屬性、圖片、商品資質、賣家資質中的品牌、材質、成分等基礎資訊, 做一致性校驗。比如說標題中的品牌是Nike而屬性或者吊牌中品牌是Nake,如下圖所示,左邊描述了商品標題、屬性、吊牌上的品牌資訊是一致的, 推理為一致。右邊為吊牌和商品品牌不一致的商品,被推理引擎判斷為有問題的商品。

0?wx_fmt=jpeg

1.知識發現推理。

一致性推理的目的是確保資訊的確定性, 例如通過一致性推理我們能確保資料覆蓋到的食品配料表正確。但消費者購物時很少看配料表那些繁雜的數字。消費者真正關心的是無糖、無鹽等強感知的知識點。為了提高消費者購物體驗,知識發現推理通過底層配料表資料和國家行業標準例如

無糖:碳水化合物≤ 0.5 g /100 g(固體)或100 mL(液體)

無鹽:鈉≤5 mg /100 g 或100 mL

做邏輯推理。可以把配料表資料轉化為“無糖”“無鹽”等知識點。從而真正地把資料變成了知識。通過AB test驗證,類似知識點在前端導購中極大地改善了消費者購物體驗。

推理引擎背後技術框架

0?wx_fmt=jpeg

首先, 推理引擎把自然語言通過語義解析(semantic parsing)轉換為邏輯表示式(logical form)。語義解析採用了結合神經網路和符號邏輯執行的方式:自然語言經過句法、語法分析、 NER、 Entity Linking, 被編碼為分散式表示(distributed representation),句子的分散式表示被進一步轉義為邏輯表示式。

在分散式表示轉換為邏輯表示式的過程中,我們首先面臨表示和謂詞邏輯(predicate)操作之間對映的問題。我們把謂詞當做動作,通過訓練執行symbolic operation,類似neural programmer中利用attention機制選擇合適的操作,即選擇最有可能的謂詞操作,最後根據分析的句法等把謂詞操作拼接為可能的邏輯表示式,再把邏輯表示式轉換為查詢等。過程示意如下圖所示。

0?wx_fmt=jpeg

其次,邏輯表示式會觸發後續的邏輯推理和圖推理。邏輯表示式在設計過程中遵循以下幾個原則:邏輯表示式接近人的自然語言,同時便於機器和人的理解。表達能力滿足知識圖譜資料、知識表示的要求。應該易於擴充套件,能夠非常方便的增加新的類、實體和關係,能夠支援多種邏輯語言和體系,如Datalog、OWL等,即這些語言及其背後的演算法模組是可插拔的,通過可插拔的功能,推理引擎有能力描述不同的邏輯體系。

以上下位和等價推理為例:“產地為中國的食品”,”

用邏輯表示式描述為:

∀ x: 食物(x) ⊓ (∀ y: 同義詞(y,產地)) (x, (∀ z: 包括下位實體(中國, z)))

隨後找同款:

∀ t, x: ($ c:屬於產品 (x, c) ⊓屬於產品(t, c))

此外,推理引擎還用於知識庫自動補全。我們基於embedding做知識庫補全。主要思路是把知識庫中的結構資訊等加入embedding,考慮了 Trans系列的特徵,還包括邊、相鄰點、路徑、實體的文字描述 (如詳情)、圖片等特徵,用於新關係的預測和補全。

阿里知識圖譜經過我們三年的建設,已經形成了巨大的知識圖譜和海量的標準資料,同時與浙江大學陳華鈞教授團隊成立聯合專案組,引入了前沿的自然語言處理、知識表示和邏輯推理技術,在阿里巴巴新零售、國際化戰略下發揮著越來越重要的作用。

640?wx_fmt=png

人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。

AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。

領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的數字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間

給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。

子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。

如果說上一次哥倫布地理大發現,拓展的是人類的物理空間。那麼這一次地理大發現,拓展的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!

新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。

產業智慧官  AI-CPS

用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:

新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧”;新產業:“智慧製造”、“智慧農業”、“智慧金融”、“智慧零售”、“智慧城市”、“智慧駕駛”;新模式:“財富空間”、“特色小鎮”、“賽博物理”、“供應鏈金融”

點選“閱讀原文”,訪問AI-CPS OS官網

本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!

產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:[email protected]

相關推薦

知識圖譜復旦大學基於知識圖譜的使用者畫像技術研究

復旦大學 基於知識圖譜的使用者畫像技術研究   基於標籤的使用者畫像 基於標籤的使用者畫像:給 使用者打興趣、行先、屬性等不同維度的標籤,並 賦以不同的權重,以準確刻畫使用者。 當前畫像的主要問題 -不全 •資料稀疏  •隱私保護 -不準 •噪音標籤  •粒度太粗   什麼是知識圖譜   知

優化演算法梯度之上基於 Jacobian 和 Hessian 矩陣的優化演算法

上篇說的,僅僅基於梯度的優化演算法稱為 一階優化演算法(first-order optimization algorithms), 比如最典型的 梯度下降法;很多時候,僅僅使用一階的梯度資訊效果是不夠優良的,還需要考慮梯度的梯度, 也就是 二階優化演算法(sec

臨時重發復旦大學 在職軟件工程碩士(雙證)2017年入學考試 參考書推薦

出版 tle 推薦 dev 書籍 理解 工程 ticket 考研 【臨時重發】復旦大學 在職軟件工程碩士(雙證)2017年入學考試 參考書推薦 2017-06-04 MSE熱線 復旦MSE熱線 (一)統考科目:(除了政治時政版(現在還沒有),不一定要所謂2018版)

機器不學習基於知識圖譜推理的關系推演

操作 投影 bow 分數 和源 裏的 常見 ati 直接 對於知識圖譜的關註可以分為兩個方面:知識圖譜的構建和基於知識圖譜數據結構的應用。知識圖譜的構建主要關註如何整合結構化、非結構化的數據,實現用統一的語義數據結構如三元組RDF形式的數據存儲。基於知識圖譜的應用主要關註如

知性會話基於知識圖譜的人機對話系統方法與實踐-CSDN公開課-專題視訊課程...

知性會話:基於知識圖譜的人機對話系統方法與實踐—368人已學習 課程介紹         人機對話系統,或者會話互動,有望成為物聯網時代的主要互動方式。而語言的理解與表達和知識是密切聯絡的,知識圖譜作為

NLPPython例項基於文字相似度對申報專案進行查重設計

作者:白寧超 2017年5月18日17:51:37 摘要:關於查重系統很多人並不陌生,無論本科還是碩博畢業都不可避免涉及論文查重問題,這也對學術不正之風起到一定糾正作用。單位主要針對科技專案申報稽核,傳統的方式人力物力比較大,且伴隨季度性的繁重工作,效率不高。基於此,單位覺得開發一款可以達到實用的

問底伍藝一種基於Rsync演算法的資料庫備份方案設計

根據容災備份系統對備份類別的要求程度,資料庫備份系統可以分為資料級備份和應用級備份。資料備份是指建立一個異地的資料備份系統,該系統是對原本地系統關鍵應用資料實時複製。當出現故障時,可由異地資料系統迅速恢復本地資料從而保證業務的連續性。應用級備份比資料備份層次更高,即在異地建

案例蜂巢鏈基於區塊鏈的資產證劵化

資產證券化作為一種新的投融資工具,可以完善資本市場的結構,改善資源配置,提高資金金運作效率,從而促進經濟結構的優化,實現盤活存量量、為實體經濟服務的目的。 作者 | 泛融科技 官網 | w

day 11python程式設計從入門到實踐學習筆記-基於Django框架的Web開發-Django入門(二)

學習筆記目錄 第十八章 Django入門(二) 建立應用程式 django專案由一系列應用程式組成,他們協同工作,讓專案稱謂一個整體。首先我們執行命令python manage.py startapp learning_logs。 定義模型

知識圖譜大資料環境下知識工程的機遇和挑戰

導讀:知識圖譜已經成為推動人工智慧發展的核心驅動力之一。本文選自清華大學電腦科學與技術系教授、清

day 15python程式設計從入門到實踐學習筆記-基於Django框架的Web開發-使用者賬戶(二)

學習筆記目錄 第十九章 使用者賬戶(二) 建立使用者賬戶 這一部分我們來建立使用者註冊和身份驗證系統。 應用程式users 首先使用命令python manage.py startapp users建立名為users的應用程式,現在你的目錄

DeepLab V2基於深度卷積網、孔洞演算法和全連線CRFs的語義影象分割

【譯】DeepLab:基於深度卷積網、孔洞演算法和全連線CRFs的語義影象分割 Author: Liang-Chieh Chen 摘要 在這項工作中有三個主要貢獻具有實質的實用價值: 第一,使用上取樣濾波器進行卷積,或者將“多孔 convolut

day 12python程式設計從入門到實踐學習筆記-基於Django框架的Web開發-Django入門(三)

學習筆記目錄 第十八章 Django入門(三) 建立網頁:學習筆記主頁 使用django建立網頁通常分三個階段:定義URL、編寫檢視和編寫模板。 首先必須定義URL模式,其描述了URL是

設計模式第一篇概述、耦合、UML、七大原則,詳細分析總結(基於Java)

![](//p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/879cf035c7c044469f3589610c4ba7f8~tplv-k3u1fbpfcp-zoom-1.image) 迷茫了一週,一段時間重複的 CRUD ,著實讓我有點煩悶,最近打算將這些技術棧系列的文

學習筆記關於DOM4J使用DOM4J解析XML文檔

文本 class 中產 獲取 ber exce int() logs hone 一、概述 DOM4J是一個易用的、開源的庫,用於XML、XPath和XSLT中。采用了Java集合框架並完全支持DOM、SAX、和JAXP。 DOM4J最大的特色是使用大量的接口,主要接口都在o

匯總Python 編程核心知識體系

目前 博客 列表 修改 pic http 匯總 -- elf 【匯總】Python 編程核心知識體系 大神著作,源自:https://woaielf.github.io/2017/06/13/python3-all/ 本文主要涵蓋了 Python 編程的核心知識(暫不包括標

問底夏俊深入站點服務端技術(一)——站點並發的問題

而是 思路 臨時 系統負載 表現 json article 不能 情況 摘要:本文來自擁有十年IT從業經驗、擅長站點架構設計、Web前端技術以及Java企業級開發的夏俊,此文也是《關於大型站點技術演進的思考》系列文章的最新出爐內容。首發於CSDN,各位技術人員不

第二組典型場景進行積分兌換功能工作序號 006 2017/07/06 場景

自己的 提示框 生成 提醒 想要 主界面 生成器 完成 免費 一、背景 1)典型用戶:李二蛋【主要】,王尼瑪【主要】 2)用戶的需求/迫切需要解決的問題 A: 李二蛋在設計任務之後,覺得設計這個任務沒什麽成就感,就不想再次參與設計任務了; 李二蛋在設計任務時希望能添加一些別

設計模式代理模式靜態代理,動態代理,spring aop

spring 實現接口 找到 master 代碼 -s result java 統一 代理模式分為靜態代理和動態代理。我們拿鏈家來舉例子,我們本人是真實的對象,有真實的業務需求:需要去找房子;鏈家是中介,是代理類,他來幫我執行找房子的這個操作。 靜態代理:   1.實現一個

設計模式 模式PK裝飾模式VS適配器模式

角度 朋友 hit 擴展 override 轉換 展現 調用 代理 1、概述 裝飾模式和適配器模式在通用類圖上沒有太多的相似點,差別比較大,但是它們的功能有相似的地方:都是包裝作用,都是通過委托方式實現其功能。不同點是:裝飾模式包裝的是自己的兄弟類,隸屬於同一個家族(相同接