知識圖譜的技術與應用-筆記

阿新 • • 發佈：2019-01-10

知識圖譜的技術與應用

原文連結

概論

只要有關係分析的需求，就能用上“知識圖譜”

場景

社交網路圖譜
風控知識圖譜

知識圖譜應用的前提是已經構建好了知識圖譜

知識圖譜是一個比較新的工具，主要作用在於分析關係，尤其是深度的關係。

知識圖譜領域最重要的是知識的推理。

知識圖譜工程本身還是業務為中心，以資料為中心。

什麼是知識圖譜

知識圖譜本質上是語義網路的知識庫

知識圖譜也可以認為是一個知識庫

知識圖譜也可以算是多關係圖。

多關係圖：包含多種型別的節點和多種型別的邊

實體：現實世界中的事物。

比如人、地名、概念、藥物、公司等

關係

表達不同實體之間的某種聯絡

當一個知識圖譜擁有屬性時，可以用屬性圖來表示

儲存方式

RDF
- 學術界
- 很多三元組來組成
- 特點
- 易於釋出和分享資料，但不支援實體或關係擁有屬性
圖資料庫
- 工業界
- 儲存屬性圖
- 增長最快的儲存系統
RDF和圖資料庫對比
- RDF
- 儲存三元組
- 標準的推理引擎
- W3C標準
- 易於釋出資料
- 代表框架：Jena
- 圖資料庫
- 節點和關係可以帶有屬性
- 沒有標準的推理引擎
- 圖的遍歷效率高
- 事務管理
- 代表框架：Neo4j、OrientDB、Janus Graph

知識抽取

難點在於處理非結構化資料

資料來源渠道

業務本身的資料，公司內部資料庫

網路上公開抓取的資料，網頁資料
- NLP
- 實體命名識別
  - 從文本里提取出實體，並對每個實體做分類/打標籤
  - 比較成熟的技術，有現成的工具
- 關係抽取
  - 把實體間的關係從文字中提取出來
  - 兩個問題
  - 實體統一（實體對齊）
    - 作用：降低稀疏性
  - 指代消解
- 實體統一
- 指代消解

金融知識圖譜的搭建

搭建一個知識圖譜，最重要的核心在於對業務的理解以及對知識圖譜本身的設計

構建知識圖譜的步驟

1、定義具體的業務問題
2、資料的收集和預處理
3、知識圖譜的設計
4、把資料存入知識圖譜
5、上層應用的開發以及系統的評估

步驟一：定義具體的業務問題

需明確：業務問題到底需不需要知識圖譜系統的支援

如果滿足下列條件，用更簡單的方式~
- 對視覺化需求不高
- 很少涉及到關係的深度搜索
- 關係查詢效率要求不高
- 資料缺乏多樣性
- 暫時沒有人力或者成本不夠
如果滿足下列條件，選擇知識圖譜
- 有強烈的視覺化需求
- 經常涉及到關係的深度搜索
- 對關係查詢效率有實時性要求
- 資料多樣化、解決資料孤島問題
- 有能力、有成本搭建系統

步驟二：資料的收集和預處理

確定資料來源
- 我們已經有哪些資料？
- 雖然現在沒有，但是可能拿到哪些資料？
- 其中哪部分資料可以用來降低風險？
- 哪部分資料可以用來構建知識圖譜？

步驟三：知識圖譜的設計

先考慮三個問題
- 1、需要哪些實體、關係和屬性？
- 2、哪些屬性可以作為實體，哪些實體可以作為屬性？
- 3、哪些資訊不需要放在知識圖譜中？
設計知識圖譜原則-BAEF
- 業務原則 Business Principle
- 一切要從業務邏輯出發，並且通過觀察知識圖譜的設計也很容易推測其背後業務的邏輯，而且設計時也要想好未來業務可能的變化。
- 分析原則 Analytics Principle
- 關係分析無關的實體不需要放在知識圖譜中
- 效率原則 Efficiency Principle
- 效率原則讓知識圖譜儘量輕量化，並決定哪些資料放在知識圖譜，哪些資料不需要放在知識圖譜。
- 把常用的資訊放在知識圖譜中，把那些訪問頻率不高，對關係分析無關緊要的資訊放在傳統的關係型資料庫中。
- 效率原則的核心在於把知識圖譜設計成小而輕的儲存載體。
- 冗餘原則 Redundancy Principle
- 有些重複性資訊、高頻資訊可以放到傳統資料庫中

10億節點以下規模的知識圖譜，用Neo4j圖形資料庫就夠了

知識圖譜在金融領域上層應用的開發

靜態圖譜分析

靜態關係圖譜
- 不考慮圖譜結構本身隨時間的變化，只聚焦在當前知識圖譜結構上。
從演算法的角度，有2種不同的場景
- 基於規則的應用
- 不一致性驗證
  - 通過一些規則去找出潛在的矛盾點。
  - 規則是人為提前定義好的，需要一定的業務知識
- 基於規則提取特徵
  - 基於深度的搜尋提取的特徵，可以作為模型的輸入。
  - 如果特徵不涉及深度的關係，傳統的關係型資料庫可以滿足需求
- 基於模式的判斷
  - 適用於找出團體欺詐，通過一些模式來找到有可能存在風險的團體或者子圖，對這部分子圖做進一步的分析。
  - 多點共享資訊，共享了多個實體
  - 強連通圖，標記出來，做進一步的分析
    - 強連通圖：每一個節點都可以通過某種路徑達到其他的點，這些節點之間有很強的關係。
- 基於概率的應用
- 社群挖掘
  - 社群挖掘演算法的目的在於從圖中找出一些社群。
  - 社群內節點之間關係的密度要明顯大於社群之間的關係密度。
- 標籤傳播
  - 標籤傳播演算法的核心思想在於節點之間資訊的傳遞。通過這種關係會不斷地吸取高質量的資訊。
- 聚類
- 基於規則的方法和基於概率的方法比較
- 基於概率的方法需要足夠多的資料。如果資料量很少，而且整個圖譜比較稀疏，基於規則的方法會更加適用。

動態圖譜分析

在兩個時刻中間，圖譜結構（或部分結構）發生了很明顯的變化。
如何判斷結構變化？
- dynamic network mining

知識圖譜在其他行業中的應用

教育行業

個性化教育
- 理解學生當前的知識體系，知識體系依賴於我們所獲取到的資料（互動資料、評測資料、互動資料等）
- 為了分析學習路徑以及知識結構，需要針對於一個領域的概念知識圖譜
- 知識圖譜的好處就是把我們所需要關注的範圍很快給我們圈定。

達觀資料桂洪冠：一文詳解達觀資料知識圖譜技術與應用

本文根據達觀資料桂洪冠在“達觀杯”文字智慧處理挑戰賽期間的技術直播分享整理而成，內容略有刪減。 ▌一、知識圖譜的概述我們先直觀的來看一下什麼是知識圖譜，下面有一張圖，從這張圖裡可以看到，這個圖裡圓圈是節點，節點之間有一些帶箭頭的邊來連成，這個節點實際上相當於知識

高盛、亞馬遜資深工程師：知識圖譜技術與應用

一、知識圖譜課程講師：李文哲：人工智慧、知識圖譜領域專家。曾任凡普金科(愛錢進)首席資料科學家、北京會牛科技的首席科學家兼投資總監、美國亞馬遜和高盛的高階工程師，負責過金融知識圖譜、聊天機器人、量化交易、自適應教學系統等核心專案。美國南加州大學人工智慧博士、荷蘭阿姆斯特丹大學訪問學生，先後在

知識圖譜的技術與應用-筆記

知識圖譜的技術與應用原文連結概論只要有關係分析的需求，就能用上“知識圖譜” 場景社交網路圖譜風控知識圖譜知識圖譜應用的前提是已經構建好了知識圖譜知識圖譜是一個比較新的工具，主要作用在於分析關係，尤其是深度的

領域應用 | 知識圖譜的技術與應用

本文轉載自公眾號：貪心科技。作者 | 李文哲，人工智慧、知識圖譜領域專家導讀：從一開始的Goog

乾貨 | 知識圖譜的技術與應用

作者 | 李文哲，人工智慧、知識圖譜領域專家、貪心學院院長導讀：從一開始的Google搜尋，到現在的聊天機器人、大資料風控、證券投資、智慧醫療、自適應教育、推薦系統，無一不跟知識圖譜相關。本文以通俗易懂的方式來講解知識圖譜相關的知識，尤其對從零開始搭建知識圖譜過程當中需要經歷的步驟以及每個階段需要考慮的問題都

乾貨 | 從零到一學習知識圖譜的技術與應用

作者 | 李文哲（人工智慧、知識圖譜領域專家）來源 | 貪心科技導讀：從一開始的Google搜尋

從零到一學習計算機視覺：朋友圈爆款背後的計算機視覺技術與應用 | 公開課筆記...

分享人 | 葉聰（騰訊雲 AI 和大資料中心高階研發工程師）整理 | Leo出品 | 人工智

後臺開發-核心技術與應用實踐筆記（linux程式記憶體空間佈局）

linux下C程式的記憶體五區：程式碼段：存放程式執行程式碼的一塊區域。資料段：包括初始化資料段和未初始化資料段。初始化資料段用於存放已初始化的全域性變數和已初始化的靜態變數。未初始化資料段用於存放未初始化的全域性變數和未初始化的靜態變數。字串常量區：存放字串常量堆：存放程式

《區塊鏈技術與應用》北京大學肖臻老師公開課筆記

ogr fun base ble 是否 graph bits 存儲不用建立：2019.3.19 第2講：比特幣中的密碼學原理用到的主要功能：1.哈希函數 2.簽名密碼學中的哈希被稱為cryptographic hash function 哈希主要性質：1

區塊鏈技術與應用回顧

融資戰略 int -i 零售高效 net 互聯網理財區塊鏈(BlockChain)是分布式數據存儲、點對點傳輸、共識機制、加密算法等計算機技術的新型應用模式。所謂共識機制是區塊鏈系統中實現不同節點之間建立信任、獲取權益的數學算法。這次是再次回顧了，筆

存儲技術與應用

udev product pro 徹底重新掛載登錄 ip協議交換機集中管理存儲技術與應用存儲技術分類 DAS直連式存儲將存儲設備通過SCSI接口或光纖通道直接連接到計算機上，不能實現數據與其他主機共享，占用服務器操作系統 NAS網絡技術存儲一

01：存儲技術與應用、 iSCSI技術應用、 udev配置、 NFS網絡文件系統、 Mul

nas stat 準備 lib www 獲取自定義 rul tip 存儲的是什麽？數據數據存儲的介質？永久存儲（硬盤）臨時存儲（內存）存儲位置？雲存儲內存存儲硬盤存儲存儲類型？共享存儲分布式存儲存儲技術？ DAS

嵌入式技術與應用專業畢業以後可以做什麽

簡單軟件工程師嵌入式硬件 images 操作 inux c語言、根據 c語言很多電子愛好者都會學習嵌入式技術，在學之前感覺好神秘的樣子，而當你學完之後，你才發現嵌入式大概可以劃分為兩種，一種是嵌入式軟件技術，一種是嵌入式硬件技術。咱們今天就重點說說軟件方面的吧! 　

百度強勢入場，AI們集體打 call：揭秘百度智能客服背後的語音技術與應用

一起直接 net sap pac 上下應用 class 例子兩年前的今天，AI流行下圍棋；今天，AI流行打電話……這個潮流的最近一次上演，是幾天前的百度AI開發者大會上，李彥宏現場播放了百度AI客服邀請開發者的真實電話錄音。當時我就在現場，第一通電話裏那位開發者方言比

葉聰：朋友圈背後的計算機視覺技術與應用

平臺假設計算互動 hog 雲計做成基於出發歡迎大家前往騰訊雲+社區，獲取更多騰訊海量技術實踐幹貨哦~ 本文由雲加社區技術沙龍發表於雲+社區專欄演講嘉賓：葉聰，騰訊雲AI和大數據中心高級研發工程師。在多年的雲計算系統研發經歷中，負責領導了多個百萬級用戶

方興未艾的語音合成技術與應用

https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247498490&idx=2&sn=a995453c626c1df20899986f46e0561f&scene=21#wechat_redirect

浪潮當選數字山東地理空間技術與應用創新聯盟理事長單位

濟南2018年11月13日電 /美通社/ -- 11月10日，2018山東省地理資訊產業創新發展高峰論壇暨山東省測繪地理資訊行業協會地理資訊產業專業委員會、數字山東地理空間技術與應用創新聯盟成立大會在濟南浪潮科技園成功舉辦。會議釋出了《2018山東省地理資訊產業發展報告》，公佈了2018

HBase技術與應用實踐 | HBase2.0重新定義小物件實時存取

本次分享來自中國HBase技術社群第七屆MeetUp成都站，分享嘉賓天引阿里巴巴技術專家專注在大資料領域，擁有多年分散式、高併發、大規模系統的研發與實踐經驗，先後參與HBase、Phoenix、Lindorm等產品的核心引擎研發，目前負責阿里上萬節點的HBase As a Service的發展與落地。分

靈玖軟體：KGB知識圖譜技術為資料安全提供新方法

　　隨著計算機網路技術不斷的發展和完善，目前網路技術運用在各個行業並取得了極其重要的成就，不僅僅改變了人們的日常生活和工作，同時也是體現一個企業綜合實力的重要組成部分，此外，計算機網路技術也已經成為了衡量一個國家經濟、政治、軍事能力的象徵，象徵著一個國家在國際上的影響力。　　資料探勘是在龐大的資料庫中找出

靈玖軟件：KGB知識圖譜技術為數據安全提供新方法

工作效率自定義作用采購研究 graph 圖片人工智能內容　　隨著計算機網絡技術不斷的發展和完善，目前網絡技術運用在各個行業並取得了極其重要的成就，不僅僅改變了人們的日常生活和工作，同時也是體現一個企業綜合實力的重要組成部分，此外，計算機網絡技術也已經成為了衡量

知識圖譜的技術與應用-筆記

知識圖譜的技術與應用

原文連結

概論

只要有關係分析的需求，就能用上“知識圖譜”

場景

知識圖譜應用的前提是已經構建好了知識圖譜

知識圖譜是一個比較新的工具，主要作用在於分析關係，尤其是深度的關係。

知識圖譜領域最重要的是知識的推理。

知識圖譜工程本身還是業務為中心，以資料為中心。

什麼是知識圖譜

知識圖譜本質上是語義網路的知識庫

知識圖譜也可以算是 多關係圖。

實體：現實世界中的事物。

關係

當一個知識圖譜擁有屬性時，可以用屬性圖來表示

儲存方式

知識抽取

難點在於處理非結構化資料

資料來源渠道

金融知識圖譜的搭建

搭建一個知識圖譜，最重要的核心在於對業務的理解以及對知識圖譜本身的設計

構建知識圖譜的步驟

步驟一：定義具體的業務問題

步驟二：資料的收集和預處理

步驟三：知識圖譜的設計

10億節點以下規模的知識圖譜，用Neo4j圖形資料庫就夠了

知識圖譜在金融領域上層應用的開發

靜態圖譜分析

動態圖譜分析

知識圖譜在其他行業中的應用

教育行業

相關推薦

知識圖譜也可以算是多關係圖。