1. 程式人生 > >【知識圖譜】知識圖譜從0級到10級簡化版

【知識圖譜】知識圖譜從0級到10級簡化版

640?wx_fmt=png&wxfrom=5&wx_lazy=1

作者:鮑捷  來源:文因學堂 授權 產業智慧官 轉載。 

以前寫過幾個進階指南,可能都太難,不接地氣。這裡重新寫一個更實事求是、更便於工程落地的版本

0級:掌握正則表示式、SQL、JSON和一門支援if-then-else的高階語言  —— 是的,這些不是知識圖譜技術,但是這些可以解決問題。我們要的是解決問題,不是嗎?

1級:學會ER建模(對,就是資料庫裡的ER建模),理解實體(Entity)和關係(Relation)的概念。這個可能比你想象得難很多。學會更復雜的SQL,能熟練掌握至少一種主流的關係資料庫,至少學會一種語言的資料庫操作。

2級:學會兩種給實體命名的方法:資料庫裡的主鍵,Web上的URI。理解分類樹。這時候可以學下RDF了,掌握Turtle和JSON-LD兩種語法。會用Java或者Python操作RDF。(小白一般到這裡就開始大批陣亡)

3級:如果還未陣亡,可能發現RDF資料庫不是太好用,需要學會一個圖資料庫(如Neo4j或OrientDB)或者支援JSON的關係資料庫(如PostgreSQL)。學會用這些資料庫表達關係-實體,和表達分類樹。這可以保證以後可以活得再久一點。

4級:這時候作為一名老兵,你可能已經學會了查詢語言SPARQL、Cypher或Gremlin。然後你發現查詢語言可以用來寫!規!則!天啊,天堂的大門已經打開了。

5級:你會發現把智慧放在資料裡要遠遠好於放在程式碼裡。你會開始鄙視在程式碼裡寫大量if-then-else的偽知識圖譜愛好者。而且你開始不滿足用查詢語言客串規則(如用SPIN)。你需要一些真正的推理規則。你開始對OWL感興趣……然後徹底被搞暈了。

6級:你發現OWL很強大但是也很難理解,它背後的描述邏輯如同三體人一樣充滿敵意。然後你發現其實if-then-else也蠻不錯的,而且有一個更容易理解的規則語言:logic program。然後你突然發現SQL其實就是一種LP啊(Datalog)!突然一下世界豁然開朗,喜悅充滿全身,聖潔的陽光從天上映下。

7級:在各種奇怪的規則語言中游弋:RIF-BLD,RIF-PRD,SWRL,RuleML,JESS,DLV,XSB,Prolog。發現世界的各種東西都可以按此建模。理解各種推理機的效能。諳熟各種知識建模套路。

8級:從頭到尾設計過一個完整的語義或知識應用,經歷落地過程種種工程的巨大陷阱,入坑、爬出來,再入坑、再爬出來,再再入坑……直到爬不出來。

9級:開始思考人性問題。從認知的角度、社會的角度、組織的角度、經濟的角度思考什麼是知識,怎麼才能真正實施知識系統。

10級:綜合運用正則表示式、SQL、JSON和一門支援if-then-else的高階語言 ,舉重若輕解決以上1-9級中遇到的的各種問題。其實你設計出了自己的知識表現語言。

知識圖譜的一些基本功

作者:鮑捷  來源:文因學堂 授權 產業智慧官 轉載。 

(好像說的不只是入門了。算是個成長打怪小提綱吧)

任何一個學科,重要的不是靜態的知識本身,而是建立知其然(Framework),知其所以然(Rationale),最後到知未然(Insights)。最重要的便是產生insights,因擁有洞察而知關鍵所在,所以能預測未來的走向,不人云亦云。

知識圖譜作為一門學問,絕不是用個圖資料庫寫幾條查詢,或者用規則寫一個表格的提取,就可以稱為成功的運用的。和所有的學科一樣,都需要長期的艱苦的努力,在充分了解前人成果的基礎上,才有可能做出一點點成績。

知識圖譜作為人工智慧(AI)的一個分支,和AI的其他分支一樣,它的成功運用,都是需要知道它的所長,更需要知道它的所短的。特別是AI各個學派林立,經驗主義(機器學習)、連線主義(神經網路)、理性主義(知識工程)、行為主義(機器人)各個方法的優劣,倘若不能有縱覽的理解,也難以做正確的技術選型,往往盲目相信或者排斥一種技術。AI是一個極端需要廣闊視野的學科。

知識圖譜涉及知識提取、表達、儲存、檢索一系列技術,即使想有小成,也需要幾年的功夫探索。如下所列,應該是每個知識圖譜從業者都應該瞭解的一些基本功:

知道Web的發展史,瞭解為什麼互聯和開放是知識結構形成最關鍵的一件事。(我把這個列第一條,是我的偏見——但我認為這是最重要的一個insights)

知道RDF,OWL,SPARQL這些W3C技術堆疊,知道它們的長處和侷限。會使用RDF資料庫和推理機。

瞭解一點描述邏輯基礎,知道描述邏輯和一階邏輯的關係。知道模型論,不然完全沒法理解RDF和OWL。

瞭解圖靈機和基本的演算法複雜性。知道什麼是決策問題、可判定性、完備性和一致性、P、NP、NExpTime。

最好再知道一點邏輯程式(Logic Programming),涉獵一點答集程式(Answer Set Programming),知道LP和ASP的一些小工具。這些東西是規則引擎的核心。如果不滿足於正則表示式和if-then-else,最好學一點這些。

哦,當然要精通正則表示式。熟悉regex的各種工具。

從正則文法到自動機。不理解自動機很多高效的模式提取演算法都理解不了。

熟悉常見的知識庫,不必事事重新造輪子,如Freebase, Wikidata, Yago, DBPedia。

熟悉結構化資料建模的基本方法,如ER,面向物件,UML,腦圖。

學會使用一些本體編輯器,如Protege。(Palantir就是個價值120億美元的本體編輯器)

熟悉任何一種關係資料庫。會使用儲存過程寫遞迴查詢。明白什麼叫物化檢視、傳遞閉包、推理閉包。

熟悉任何一種圖資料庫。明白圖的區域性索引和關係的全域性索引的理論和實踐效能差異。

熟悉詞法分析的基本工具,如分詞、詞性標註

熟悉句法分析的基本工具,如成分分析、依存文法分析、深層文法分析

熟悉TFIDF、主題模型和分散式表示的基本概念和工具。知道怎麼計算兩個詞的相似度、詞和句子的關聯度。

知道怎麼做命名實體識別。知道一些常用的詞表。知道怎麼用規則做關係提取。

為了上述的深化,要掌握一些機器學習的基本概念,識別、分類、聚類、預測、迴歸。掌握一些機器學習工具包的使用。

謹慎地使用一些深度學習方法,最好在是瞭解了神經網路的侷限之後,先玩玩BP。主要是用用LSTM。

瞭解前人已經建好的各種Lexical資料庫,如Wordnet, framenet, BabelNet, PropBank。熟悉一些常用的Corpus。

知道資訊檢索的基本原理。知道各種結構的索引的代價。

掌握Lucene或者Solr/Elasticsearch的使用。

學會混合使用多種資料庫,把結構化資料和非結構化資料放在一起使用。體會資料建模和查詢的成本。

學會一些概念原型工具,如Axure和Semantic Mediawiki。快速做MVP。

以上是掛一漏萬的一些羅列。知識圖譜是交叉性的、實踐性的學問,當然不必先矇頭學幾年才能來做事。How to get to Carnegie Hall? Practice, Practice, Practice.

所以Just practice。

最後推銷一下我在中國中文資訊學會《前沿技術講習班》第三期做的講座:精益知識圖譜方法論 – 文因互聯

原發於知乎 https://www.zhihu.com/question/52368821/answer/138745422

640?wx_fmt=png

人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統(新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。

AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務和資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。

領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間

給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。

子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。

如果說上一次哥倫布地理大發現,拓展的是人類的物理空間。那麼這一次地理大發現,拓展的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!

新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。

產業智慧官  AI-CPS

用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:

新技術:“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧”;新產業:“智慧製造”、“智慧農業”、“智慧金融”、“智慧零售”、“智慧城市”、“智慧駕駛”;新模式:“財富空間”、“特色小鎮”、“賽博物理”、“供應鏈金融”

點選“閱讀原文”,訪問AI-CPS OS官網

本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!

產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vi[email protected]

相關推薦

知識圖譜知識圖譜010簡化

作者:鮑捷  來源:文因學堂 授權 產業智慧官 轉載。  以前寫過幾個進階指南,可能都太難,不接地氣。這裡重新寫一個更實事求是、更便於工程落地的版本 0級:掌握正則表示式、SQL、JSON和一門支援if-then-else的高階語言  —— 是的,這些不是知識圖譜技術,但是這些可以解決問題。我們要的是

知識圖譜知識圖譜實體連結無監督學習框架

雷鋒網 AI 科技評論按:阿里巴巴有 11 篇論文被 AAAI 2018錄用,分別來自機器智慧技

知識圖譜知識圖譜火了,但你知道它的發展歷史嗎?

作者|尼克編輯|EmilyAI 前線導讀:知識圖譜火了,但你知道它的發展歷史嗎?本文節選自《人工

Hibernate緩存知識要點

常用 以及 provide 懶加載 更改 pub 語句 com 效率 對象狀態 Hibernate中對象的狀態: 臨時/瞬時狀態 持久化狀態 遊離狀態 學習Hibernate的對象狀態是為了更清晰地知道Hibernate的設計思想,以及是一級緩存的基礎...當然啦,也就

Struts2開發Action知識要點

自定義轉換器 分享 article com AC 組件 word pro username 前言 前面Struts博文基本把Struts的配置信息講解完了.....本博文主要講解Struts對數據的處理 Action開發的三種方式 在第一次我們寫開發步驟的時候,我們寫的Ac

知識積累(四)、訊息中介軟體 - 升級

一、訊息釋出 二、訊息訂閱 三、總結 1、ActiveMQ的特性(1)、多種語言和協議客戶端。語言:Java,C,C++,C#,Ruby,Perl,Python,PHP。應用協議:OpenWire,Stomp REST,WS Noti

ADO.NET3、TXT中導入數據到數據庫

split src 分割 img oid data 返回 ring sage private void btnInput_Click(object sender, EventArgs e) { if (opFile.ShowDialog() != DialogR

濟南校區寶劍鋒磨礪出

進行 pub 動力 能力 每次 感想 概念 finall 模式 public class 寶劍鋒從磨礪出{ private 同學; private 老師; private 黑馬; public static void main(String[] a

Azkaban搭建---Azkaban 3.25.0搭建細則 超實用

一、前述 Azkaban是一個工作流排程工具,因為需要各個任務之間有依賴關係,傳統的Crontab 任務已經不能滿足 所以需要建立一套工作流引擎。相比Ooize來說,Azkaban的優勢是作為一個客戶端來提供任務的提交。而Ooize是將任務隨機分配到我們的叢集環境中。考慮到常用架構,所以我們選擇Azkaba

IDEA 二IntelliJ IDEA安裝到使用的一些準備和外掛

https://www.w3cschool.cn/intellij_idea_doc/ idea官方文件 一、 IntelliJ IDEA安裝時需要選中需要的外掛的那一步,選中cvs等版本控制工具,不選用不了。 二、 IntelliJ IDEA自定義配

程式碼審計五指CMS_v4.1.0 copyfrom.php 頁面存在SQL注入漏洞分析

  0x00 環境準備 五指CMS官網:https://www.wuzhicms.com/ 網站原始碼版本:五指CMS v4.1.0 UTF-8 開源版 程式原始碼下載:https://www.wuzhicms.com/download/ 測試網站首頁:   0x01 程式碼

程式碼審計五指CMS_v4.1.0 後臺存在SQL注入漏洞分析

  0x00 環境準備 五指CMS官網:https://www.wuzhicms.com/ 網站原始碼版本:五指CMS v4.1.0 UTF-8 開源版 程式原始碼下載:https://www.wuzhicms.com/download/ 測試網站首頁:   0x01 程式碼

解決方案VMware無法主機向虛擬機器跨系統複製貼上拖動檔案/文字

這兩天重新裝了VMware 14 Pro和Ubuntu18.04.1。在使用中,發現無法從Windows主機向虛擬機器的Ubuntu系統中 複製貼上文字或者拖動檔案。於是查看了VMware的文件和其他資料。 嘗試了很多方法,現直接貼出我的解決方案: 在Ubun

第十七課 ERC721實踐迷戀貓玩耍到開發

**CryptoKitties(中文名:迷戀貓)**是一款在以太坊區塊鏈上的虛擬養貓遊戲,一經推出就以病毒式的快速擴散,橫掃整個以太坊市場。而這款可愛的遊戲於2018年 2 月 16 日(農曆大年初一)登陸 iOS國區,中文名稱的 “迷戀貓”,皆因 “迷戀”

spring-cloudspring-cloud-入門到高可用-中

本篇帶大家從入門走向高可用,從屌絲走向高富帥... 1.先搭一個最簡單的專案,找點自信: 最簡單的spring-cloud專案需要一個註冊中心和兩個微服務,其他元件後面引入,這裡先不提, 註冊中心eurka程式碼入下: 先看依賴: 其中spring-boot版本採用2

IDEA 二IntelliJ IDEA安裝到使用的一些準備和外掛

一、 IntelliJ IDEA安裝時需要選中需要的外掛的那一步,選中cvs等版本控制工具,不選用不了。 二、 IntelliJ IDEA自定義配置和快取位置 不管你將 IntelliJ 裝在什麼地方,它都會在 C 盤的使用者目錄下建立 .IntelliJIdeaXX

手把手TensorFlow一、開始使用TensorFlow到弄清楚“搭建神經網路套路”

一、基本概念 基於TensorFlow的NN(神經網路): 1.張量:即多維陣列,表示資料 2.計算圖:搭建神經網路,不運算 3.會話:執行計算圖 注:用階表示張量的維度,t=[[]]表示2階,t=[[[]]]表示3階。數張量右邊括號數。 0階張量表示數 1階張量表示陣列

微框架之一:零開始,輕鬆搞定SpringCloud微框架系列--開山篇

一、SpringCloud專案簡介   Spring Cloud:     微服務工具包,為開發者提供了在分散式系統的配置管理、服務發現、斷路器、智慧路由、微代理、控制匯流排等開發工具包。   Spring Boot:     旨在簡化建立產品級的 Spring

備忘Spring Boot前端到後臺打造企業級部落格全棧實戰視訊

第1章 Spring Boot 簡介    第2章 開啟 Spring Boot 的第一個 Web 專案    第3章 一個Hello World專案    第4章 開發環境的搭建    第5章 整合Thymeleaf模版引擎    第6章 資料持久化Spring Data

網路協議筆記五 | 物理層到MAC層:如何在宿舍裡自己組網玩聯機遊戲?

知識點 物理層與鏈路層 鏈路層與MAC層 HUB與交換機 第一層(物理層) 兩臺電腦插網線互通,通訊的前提兩臺電腦配好IP地址、子網掩碼和預設閘道器。這樣兩臺機器構成了區域網(LAN) 但有第三臺機器協議連線的時候就需要HUB(現在基本被淘汰