1. 程式人生 > >知識圖譜技術分享會----有關知識圖譜構建的部分關鍵技術簡介及思考

知識圖譜技術分享會----有關知識圖譜構建的部分關鍵技術簡介及思考

昨天在北理工參加了一場由 雪晴資料網和北京理工大學大資料創新學習中心聯合舉辦的知識圖譜分享活動,聆聽了一下午報告,可謂是受益匪淺。一下午時間安排的非常飽滿,總共三場報告。

不得不說首都的學校就是厲害啊,樓都這麼漂亮。

這裡寫圖片描述

下面我就來分別說說重點和感想。

1.佛學知識圖譜構建技術

東南大學 漆桂林教授

這裡寫圖片描述

1.1 什麼是知識?

這裡寫圖片描述

1.2 知識圖譜為搜尋引擎帶來的補充作用!

這裡寫圖片描述

1.3知識圖譜的幾個關鍵技術

1.data extraction

資料從哪裡來?

2.entity matching

就是說怎麼知道beijing和北京是一個東西

3.type inference

e.g. China is an instance of country

1.Explicit IsA Relation Detector 
2.Category Attributes Generator
3.Instance Type Ranker

以上步驟中包含一些複雜演算法,我個人覺的偏工程應用,具體參考ppt,在下載連結中。

1.4 data extraction實戰

報告的老師基於以上內容給出了一個課堂小實戰訓練,讓我們直觀體驗了一下構建知識圖譜中的基礎性工作,知識抽取,從非結構化資料中抽取結構化內容,這和我們大資料領域中首當其衝的資料清洗步驟是不謀而合的。

例項文字:

*************************************************************************
title:大報國慈仁寺

大報國慈仁寺,俗稱報國寺,位於北京市西城區,在廣安門內大街路北。
經考證報國寺始建於遼代;明代塌毀,成化二年(1466年)重修,改名慈仁寺,俗稱報國寺;清乾隆十九年(1754年)重修,更名為大報國慈仁寺。曾有七進院落,七層殿堂,後有毗盧閣,為當時北京南城最大廟宇。1900年因義和團在此寺設壇,被八國聯軍用炮轟毀。現全寺已修整一新,闢作“報國寺文化市場”,成為中國收藏活動著名的聚集地。
明清之際學者顧炎武(字亭林)在北京時曾住該寺西院。道光二十三年(1843年)改西院為顧亭林祠。如今在各種古舊書籍、錢幣郵票、古玩首飾等的商攤中,祠堂已不可見,只餘《顧亭林先生祠記》和《重建顧亭林先生祠記》兩塊碑文記載當年舊事。
目前每週四為報國寺文化市場交易日。

*****
******************************************************************** title:法門寺 法門寺,又稱法雲寺、阿育王寺,位於中國陝西省寶雞市扶風縣城北10公里處的法門鎮。始建於東漢末年桓靈年間,距今約有1700多年曆史,有“關中塔廟始祖”之稱。法門寺因舍利而置塔,因塔而建寺,原名阿育王寺。釋迦牟尼佛滅度後,遺體火化結成舍利。1980年以來,法門寺在前任方丈澄觀、淨一法師的住持下,相繼建成大雄寶殿、玉佛殿、禪堂、祖堂、齋堂、寮房、佛學院等仿唐建築。現任主持為中國佛教協會副會長學誠法師。 === 建寺 === 關於建寺時間,從唐代時就已無法準確確定了。有一種說法認為法門寺及真身寶塔始建於古印度孔雀王朝阿育王(前273年~前232年)時期。阿育王統一印度後為了弘揚佛法,將佛的舍利分送世界各地,興建八萬四千塔。中國有十九處,法門寺為第五處,先建塔後建寺。北周以前法門寺名為阿育王寺,寺塔名為阿育王塔。另一種說法受到了出土的漢代瓦當、磚刻的支援,認為法門寺建於東漢桓靈之世。 公元558年,北魏皇室後裔拓跋育曾擴建,並於元魏二年(494年)首次開塔瞻禮舍利。

基於給出的文字檔案,進行正則表示式的提取python3指令碼:



#-*-coding:utf-8-*-

import re

def read_file(filename):
    with open(filename, encoding='utf-8') as fd: 
        for line in fd: 
            yield line

if __name__== "__main__":

    filename = "templeArticles.txt"
    title = re.compile('^title:')
    weiyu = re.compile('位於([\\S]+)(,|。){0,1}')
    shijianyu = re.compile('始建於(((?!,|;|。).)+)(,|;|。)')

    for line in read_file(filename):
        # 處理檔案每一行檔案

        if re.match(title,line):
            print(line[6:-1])
            continue
        if re.findall(weiyu,line):
            print('位於: ' + re.findall(weiyu,line)[0][0])
            continue
        if re.findall(shijianyu,line):
            print('始建於:' + re.findall(shijianyu,line)[0][0])
            continue

處理結果:

這裡寫圖片描述

1.5 不能簡單使用正則的場景

無法用規則抽取的原因:
句式種類繁多,無法找到高質量且匹配多的規則。
只能界定屬性值的一個邊界。(如:用規則“(,|。){0,1} ([\S]+)擔任主持”匹配上述5個句子,能得到“,並由其徒弟佛智法師”和“,之後交由第一世創古仁波切”,但是無法找到法師名字的前邊界)

這裡寫圖片描述

對於這種問題,需要使用多規則來進行抽取,包括但不限於機器學習深度學習等。

1.6 總結

整體給我的直觀感覺是,知識圖譜的構建工作是需求驅動的,它需要非常多的人工參與才能構建精確,並且能為你的搜尋引擎,智慧問答系統提供錦上添花的作用。

2.知識圖譜應用關鍵技術及行業應用

這裡寫圖片描述

這一場略微有廣告嫌疑,不過報告老師提到了面向資料的網際網路這個新奇的概念。並且突出了網際網路本體,實體的概念。本體中突出和強調的是概念以及概念之間的關係。

2.1 本體以及什麼是知識圖譜

這裡寫圖片描述

2.2 知識圖譜的部分應用

這裡寫圖片描述

這裡寫圖片描述

2.3 時代的變化,思維的變化

這裡寫圖片描述

2.4 大資料應用的挑戰—-多源異構資料的融合

這塊老師總結的非常到位,我司也面臨同樣的問題,知識圖譜可以解決這兩個問題麼?我們拭目以待!

這裡寫圖片描述

這裡寫圖片描述

2.5 人民的名義—-關係圖譜發掘

現場諮詢了老師,他說是echarts結合一些其他定製技術做的效果,這塊暫時沒有拿到視訊,是現場手機拍攝 的,大家湊活看吧。

這裡寫圖片描述

這裡寫圖片描述

3.中文知識圖譜CN-DBpedia構建的關鍵技術

徐波
復旦大學知識工場實驗室
這裡寫圖片描述

徐老師這個報告真的是乾貨滿滿,他講了非常多的技術細節,包括cn-dpedia的架構,以及我印象比較深刻的cn-dbpedia中知識更新的問題,以及採用深度學習來抽取特徵的新思路。

3.1 CN-DBPEDIA系統框架

這裡寫圖片描述

這裡寫圖片描述

3.2 知識庫實體更新

這裡寫圖片描述

這裡寫圖片描述

參考文獻

以上三場報告ppt

資料打包下載