1. 程式人生 > >SLINT:基於模式獨立的關聯資料的互聯絡統

SLINT:基於模式獨立的關聯資料的互聯絡統

摘要:關聯資料互連是所有例項的發現,關聯資料互連表示現實世界中相同的物件和定位於不同的資料來源。由於不同的資料開發者頻繁的使用不同的模式來儲存資源,因此我們的目標是開發一個模式獨立的互連繫統。我們的系統自動選擇重要的謂詞和有效的謂詞(比)對作為塊和例項匹配的關鍵。我們系統的主要區別是使用加權同現和自適應過濾實現模組和例項的匹配。實驗結果表明,該系統有效的提高了精度和最近一些的召回。同時也對系統的效能和主要步驟的效率進行了討論。

關鍵字:關聯資料,模式獨立,塊,互連.

1.引言

       多年致力於關聯資料的研究已經為LOD帶來了大量的資料。然而,在語義網中最大化的發展關聯資料的效率仍然面臨許多困難。語義Web仍面臨許多困難。當前的挑戰之一是整合各個例項資料來源構建一個共同的知識體系。當不同的資料來源可能含有異構例項的情況下,這些例項是和現實世界中相同的物件相關的,資料整合過程需要檢測這樣的物件以確保資料的完整性和一致性。檢測資料來源之間的所有特性是資料互連的任務。資料互連包含兩個主要的步驟,blocking和例項匹配。blocking的目的是修剪比較的數量,例項匹配用來確定兩個感興趣例項的匹配狀態。

       當前互連方法可以分成兩個步驟:依賴於模式[2,7,10]和模式獨立[1,3,4,9]。前者要求關於RDF謂詞意義的知識(如謂詞#preLabel宣告物件的標籤)和謂詞校準(如謂詞#preLabel與謂詞#name的匹配)。相比之下,後者不需要這些資訊,因此它不依賴於人類知識的模式。因為一個關聯資料例項是一組RDF三元組(主體,謂詞,客體:資料來源物件),一個數據源的模式指的是所有使用的謂詞的列表,這些謂詞同詞彙和本體密切相關、每個資料來源的模式往往是不同的,即使在有著不同定義域的相同資料來源中模式也是不一樣的。顯然,模式獨立方法更適用於當它可以處理各種源或域在沒有任何人類指令的時候。同時,互連規則的手冊規範經常忽略隱藏的有效的謂詞校準。

       我們提出SLINT系統,它使用一個新方法針對模式獨立的關聯資料的互連。SLINT使用覆蓋率和辨別力自動選擇重要的RDF謂詞。所選的謂詞在資料型別調解後相結合來構造謂詞校準對。(We estimate the confi dence of predicate alignments to collect the most appropriate alignmentsfor blocking and interlinking.)我們估計謂詞校準對的值去為blocking和互連收集最適當的校準對。通過這種方式,例項的集體信心通常是槓桿作用的。blocking也因此更完整、緊湊以及更支援互連。同時,我們為blocking和例項匹配提供自適應濾波技術。在實驗中,我們將SLINT和三個系統進行比較,採用OAEI 2011的例項進行例項匹配,結果表明,精度和召回得到了提升。SLINT效能和blocking步驟的效率的實驗也進行了描述。論文的組織結構為:下一節是工作的概述。第三節描述了SLINT系統的細節。第四部分是實驗結果的評估。第五部分是本文的結論和展望。

2.相關工作

        資料互連是一個早起的研究領域,然而,這個問題最近才引入到關聯資料中。Silk[10],一個著名的框架,提供了一個使用者定義謂詞校準對的介面和相似度指標的匹配。Silk被用做LDIF[8]的一個主要構件,LDIF是多關聯資料來源繼承框架。最近,Isele和Bizer改進了他們的Silk通過應用一個自動連結規則生成器,這個生成器使用了遺傳演算法[3]。在上下文互連中為適應度函式和遺傳規劃的具體轉換適當的建模是一項非常有趣的工作。這項工作使Silk成為獨立模式。針對相似的物件,RAVEN[4]最小化人類的管理工作採用積極的學習,這是一種無監督學習過程[6]。同時,Nikolov等人也針對研究目標採用遺傳演算法。針對獨立模式的目標,Nguyen等人建議使用決策樹設計來確定兩個例項的匹配狀態。[5]

       Zhishi.Links[7]是當前最先進的匹配器之一。這個系統採用Silk的預匹配步驟,通過使用物件的標籤來組織相似的例項,比如說採用skos:preLabel或schema:label標籤,之後,一系列複雜的語義相似度被用於匹配。而第二個最好的匹配器是SERIMI[1],SERIMI是一個模式獨立系統,它採用熵和RDF的物件相似度來選擇RDF謂詞和與之相對應的謂詞校準對。AgreementMaker[2]是一個本體匹配和例項匹配系統。AgreementMaker首先通過對比例項的標籤來生成預選集,然後這些預選集被分成更小的子集,在子集中,每一對匹配的謂詞將會用來生成最終的校準對(平面圖)。

       大多數以前的互連繫統都不會深入的去研究blocking這一步驟,blocking是用來生成例項潛在的特徵對。Song和Hen關注blocking模式關於關聯資料互連的並行獨立工作[9]。這是一個非常有趣的想法,當研究者們提出採用無監督學習來最大化blocking keys的有效性。blocking keys是RDF謂詞的組合。研究者們對一些大型的資料集進行實驗並證明了可伸縮性。


            一般來說,依賴於模式的方法通過比較指定的屬性來比較兩個例項。也就是說,這種方法可以檢測到幾乎所有正確的特徵對但是在高度模糊的資料來源中精度可能會很低。原因是一些有效的資訊會被忽略,因為經常手動謂詞對齊不是一個最優解。相比之下,獨立模式方法對資料進行復雜的分析可以調解精度和召回。雖然這些獨立模式方法需要收集謂詞校準對,當收集的資訊經常使用的話匹配將會更有效。比較SLINT和以前的互連繫統,最明顯的區別是謂詞的選擇、謂詞的校對以及針對blocking和互連的自適應過濾。在接下來的一節中,我們將會描述SLINT這些元素的細節。

3.基於獨立模式的關聯資料的互連繫統

           這個部分描述SLINT系統。源資料Ds和目標資料Dt的互連過程如圖1所示。在這個圖中,小圓圈和三角形分別代表例項和他們的RDF謂詞。每一個步驟的輸出對應著被圈的大圓。SLINT系統由四個步驟組成。互連過程始於謂詞的選擇,被選擇的謂詞都是從每個資料來源中的所有謂詞中收集重要的謂詞。在第二步中,謂詞校準,被選擇的謂詞依照它們的資料型別相結合構建原始的謂詞校準對。我們評估每個原始校準對的confidence來衡量它的適當度。一個原始的校準對的confidence滿足篩選條件就會被稱為key alignment.這些key alignments提供更多的有效資訊在blocking和例項匹配過程中。加下來,blocking旨在通過產生例項的特徵預選集來減少對比的數目。例項匹配之後只需要發現特徵對來驗證檢索到的預選集。一下是每個步驟的細節。

3.1 謂詞選擇

這一步的任務是從模式中找到最重要的謂詞。這些謂詞中包含了出現在感興趣的資料來源中的所有謂詞。我們使用兩個標準來確定謂詞p的重要性水平。這兩個標準分別為:coverage(p;D)和discriminiability(p;D)。公式1和公式2是這些標準的解釋當考慮謂詞p和資料來源D。


在這些公式中,X代表一個例項,是一組RDF三元組<s;p,o>(主體,謂詞,客體).D是感興趣的資料來源,是一系列例項。我們收集有著較高的覆蓋和辨別力的謂詞從每個輸入源中。如果謂詞p滿足公式3中的條件就會被選擇,公式3繼承自文獻[9]。

(cov(p;D) ) ^ (dis(p;D) ) ^ (HMean(cov(p;D); dis(p;D))  ): (3)


Song 和Hen關注學習blocking key主要通過迭代來最大化一組謂詞的覆蓋率和辨別力。在我們的系統中,我們使用和他們相同的辨別力函式以及稍微不同的覆蓋函式。對於公式1中的份子,他們使用的是RDF主體的數目,我們使用的是例項的數目,因為我們的目標是找到例項中頻繁使用的謂詞,而不是RDF主體。

     重要的謂詞將用於宣告物件的共同屬性和不同資訊。因為覆蓋率和辨別力分別表示前者和或者,因此它們的結合適合物件的謂詞選擇。如果一個謂詞有很高的覆蓋率和很低的辨別力,它將不是重要的謂詞。關於這種型別的謂詞的一個例子是rdf:type。這種謂詞頻繁被使用,但是它通常描述值域範圍受限的各種RDF物件當在相同的定義域範圍內觀察例項時。

3.2 謂詞校準

        在這一步,我們尋找源資料和目標資料中合適的謂詞校準對。對齊的兩個謂詞被認為是適當的,如果感興趣的謂詞描述的是例項的相似屬性。從源資料和目標資料中挑選的謂詞,我們連線每一個型別匹配對,選擇confidence(相似度值)高於閾值的比對。被選擇的謂詞校準對都被稱為key alignments。校準對的confidence(相似度值)是RDF代表的物件之間的Dice係數,RDF物件由其形成的謂詞來描述。公式4是conf(ps,pt),這個公式是用來計算謂詞得到校準。ps是源資料的謂詞,pt是目標資料的謂詞。


在上面的公式彙總,R是這個函式,這個函式返回RDF物件代表的元素。R的返回值取決於謂詞的型別。我們將謂詞劃分為5種不同的型別:String,URI,decimal,integer和date。這種劃分是基於現實世界中各種資料型別。