NLP 和知識圖譜:金融科技領域的 “雙子星”
自然語言處理(Natural Language Processing, NLP,語義計算)和知識圖譜(Knowledge Graph, KG,知識計算)作為認知智慧的關鍵技術,正成為智慧金融浪潮中新的熱點。 這兩種技術在金融領域的應用場景有高度的重合,往往是互為依託、互為補充。
當NLP和知識圖譜雙劍合璧,會優先在金融的哪些場景實現落地?
各場景“標配”的核心能力分別有哪些?
國內外NLP和知識圖譜技術在金融行業的應用到了怎樣的程度?
讀完這篇文章,或許能幫助你對這些前沿科技中的中流 砥柱 ,有一個更清晰和全面的認識。

金融行業因其與資料的高度相關性,成為人工智慧最先應用的行業之一,而NLP與知識圖譜作為人工智慧技術的重要研究方向與組成部分,正在快速進入金融領域,並日益成為智慧金融的基石。
一般的Fintech公司只會集中在其中的某些業務方向,只要能深入掌握兩到三種能力,就能具有相當的競爭力。在這些業務場景中,NLP和知識圖譜技術往往需要共同應用,才能發揮出最大的效能。同時,一種核心能力可以在多個智慧金融應用場景中得到應用,這些應用場景包括:智慧投研、智慧投顧、智慧風控、智慧客服、智慧監管、智慧運營等。接下來我們將分析不同的核心能力在各個應用場景的分佈情況,對每一種核心能力進行簡要介紹,給出它的應用場景,並列舉部分國外的典型案例以供大家能夠更好的理解和上手。
金融語義應用場景概念框
01
智慧問答和語義搜尋
智慧問答和語義搜尋是NLP的關鍵技術,目的是讓使用者以自然語言形式提出問題,深入進行語義分析,以更好理解使用者意圖,快速準確獲取知識庫中的資訊。在使用者介面上,既可以表現為問答機器人的形式(智慧問答),也可以為搜尋引擎的形式(語義搜尋)。智慧問答系統一般包括問句理解、資訊檢索、答案生成三個環節。智慧問答系統與金融知識圖譜密切相關,知識圖譜在語義層面提供知識的表示、儲存和推理,智慧問答則從語義層面提供知識檢索的入口。基於知識圖譜的智慧問答相比基於文字的問答更能滿足金融業務實際需求。
智慧問答和語義搜尋的價值在金融領域越來越被重視。它主要應用的場景包括智慧投研、智慧投顧和智慧客服。在智慧投研領域,投研人員日常工作需要通過多種渠道搜尋大量相關資訊。而有了金融問答和語義搜尋的幫助,資訊獲取途徑將是“Just ask a question”。並且,語義搜尋返回的結果不僅是平面化的網頁資訊,而是能把各方面的相關資訊組織起來的立體化資訊,還能提供一定的分析預測結論。在智慧客服和智慧投顧領域,智慧問答系統的應用主要是機器人客服。機器人客服目前的作用還只是輔助人工客服回答一些常見問題,但已能較大地節省客服部門的人力成本。
典型應用案例如美國Alphasense公司為投研人員整合碎片化資訊,提供專業金融知識訪問工具。AlphaSense公司的產品可以說是新一代的金融知識引擎。它從新聞、財報、研報各種行業網站等獲取大量資料、資訊、知識形式的“素材”,通過語義分析構建成知識圖譜,並提供高階語義搜尋引擎、智慧問答、互動式知識管理系統、文件(知識)協作系統,以對金融知識進行更加有效的管理、搜尋、使用。
02
資訊與輿情分析
金融資訊資訊非常豐富,例如公司新聞(公告、重要事件、財務狀況等)、金融產品資料(股票、證券等)、巨集觀經濟(通貨膨脹、失業率等)、政策法規(巨集觀政策、稅收政策等)、社交媒體評論等。
金融資訊每天產生的數量非常龐大,要從浩如煙海的資訊庫中準確找到相關文章,還要閱讀分析每篇重要內容,是費時費力的工作。如果有一個工具幫助人工快速迅捷獲取資訊資訊,將大大提高工作效率。資訊輿情分析的主要功能包括資訊分類標籤(按公司、產品、行業、概念板塊等)、情感正負面分析(文章、公司或產品的情感)、自動文摘(文章的主要內容)、資訊個性化推薦、輿情監測預警(熱點熱度、雲圖、負面預警等)。在這個場景中,金融知識圖譜提供的金融知識有助於更好理解資訊內容,更準確地進行資訊輿情分析。
資訊輿情分析的應用主要在智慧投研和智慧監管這兩個場景。目前市場上的輔助投研工具中,資訊輿情分析是必不可少的重要部分。資訊輿情分析作為通用工具更多是對海量定性資料進行摘要、歸納、縮簡,以更加快捷方便地為投研人員提供資訊,支援他們進行決策,而非直接給出決策結論。在智慧監管領域,通過資訊輿情分析,對金融輿情進行監控,發現違規非法活動進行預警。
03
金融預測和分析
基於語義的金融預測即利用金融文字中包含的資訊預測各種金融市場波動,它是以NLP等人工智慧技術與量化金融技術的結合。
利用金融文字資料幫助改善金融交易預測模型的想法早已有之。本世紀初,美國就有人利用新聞和股價的歷史資料來預測股價波動。2010年後,社交媒體產生了大量資料,基於Twitter、Facebook來預測股市的研究專案很多。最近,深度學習被大量應用在預測模型中。金融文字資料提供的資訊是定性的(qualitative),而通常數字形式的資料是定量的(quantitative)。定性分析比定量分析更難,定性資訊包含的資訊量更大。有分析表明,投資決策人員在進行決策時,更多依賴於新聞、事件甚至流言等定性資訊,而非定量資料。因此,可期待基於語義的金融預測分析大有潛力可挖。這個場景中涉及的關鍵NLP技術包括事件抽取和情感分析技術。金融知識圖譜在金融預測分析中具有重要的作用,它是進行事件推理的基礎。例如在中興事件中,可根據產業鏈圖譜推導受影響的公司。
基於語義的金融預測和分析在金融應用的主要場景包括智慧投研和智慧投顧。它的理想目標是能代替投資人員做投資預測,進行自動交易,但目前還只是作為投資人員的投資參考。將不同來源的多維度資料進行關聯分析,特別是對非結構化資料的分析,比如郵件、社交網路資訊、網路日誌資訊。從而挖掘和展現出未知的相關關係,為決策提供依據。典型的應用案例如美國Palantir公司提供基於知識圖譜的大資料分析平臺。其金融領域產品Metropolis,通過整合多源異構資料,構建金融領域知識圖譜。特點是:對非結構化資料的分析能力、將人的洞察和邏輯與高效的機器輔助手段相結合起來。另一個例子如Kensho公司利用金融知識圖譜進行預測分析。在英國脫歐期間,交易員成功運用Kensho瞭解到退歐選舉造成當地貨幣貶值;曾準確分析了美國總統任期的前100天內股票漲跌情況。
04
文件資訊抽取
資訊抽取是NLP的一種基礎技術,是NLP進一步進行資料探勘分析的基礎,也是知識圖譜中知識抽取的基礎。採用的方法包括基於規則模板的槽填充的方法、基於機器學習或深度學習的方法。按抽取內容分可以分為實體抽取、屬性抽取、關係抽取、規則抽取、事件抽取等。
在這裡的文件資訊抽取特指一種金融應用場景。指從金融文件(如公告研報)等抽取指定的關鍵資訊,如公司名稱、人名、指標名稱、數值等。文件格式可能是格式化文件(word, pdf, html等)或純文字。對格式化文字進行抽取時需要處理並利用表格、標題等格式資訊。文件資訊抽取的應用場景主要是智慧投研和智慧資料,促進資料生產自動化或輔助人工進行資料生產、文件複核等。
05
自動文件生成
自動文件生成指根據一定的資料來源自動產生各類金融文件。常見的需要生成的金融文件如資訊披露公告(債券評級、股轉書等)、各種研究報告。
自動報告生成屬於生成型NLP應用。它的資料來源可能是結構化資料,也可能是從非結構化資料用資訊抽取技術取得的,也可能是在金融預測分析場景中獲得的結論。簡單的報告生成方法是根據預定義的模板,把關鍵資料填充進去得到報告。進一步的自動報告生成需要比較深入的NLG技術,它可以把資料和分析結論轉換成流暢的自然語言文字。
自動文件生成的應用場景包括智慧投研、智慧投顧等。它的典型應用案例如美國的Narrative Science,它從結構化資料中進行資料探勘,並把結果用簡短的文字或依據模板產生報告內容。又如Automated Insights,它為美聯社自動寫出了10億多篇文章與報告。
06
風險評估與反欺詐
風險評估是大資料、網際網路時代的傳統應用場景,應用時間較早,應用行業廣泛。它是通過大資料、機器學習技術對使用者行為資料分析後,進行使用者畫像,並進行信用和風險評估。
NLP技術在風控場景中的作用是理解分析相關文字內容,為待評估物件打標籤,為風控模型增加更多的評估因子。引入知識圖譜技術以後,可以通過人員關係圖譜的分析,發現人員關係的不一致性或者短時間內變動較大,從而偵測欺詐行為。利用大資料風控技術,在事前能夠預警,過濾掉帶惡意欺詐目的人群;在事中進行監控,發生欺詐攻擊時及時發現;在事後進行分析,挖掘到欺詐者的關聯資訊,降低以後的風險。
在金融行業,風險評估與反欺詐的應用場景首先是智慧風控。利用NLP和知識圖譜技術改善風險模型以減少模型風險,提高欺詐監測能力。其次,還可以應用在智慧監管領域,以加強監管者和各部門的資訊交流,跟蹤合規需求變化。通過對通訊、郵件、會議記錄、電話的文字進行分析,發現不一致和欺詐文字。例如欺詐文字有些固定模式:如用負面情感詞,減少第一人稱使用等。通過有效的資料聚合分析可大大減少風險報告和審計過程的資源成本。從事此類業務的Finctech公司很多,如Palantir最初從事的金融業務就是反欺詐。其他如Digital Reasoning、Rapid Miner、Lexalytics、Prattle等。
07
客戶洞察
客戶關係管理(CRM)也是在網際網路和大資料時代中發展起來,市場相對成熟,應用比較廣泛,許多Fintech公司都以此為主要業務方向。現代交易越來越多是在線上而不是線下當面完成,因此如何掌握客戶興趣和客戶情緒,越來越需要通過對客戶行為資料進行分析來完成。
NLP技術在客戶關係管理中的應用,是通過把客戶的文字類資料(客服反饋資訊、社交媒體上的客戶評價、客戶調查反饋等)解析文字語義內涵,打上客戶標籤,建立使用者畫像。同時,結合知識圖譜技術,通過建立客戶關係圖譜,以獲得更好的客戶洞察。這包括客戶興趣洞察(產品興趣),以進行個性化產品推薦、精準營銷等。以及客戶態度洞察(對公司和服務滿意度、改進意見等),以快速響應客戶問題,改善客戶體驗,加強客戶聯絡,提高客戶忠誠度。
客戶洞察在金融行業的應用場景主要包括智慧客服和智慧運營。例如在智慧客服中,通過客戶洞察分析,可以改善客戶服務質量,實現智慧質檢。在智慧運營(智慧CRM)中,根據客戶興趣洞察,實現個性化精準營銷。國外從事這個業務方向的Fintech公司很多,如Inmoment,Medallia,NetBase等。
各種核心能力在智慧金融的主要應用場景呈以下分佈:
小結
NLP和知識圖譜兩種技術本身都還在發展成長過程中,因此在金融落地過程中勢必也還會面臨許多新的課題和挑戰,任重而道遠。一方面,人工智慧必須與金融的具體業務場景切合,找到金融企業需求痛點,真正提升客戶生產效率,給客戶帶來價值;另一方面,人工智慧是基礎技術學科,技術難度大,人才要求高,在核心技術和關鍵演算法上需要有突破有優勢,才能不斷提升市場競爭力。所以, 場景驅動和技術研發需要相輔相成、緊密結合 。相信金融智慧語義技術的應用將會有廣闊的發展空間,推動智慧金融邁向一個新的臺階。
隨著時代變化,加之自身業務拓展的需求, 以提供金融技術為核心業務的恆生電子已深度佈局智慧金融領域。 作為金融科技公司,恆生始終堅持著連線百萬億、讓金融變簡單的願景和使命。在即將進入的人工智慧時代,恆生將持續在人工智慧應用於金融創新的征途上邁進,一如既往地用技術與金融機構緊密合作,助力金融機構建設服務平臺,並提供更加貼近使用者需求的服務。
推薦閱讀:
OA==&mid=2651196030&idx=1&sn=3b12473bf2425b646b040efc1cb21d91&chksm=8d716665ba06ef73bf551e968c5a97383e2d98161014dc7eced1c4293a53ed4eb9095e5c1ada&scene=21#wechat_redirect" target="_blank" rel="nofollow,noindex"> 人工智慧+知識圖譜:如何規整海量金融大資料?