文因搜索:智能的金融搜索引擎

分類:創投 時間:2016-10-24

文|鮑捷,本文發布于2016年6月8日

大家好,我是文因互聯的鮑捷。在過去十幾年中,我和我的團隊一直在致力于用人工智能(AI)技術改善人們的生活。我們參與過三星語音助手S-Voice、谷歌電視GoogleTV、西門子醫療語義搜索、Counselytices法規搜索、好東西傳送門科技新聞推薦引擎等人工智能應用。人工智能正在把很多我們小時候認為是科幻的事情變成現實。能親身參與打造這樣的產品,更對人工智能的力量有了深刻的印象。

一年前,我們開始思考一個問題:人工智能是否也有助于金融行業呢?如果可以,該怎么切入呢? 智能金融:如何變魔術? 過去幾年來,金融科技(Fintech)成為一個熱門詞。但是大部分的金融科技產品,還是停留在對金融信息獲取、統計量化模型、交易完成的信息技術(IT)保障上。人工智能的金融應用還是個比較新的方向,整體上還處于探索的階段。

過去一年中,我們接觸了很多金融界人士,從風投到孵化器,從券商到私募,從銀行到交易所,涉及的問題有行業研究、企業研究、盡職調查、交易撮合、并購、投資顧問、理財顧問、個人征信、企業征信、風險控制、系統風險防范等等諸多領域。我們發現,盡管金融面臨的具體問題千差萬別,但總的來說,集中在“價值判斷”和“風險評估”這兩個大問題上。

但是如何做價值判斷和風險評估,就是仁者見仁,智者見智,沒有一個統一的方法,甚至有時候看起來純粹是“拍腦門”。比如我們請教過一位并購行業的前輩,怎么找到合適的殼公司。他告訴了我們一個“三分鐘找殼法”,其中一個條件是實際控制人應該是大學畢業,40-50歲之間。這有什么道理?但是經驗上可能就是有意義的。還有一次,我們問一位VC合伙人,判斷投一個項目要多長時間?他說5分鐘吧,基本上5分鐘里就可以憑直覺做出判斷了,看商業計劃書里的三五頁大體心里就有數了;還有看項目的來源,看誰在背書這個項目。最終做決定是很快的,乍看起來一點也不“理性”。

但是這其實很有道理的。金融決策的特點是要考慮的因素實在是太多了。金融產品可能是最復雜的商品。一份股轉書有兩百多頁,還有大量的年報、半年報、研究報告、公告、反饋意見、盡職調查結果……但很少有人是看了這幾百頁的材料再做決定的,往往就是憑經驗和人脈,直接“變魔術”,做出決定。

機器能不能也“變魔術”,替代人做出價值判斷和風險評估呢?在市場上,也不乏這樣的探索者。一些金融界人士也對此很擔心。前段時間AlphaGo戰勝人類圍棋冠軍,一位二級市場研究員就和我說,“以后我們的飯碗都要被人工智能搶走啊!”但是越深入理解金融,越發現,這種擔心在短期內可能是多余的——雖然長期看真可能會發生。

我認為想讓機器“變魔術”之前,要依次解決五個問題。這五個問題每一個都依賴前一個問題的解決。現在我們依靠人“變魔術”,是因為這個五個問題(特別是后面的問題)還沒有完善的解決方案,所以還需要人的經驗和人脈(信任、背書)來引導。但是每一個問題的解決,都可以讓我們更多地利用機器的力量,獲得更智能的工具來做出價值判斷和風險評估,從而解放人力,有更多的時間去做只有人才能獲得的“洞察”(insights)

第一個問題是從物理世界獲得數字化的數據。

大多數買方和賣方的數據,其實是很難被機器、甚至人去訪問的。很多時候還是需要人面對面的交談、親臨現場的訪問,才能得到決策的依據。甚至僅僅是獲得一個行業里中小企業的名錄,往往都是很困難的事。現在有了新三板系統,有了巨潮網上的信息披露,才讓數據獲取成本降下來,并使后續的機器處理成為可能。最近股轉系統要求券商留掛牌過程中的電子底稿,長遠看就是特別有意義的事。

第二個問題是從“臟數據”中獲得“干凈數據”。

數字化數據中依然有大量的“臟數據”,例如新三板披露材料中有1/4是掃描件,大量的公告是不規范的pdf難以做文本處理,大量的財務數據用不規范的表格展示。至于網上千差萬別的新聞數據、研究報告,就更“臟”。很多數據(如財務、股權結構、股東結構)隱藏在圖片中,難以提取、統計、匯總、比較。XBRL報表只解決一小部分問題,而且還沒有對公眾開放。現在各家機構都在用實習生、初級研究員做這些數據的提取工作,其實是人力的極大浪費。

第三個問題是從數據中辨認金融“實體”。

實體(entity)包括企業、投資機構、人(高管、股東、投資人、合伙人等等)、行業、產品、事件、案例、法規等等。數據不僅是一堆漢字和數字的組合,一次定增公告里會提到項目、產品、定增對象(人或者機構),供應商和收入來源里會提到上下游企業,投資人簡歷里會提到學歷和以前的職務。這些實體和它們的屬性往往很有價值。例如一家券商曾委托我們篩選股東里不含契約型基金的公司、在江浙地區的投資基金等等,這就需要我們不僅把股東、基金的名字看成字符串,而是理解它是什么樣的機構、有哪些地域屬性、分類屬性等。這些數據,分散在很多地方,如股轉系統、工商網站、行業協會、機構官網。只有做好實體的識別,才能把這些信息串起來。

第四個問題是發現金融實體之間的深入關系,形成“知識圖譜”。

金融決策需要的洞察,往往不是表面上一眼能看出來的。例如投資公司對企業的投資,往往通過各種子公司和“殼”來完成,僅僅依賴股東披露或工商注冊信息(包括子公司、孫公司的工商信息)是不夠的,需要一些規則和數據挖掘來發現隱藏得很深的關系。我們曾對一家投資公司做了個案研究,發現單純從披露數據和工商數據,只能獲得一半的投資事件,而通過深度規則挖掘,才能獲得比較完整的投資組合(我們給對方打電話確認的時候,對方很吃驚:“你們怎么知道的” :D)。此外如行業對標關系,行業上下游關系、供應鏈關系、股權變更歷史、定增與重大資產重組的關系、多張財務報表之間的數據交叉驗證,都需要深入關聯來自多個源頭、多個時期、多個企業之間的數據關系。

第五個問題是在知識圖譜的基礎上表達業務邏輯。

掛牌、定增、并購、對沖、二級市場交易等等,每一個業務場景都會有自身的邏輯。我遇到很多研究員、投資總監,在學習Python、R、Matlab,因為他們痛感自己腦子里的邏輯,難以用文字或者Excel表格表達出來,市場上也沒有一個好用的工具幫助他們在數據的基礎上,把被經驗驗證有效的業務邏輯清晰地表現出來,免得總是要做簡單重復勞動。邏輯的表達可能是看數據的一些方式、處理數據的一些規則、展示數據的一些模板。一旦可以把邏輯數字化,其實一些比較初級的價值判斷和風險評估就可以由機器來做了。

解決了這五個問題,我們就擁有了“變魔術”的有力道具。當然,這并不是說,我們需要把這五個問題都解決了,才能去輔助人來“變魔術”。每個層次都可以比之前的層次更能幫助人快速發現洞察、做出判斷。每多一些機器的輔助,人就可以更好地集中精力去發現機器不善于完成的工作,當好“魔術師”這個角色。

上述的過程總結為下圖: 那當前這個階段,技術發展到了哪一步呢?就金融領域的應用而言,我們認為美國領先中國很多。美國在各個層面都有相應的服務提供商,而中國僅僅在干凈數據這些層面有了成熟的解決方案。在實體數據層面,中國還只是在一些局部剛剛開始(如一些行業數據庫和工商信息服務商),美國七八年前就已經有了成熟的服務。再往上圖譜數據和業務邏輯,中國還基本沒有對應的服務者。不過也需要指出,業務邏輯和“魔術”的層面,美國金融領域的嘗試也是初步的,現在還很難說已經走通了。一些企業的例子見下表。(關于這些企業的詳細介紹,在@文因互聯 的官方微博有持續報道)

所以總結來說,美國的成熟行業前沿(state of the art)在圖譜數據這個層面,而中國在干凈數據層面。

因此,我們認為, 當前中國的金融智能化,應該聚焦于基礎數據的實體化和圖譜化 。今年3月份我們邀請了很多金融界的人士參加“語義對話金融研討會”,與會人士也表示,當前最需要的,不是讓機器來代替人做判斷,而是 提供優質的、經過整理的數據,讓數據更可信、更好用、更容易被發現和獲得

文因搜索:讓金融搜索更容易基于上面這些思考和觀察,我們開發了“文因搜索”這個產品。您可以在我們的微信公眾號“文因新三板”中獲得使用的入口,也可以直接在手機或者PC端瀏覽器中訪問 文因互聯

用微信掃描這個二維碼:

http:// weixin.qq.com/r/uzq5oSz EOHFHrWjC92_p (二維碼自動識別)

可以在菜單中選擇進入搜索界面

目前,我們聚焦在新三板市場上,提供新三板投資決策中需要的核心實體數據。搜索現在可以返回4種結果,分別為:企業、投資機構、高管、定增事件。文因搜索覆蓋了7000 家新三板企業,60000 個投資機構與資管計劃,80000 高管,4000 次定增事件。

企業搜索

輸入關鍵字,可以呈現全部相關企業

關鍵字可以是企業的名稱或者行業關鍵字:

通過行業關鍵字搜索,可以按產品或者行業的名稱需找該行業所屬企業,或者該產品的提供商。想知道有哪些企業屬于人工智能行業? 或者電梯、清真、鎢?現在不僅可以在官方定義的140個行業中過濾,還可以在20000多個產品和行業的關鍵詞上尋找相關企業。

通過企業名稱搜索,可以通過企業簡稱、股票代碼、漢語拼音搜索。

搜索結果中包含了傳統金融客戶端“F10”提供的基本企業和財務信息,還集成了參股機構、定增信息、工商信息、股權結構、高管名單等。 投資機構搜索

投資機構搜索里我們做了深度的投資關系的發現,盡可能多地發掘了在公開披露材料里沒有直接聲明的投資主體

通過 行業關鍵字搜索 ,可以搜索到所有對相關行業的新三板企業進行投資的投資機構,按投資次數排序。這個可以告訴我們在某個行業上各投資機構的投入力度,了解各大機構的投資偏好。

對每一家基金,我們可以看到它在新三板上的直接參股情況和子公司投資情況。(說個八卦,我們給一家券商看搜索結果的時候,對方說:其實很多結果我們是故意不想讓人知道的,你們要是不列,我們可以給你們錢 :D )

高管搜索

通過 簡歷關鍵字 搜索清華大學,可以看到清華大學的校友有哪些在新三板上(989個)。其他的,北京大學有663個,浙江大學615個,復旦大學398個,武漢大學367個,廈門大學362個,中山大學348個。你也可以試試,看看你的母校有多少人?

通過 高管姓名搜索 ,可以直接定位到該名高管的簡歷:

每名高管我們都提供格式化過的簡歷,更清晰、易讀。職務、學歷、出生日期都一目了然。

定增事件

通過 行業關鍵字搜索 ,可以搜到該行業相關的所有定增事件:

通過 企業名稱搜索 ,可以搜到該企業的定增事件:

在定增詳細頁中,會列出發行對象詳情、持股期限、 認購價格、認購數量、認購金額等。 總結和未來的計劃 文因搜索現在解決了哪些問題?

按任何關鍵詞發現企業、投資機構、人員和投資事件,不被官方定義的分類限制。 想怎么搜,就怎么搜

深度發現企業和投資機構之間的關系, 洞察隱藏的潛在聯系

干凈、專為關心股權投資的人士打造,沒有散戶才關心的那些噪聲內容。界面上也盡可能適應股權投資人士旅行多、時間寶貴的特點,隨時隨地搜、 只展示最有價值的數據

聰明,知道關鍵詞之間的潛在關系,會幫你 聯想你自己都不知道的關鍵詞

任何平臺上、任何設備 上,不管是Mac,Windows,Linux,蘋果手機、安卓手機、平板電腦,還是其他什么,打開 http:// search.memect.cn 都可以搜索。 在路演現場想快速查看 臺上的企業數據?找路演講者的簡歷?用文因搜索。

每一個搜索結果,都可以通過微信、郵件 分享給同事 ,可以保存下來以后再看(用微信收藏或者瀏覽器收藏)。想 在微信群里討論 一個企業、一個投資機構、某個人?最方便的就是分享文因搜索的結果鏈接。

這當然不是全部!很快,我們還會看到一個更強大的搜索引擎

主板和美股的數據。目前我們聚焦在新三板,以后會逐步加入主板和美股的數據。

越來越聰明

。我們在不斷教文因搜索各種千奇百怪的熱門和冷門知識,比如幾萬種產品之間有什么關系?國民老公的投資公司投了誰?每天都有上萬條新的知識源被加入到背后的智能引擎里,構造一個更強大的“知識圖譜”。

多維度的數據過濾和排序。只關心創新層企業?bingo,其他的都隱藏了。想看看高管學歷構成?一排序就一目了然了。

異常事件的提醒。企業和行業中發生了哪些值得注意的大事?

企業大事一覽。企業發展歷程中,發生了哪些關鍵事件?人員、資金流向是什么?

公告和法規搜索。指定企業或行業,有哪些適用的法規和相關的公告?如何借鑒以往的案例?

關注和訂閱快報。持續關心一個企業或者行業?點擊“關注”就可以訂閱該話題的文因快報。

關注我們的微信“文因新三板”,或者微博@文因互聯,就能得到及時的服務更新提醒。

雖然我們現在離“變魔術”還很遠,但是我們相信人工智能,特別是知識圖譜技術的潛力在金融領域還遠遠沒有發揮出來。我們會一點一點為“魔術”打下基石,為用戶節約時間,每天多一個小時,可以用來睡覺、散步、學習、看《魔獸》,當然也可以去掙更多的錢…….

Stay tuned! 不久后咱們接著聊。


Tags: 投資機構 新三板

文章來源:https://zhuanlan.zhihu.com/p/23104370


ads
ads

相關文章
ads

相關文章

ad