1. 程式人生 > >當身邊同學拿到80萬年薪Offer時,這兩位清華博士卻想讓法律人用上真正的AI

當身邊同學拿到80萬年薪Offer時,這兩位清華博士卻想讓法律人用上真正的AI

中國有多少家法律 AI 創業公司?

總數,恐怕還不足一個微信群成員上限的十分之一。

翻開斯坦福大學的百年人工智慧報告,目錄中也看不到法律這個垂直細分領域。

有一百個邁向這個領域的動力,也有一百個放棄的理由:

論蛋糕大小,遠不及出行、醫療、安防、金融等領域。

論產品的革命性與戰略性意義,可能不及虛擬語音助手和人工智慧晶片。

所以在這個領域,你看不到流連於熱門細分領域的頂級資本。

然而,創業者們要解決問題的難度,卻絲毫不亞於熱門細分領域,甚至可以說難度更大,但人才所能獲得的回報遠不及巨頭開出的價碼。

一些國內大型法律科技公司相關業務負責人曾告訴筆者,在吸引非常優質的 NLP 人才方面,他們根本不是巨頭和明星獨角獸公司的對手。

所以,當你發現法律人使用的搜尋工具還停留在連 20 年前的谷歌時代時,也就不足為奇了。

不過最近,一家成立不久的法律 AI 創業公司冪律智慧入駐清華科技園的創業大廈。這家由清華大學人工智慧博士創立的公司想要用先進的自然語言處理技術改變法律服務。

1531719314082.png

公司創始人、CEO 塗存超(左),清華大學劉知遠教授(右)


一、為什麼是法律?

今年三月,冪律獲得近千萬元天使輪融資。公司創始人塗存超是清華大學計算機系人工智慧所應屆博士研究生,和他一同創業的張天揚是他的本科同學,同樣剛剛拿到清華計算機系的博士學位。

「我做社交網路資料探勘,塗存超之前也做一些 network embedding 的工作。」張天揚介紹道。

1531719315466.png

公司聯合創始人張天揚


塗存超最初的想法很樸素:學以致用,希望能夠通過博士期間所學真正去改變一個領域,而不是在一個大公司裡扮演著螺絲釘的角色。

最開始,他們也考慮了一些熱門的領域,比如金融、醫療、教育等行業,但後來發現這些行業的資料壁壘比較嚴重。

「如果做醫療,你必須得跟某個醫院合作才能拿到資料,這可能需要比較多的社會的資源。」對於從本科一直讀到博士,沒有太多社會資源的創業者來說,這個難度確實比較大。

一次偶然的機會,跟律師界朋友聊了後,他們發現法律行業是一個特別重文字的行業,而且文字質量特別高。

事實上,全國諸多法院在經過 20 年的資訊化建設後,流程資料、證據資料、文書資料、檔案資料等都比較完整。

特別是,中國裁判文書網上的幾千萬裁判文書都是公開的。

「與其它垂直領域相比,這些都是非常好的文字資訊,質量非常高,都是法官寫的,表述更加嚴謹規範,而且數量足夠大。每個文書都有非常詳細的標註。比如,涉及哪些法條、犯哪些罪、量刑結果是什麼、什麼時間、發生的地域、法官是誰、代理律師是誰?這些標註資訊以及眾多的場景非常適合 NLP 技術的落地。」

塗存超說,

除了這些案例文書,法律領域還擁有法律法規、法學文獻、合同協議等豐富的文字資料,這些資料也為法律智慧提供了豐富的應用場景。

「我們很務實,覺得這個方向前景很好,而且堅信技術一定能夠在這個方向發揮重要作用,所以立馬開始這個方向的調研、技術開發和嘗試。在抓取了幾千萬份資料後,我們首先做了一個智慧檢索引擎。」張天揚說。

至於為什麼首先做搜尋,一方面,檢索是基礎性工具,是法律行業初級從業者的基礎性需求;另一方面,現有的法律搜尋已經和百度、谷歌存在非常明顯的技術代差。

使用者已經習慣了通用領域的基於語義理解的檢索方式,在百度或谷歌裡檢索大段文字,或者直接問一個問題,系統可以直接給你答案。但是,法律領域的檢索工具還停留在關鍵詞搜尋。

比如,律師遇到一個案件或者糾紛,就必須得檢索根據自己的工作經驗總結出來一些關鍵詞,而且只有詞表裡有的關鍵詞,才能檢索到結果。如果一句很簡單的自然語言形式的輸入,使用者可能就檢索不出結果。

「這種檢索方式甚至連 20 年前的谷歌搜尋技術都不如,」張天揚說。

去年四月,他們決定做這個事情。一年多後,他們發現,NLP 在法律領域的應用潛力還不止這些,比如,輔助量刑、合規審查、法律風險提示、智慧法律諮詢等,都有著非常好的前景和可行性。

我們堅持做法律,有一個很重要的原因,就是我們覺得它更有可能做出來
。」塗存超說。

「最近一年的發展,也印證了這個想法。」張天揚補充道。

二、怎樣的一款產品?

輸入一段案情,或者一些法律要件的組合、甚至將整個案件或判決直接輸進去,系統就可以識別出使用者的使用意圖,然後在相應的地方進行識別語義,匹配到可能相似的案件。

坦白說,這樣的法律檢索工具會非常吸引人,和 ROSS 做的事情也有些類似。據說,體驗過產品原型的業內人士也驚訝於檢索效果。

冪律的檢索系統(年底會做出一個產品)有兩個亮點:意圖識別和根據語義進行匹配。

意圖識別系統,能夠理解使用者帶著什麼樣的目的搜尋這個案子,使用者到底是想要有什麼。

比如,類案推送、爭議焦點,還是條文查詢。

「每一個領域的律師想要的東西可能也不完全一樣。做產品設計的時候,我們會調研不同應用場景,不同律師檢索時想知道什麼,接下來想做什麼,為他們提供更好的搜尋結果。」張天揚說。

而基於語義理解進行類案匹配,會將文字的深度分析技術,比如關鍵詞抽取、關係和事件抽取、摘要生成等,適配到法律語境中。

「我們也在考慮,檢索出來海量相似案例之後,怎麼樣就此生成一個報告。」塗存超說。

這與 ROSS 在一年多前接受我們的採訪時曾表達過的想法,不謀而合:

「接下來幾年的最大目標之一,希望 ROSS 可以瀏覽多個案例和證據,然後生成備忘錄,總結問題,並列出不同觀點。這將會改變律師們研究案子的方式。」

「我們最核心能力,肯定還是 NLP 的基礎技術。」塗存超說,

「具體到法律領域,我認為,現在應該做類案匹配和判決預測。這兩個方面,我們算是做得最早,也應該是做得最好的。」

因此,除了所有法律人都會關注的類案推薦,他們也在將 NLP 技術用於判決預測。

比如,多模態異構資訊融合。如何融合案件判決時所要考慮的多文字資訊(法律法規、司法解釋、甚至工商資訊等),以便更好進行結果預測。

另外,預測判決罪名、量刑還涉及智慧推理決策技術,比如如何模擬法官判案邏輯,在系統中引入推理能力。

而他們在這方面的研究正在得到學術上的肯定。

一個月前,塗存超參與的一篇研究罪名預測的論文 Few-Shot Charge Prediction with Discriminative Legal Attributes 發表在了 NLP 四大頂會之一 COLING2018。

我們知道,罪名分佈也是典型的長尾分佈(冪律分佈的一種形式,現在你知道公司名字的由來了):

1531719314505.png如盜竊罪、搶劫罪等佔了接近一半的案件。比較低頻的幾十個罪名,可能只佔了百分之零點幾。

幾千萬案例文書當中,幾個高頻罪名,比如盜竊罪、搶劫罪等佔了接近一半的案件。比較低頻的幾十個罪名,可能只佔了百分之零點幾。

但是,在目前的罪名預測研究中,低頻罪名的處理效果並不理想。

傳統上,罪名預測一般被當作文字分類任務處理,利用案件相關的一些淺層文字文字特徵或者屬性特徵來預測結果。

近些年來,也有基於神經網路網路分類模式的嘗試,但也不能很好處理低頻罪名和混淆罪名的問題。

塗存超所在的團隊通過模擬法官的定罪邏輯,引入 10 個有代表性的區分性屬性(盈利、買賣行為、死亡情節、暴力行為等),作為事實描述到罪名的中間對映。

通過利用注意力機制生成與屬性相關的事實表示,對一個案件的不同屬性進行預測,進而預測最終罪名結果。結果,這一方法在低頻罪名預測上獲得了接近 50% 的提升。

現在的模型取得了較為理想的預測結果,然而,其中的可解釋性也需要進一步挖掘,對一個法律產品的使用來說,這也是不可忽視的方面之一。

「智慧推理決策當中,這種可解釋性的問題也非常重要。」塗存超說,法官必須知道其所以然。

在技術方法上,引入知識圖譜、法律先驗知識,模擬法律人的思維邏輯,有可能打破法律智慧的黑箱問題。

劉知遠教授曾經談及先驗語言知識與深度學習模型的有機融合對於理解世界的作用。他的團隊也在模型中考慮先驗知識的作用,並做出了一些嘗試。

作為劉知遠教授的博士研究生,塗存超最近也在做一些技術上的突破,

「看能否將現有的一些可解釋性研究,適配到法律智慧領域。我們會有一些應用,也會針對實際情況進行一些改進。」塗存超說。

三、怎樣的一支團隊?

目前,國外大多數法律 AI 創業公司都少不了具有法律背景的核心成員(創始人或者聯創),比如 ROSS、LawGeex 以及被 LexisNexis 先後收購的 Lex Machina 和 Ravel Law 等。國內更是如此,比如華宇元典、無訟、律品等。

冪律是為數甚少由純技術出身創業者組建的法律AI團隊。

塗存超和張天揚曾參加過數學和物理奧賽,其他一些團隊成員曾是資訊學奧賽國家集訓隊成員。換句話說,這些人工智慧專業的博士們幾乎有著類似的學霸型人生軌跡:

奧賽——保送清華——一路讀到博士——創業。

剛開始接觸這個領域的時候,對法律知識和行業的瞭解還停留在大學本科政治課的範圍內。

研究人員或許可以做一款優秀的產品,但這不一定意味商業上的成功。為避免陷入「技術為王」,一些投資人在建議技術見長的團隊初期尋找合夥人時,仍要重視市場、商務等因素對公司的重要推動作用。

「從剛開始做這個東西時,我們就已經意識到這個問題。」張天揚說,

「我們也正在努力尋找這方面的人才,無論是實習生、全職還是合夥人,我們一直都在尋找。」

不過,冪律現在做的法律檢索工具,更多的是將一個略成熟技術進行應用,對技術的需求更大。因此,通過與律師朋友、法學院同學、老師,包括一些公司合作來獲取法律資源的模式,足夠應對當下的法律需求。

在交流過程中,我們仍然可以體會到演算法創業團隊對技術的高度重視。

法律人主導的團隊會使用開源工具,但是,冪律的團體知道如何改進這個工具。

比如,根據法律把分詞作好,需要更有經驗的人。

塗存超曾參與過人工智慧所開源分詞工具的開發,「知道怎麼去做一個分詞工具,怎麼去改進一個分詞工具,和只會直接用一個開源分詞工具,效果是有區別的。」張天揚說。


演算法、法律知識圖譜方面,也是如此。

「劉知遠教授是做知識圖譜的,我對知識圖譜也算比較瞭解。」塗存超說。在他看來,並不是誰先花了很多資源構建出這個東西,誰就能獲得先發優勢。關鍵仍在於,誰能構建出一個真正在演算法上可用並能提升效果的法律知識圖譜。

在他們看來,法律人主導的 AI 創業公司也會存在一些不足。

「他們對技術的理解,與真正做 NLP 的人的理解,可能完全不一樣。」張天揚說。

冪律考慮的是什麼樣的演算法能幫助這個領域提升工具效力,然後才考慮將它設計成一個很好的產品,但有一些競爭對手考慮更多的可能是尋找一個新的賣點,把東西賣出去,但產品裡面甚至沒有真正演算法部分。
1531719314378.png

四、什麼樣的產品進階之路?

現階段的人工智慧,更多扮演著賦能行業的角色。


許多法律AI初創公司的初衷,都是想讓技術惠及 C 端客戶,但最終落地時幾乎都選擇了服務 B 端,比如,法院、公司法務部門和律所。

相較於 C 端,B 端使用者既保證了需求的體量與頻次,對產品價格也不會特別敏感。

冪律也表達了類似的規劃,「短期來看,無論資料條件、市場盈利模式、還是技術方面,短期內都做不到(C 端)。所以,我們先為律所甚至法官、檢察官等從業者提供一個自然語言檢索工具。」張天揚說,

「他們的需求比較高頻,尤其是初級律師,檢索的質量和效率都是瓶頸,所以,第一階段比較明確要做的,就是這個自然語言檢索平臺。」

雖然這意味著,他們第一階段的產品會和北大法寶,無訟等以案例為主的檢索很相似,「但是,我們可能提供的功能會更強大。」張天揚說。

不過,在通用技術上進行必要的積累、提供一些突破之後,冪律會考慮將基礎性技術應用到具體細分方向。長期來看,冪律仍然希望能夠打造一個能夠面向 2C 的更通用的法律智慧(平臺),降低普通人享受法律服務的門檻。

五、怎樣的決心?

對塗存超來說,過去一年讓他印象最深刻的體驗是法律人和人工智慧研究人員之間的那段「最遠距離」。

無論是研究還是產品,他們都深深感受到了橫梗在專業之間的知識壁壘。

比如,類案匹配引擎研究中,大家對什麼是類案的理解完全不同。

「不光是法律知識對我們來說的一個壁壘,就連他們覺得什麼樣的案子是相似的,我也完全不知道。」而另一方面,法律人士對於技術該怎麼解決這個問題,也完全沒有概念。

「雙方之間存在的這種知識壁壘,包括交流成本都非常高。」塗存超說。

其實,塗存超的體驗幾乎是這個領域所有從業者的共鳴。但只要我們回顧一下,法律本科生沒有高數要求,理工科本科學生僅在政治課中感受過法律,就不難理解這個交叉領域裡的巴別塔現象了。

儘管如此,他們仍然反覆強調,冪律打算長期做這個事情,雖然創業仍然不是當下人工智慧博士們的主流選擇。

當身邊有些同學拿到 80 多萬年薪的 Offer 時,塗存超和張天揚卻告訴我們,在求職季裡,他們一份簡歷都沒有投,因為當時已經決定創業,雖然還沒拿到任何投資。

即使在敲定投資人方面,他們更多的還是考慮投資人與公司的優勢互補與業務發展。

「無論是我們還是投資人和業界朋友,他們都看好這個領域的前景。」張天揚說。

採訪接近結束時,我看到在還來不及收拾整理的會議室的黑板上,赫然寫著法律人再熟悉不過的三段論,團隊最近還學習了犯罪四要件和三階層。

「目前為止,我們沒有遇到過任何一家公司,他們已經有非常好的專案經理來處理技術和法律兩方面的問題。」我突然想到 IBM Watson Legal 的聯合創始人、首席專家 Brian Kuhn 在一年前曾分享過的一個觀察。

一個成功的法律AI創業團隊,至少有能力將世界上「最遠距離」的兩種思維比較好地結合起來。

征途,才剛剛開始。