1. 程式人生 > >這份NLP研究進展彙總請收好,GitHub連續3天最火的都是它

這份NLP研究進展彙總請收好,GitHub連續3天最火的都是它

方栗子 發自 凹非寺
量子位 出品 | 公眾號 QbitAI

640?wx_fmt=jpeg

最近,有一份自然語言處理 (NLP) 進展合輯,一發布就受到了同性交友網站使用者的瘋狂標星,已經連續3天高居GitHub熱門榜首位。

合集裡面包括,20多種NLP任務前赴後繼的研究成果,以及用到的資料集。

這是來自愛爾蘭的Sebastian Ruder,傾力彙總而成。

640?wx_fmt=gif

他在愛爾蘭國立大學 (戈爾韋) 讀博。另一個身份,是AI創業公司Aylien的研究人員。

塞巴斯蒂安說,NLP近來發展太快了,即便作為局內人,也很難順暢地跟進這個領域裡發生的事。

無微不至的倉庫

要找到最常用的資料集,要了解自己研究的問題有了哪些新進展,還是很費力的。

640?wx_fmt=gif

所以,他就在GitHub上面建了一個倉庫,追蹤各種

自然語言任務的研究成果,還有對應的資料集。

這是一間整齊的倉庫,任務是按字母順序排列——

· CCG supertagging
· Chunking
· Constituency parsing
· Coreference resolution
· Dependency parsing
· Dialog
· Domain adaptation
· Language modelling
· Machine translation
· Multi-task learning
· Multimodal
· Named entity recognition
· Natural language inference
· Part-of-speech tagging
· Question answering
· Semantic textual similarity
· Sentiment analysis
· Semantic parsing
· Semantic role labeling
· Summarization
· Text classification

作為一個情緒型選手,我點開了情緒分析 (Sentiment Analysis) 的頁面。

640?wx_fmt=jpeg

這裡的資料集很親切,比如IMDb,電影評分網站的資料。

再比如,“ (姑且稱為) 美國的大眾點評”,Yelp的店鋪評論資料集。

640?wx_fmt=jpeg

每個資料集下面,都有相關研究的列表,以及所用模型的準確度

當然,情緒的二分類 (Binary Classification) ,以及細粒度分類 (Fine-Grained Classification) ,作為兩種問題,列表也是分開的。

640?wx_fmt=png

這人文關懷,無微不至。

未解之謎

塞巴斯蒂安還說了,上面列出的那些,是已經開始追蹤的NLP任務。

640?wx_fmt=gif

還有一些任務,被他加入了心願單——

· Bilingual dictionary induction
· Discourse parsing
· Entity Linking
· Information extraction
· Keyphrase extraction
· Knowledge base population (KBP)
· More dialogue tasks
· Relation extraction
· Semi-supervised learning

這些問題的進展,在他那裡還是未解之謎。

深知以一己之力難以將這部分內容補充完整,程式設計師還給了詳細的參與步驟,希望廣大NLP戰士,可以互相取暖。

去看一看

塞巴斯蒂安給NLP的愛,很深沉了。

640?wx_fmt=jpeg

他的部落格,各位同行或許也很眼熟了。

變身前:Sebastianruder.com
變身後:Ruder.io

沒有收藏的話,現在可以收藏一下。

當然,這裡也要手動貼上NLP倉庫的地址:

https://github.com/sebastianruder/NLP-progress

且去走一遭。

實習生招聘

量子位正在招募市場運營實習生,策劃執行AI明星公司CEO、高管等參與的線上/線下活動,有機會與AI行業大牛直接交流。一份豐富的實習經歷等你解鎖~

工作地點在北京中關村。簡歷歡迎投遞到[email protected]

具體細節,請在量子位公眾號(QbitAI)對話介面,回覆“實習生”三個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


相關推薦

NLP研究進展彙總GitHub連續3

方栗子 發自 凹非寺量子位 出品 | 公眾號 QbitAI最近,有一份自然語言處理 (NLP

CS3K.com | 全棧工程師人才缺?求職攻略

全棧工程師是當今最著名和需要量最大的 IT 職位之一,很多IT 企業正在尋找全棧開發人才。但隨著 IT 行業複雜性和動態性的增加,成為全棧開發人員比以往任何時候都更加困難。   首先,你至少需要擁有以下技能 CS3K.com 紮實掌握計算機基礎知識 瞭解資料庫

想成功進入網際網路公司乾貨總結

寫在前面今天算是在上海最安安穩穩的一個週末,從週五開始陸陸續續和不同的朋友吃了飯,想起來之前落下的文章還沒寫。等到專案忙起來的話,沒有時間來總結,自然又要忘記,姑且先下筆亂謅個提綱出來。這篇日誌大概有以下內容:●總結網際網路測試/測試開發常見面試內容●對測試/測試開發的理解●未來的學習規劃●對有志於從事軟體測

想學好數學寶典!

技術人要不停學習,防止不進則退。想成為技術大神,需要每天掌握一點知識,但碎片化的資訊那麼多,如何選擇呢?今天推薦幾個碼農晉級必備技術號。 >>>>  演算法與數學之美 ID:MathAndAlgorithm ▲長按圖片識別二維碼關注 每個人有每個人的生活方式和麵對這

情人節前夕郵件營銷攻略

群發郵件 發送 郵件群發 服務器 term alt 介紹 穩定 同時 2月14日對戀人來說都是意義非凡的日子,對於營銷人員來說也是忙碌的一天,當你的競爭對手趁機推動銷售時,你如何才能在郵件“漫天飛舞”的收件箱中生存下來,並提高銷售額呢? 一、群發郵件前的準備工作細致充分首先

乾貨:終於有人把使用者畫像的流程、方法講明白了

  文章釋出於公號【數智物語】 (ID:decision_engine),關注公號不錯過每一篇乾貨。   作者:馬海平 於俊 呂昕 向海 來源:大資料(ID:hzdashuju) 本文摘編自《Spark機器學習進階實戰》

技術卻進不了大公司?程式設計師面試的幾個小技巧

有很多程式設計師,專業技術挺好,專案經驗充足,簡歷上金碧輝煌,也面試了很多國內大廠,但就是沒有一家能成功的。處境可以說是相當尷尬。 大家都知道程式設計師本身就是要吃年輕飯,不僅是技術活,也是體力活。早點跳槽,早點漲薪,就顯得格外的重要了。 那麼我就給大家分享一下程式設計師面試的幾個小技巧: 1.面試準備要

10行程式碼實現目標檢測教程

翻譯 | 林椿眄編輯 | 阿司匹林出品 | AI科技大本營(公眾號ID:rgznai100)作為人工智慧的

JAVA工程師必學技能進階&漲薪的推進器!實戰教程

direct 簡單 auto image wechat 處理 並發 它的 一段時間 Netty 作為互聯網中間件的基石,是 JAVA 工程師進階為高級程序員必備的能力之一。也是目前是互聯網中間件領域使用最廣泛最核心的網絡通信框架。 Netty是一個高性能、異步事件驅動的N

前端面試?手擼Promise

前言   現在很多大廠面試前端都會要求能夠手動的寫出一個Promise,所以這裡整理了一份手寫的Promise。   絕對詳細,功能絕對強大。如果你不瞭解Promise的基本使用,那麼本篇文章可能不太適合你,如果你對Promise有過一些瞭解,那麼這篇文章絕對是你進階的好幫手。   除開catch()以及fi

年薪百萬的技術面試問啥?來必考題葵花寶典吧|套路

隨著各大企業紛紛佈局區塊鏈,各行業對區塊鏈人才求賢若渴,區塊鏈從業者的待遇也是水漲船高。 動輒百萬的年薪+通證激勵,不知你是否已經蠢蠢欲動。不過區塊鏈涉及的領域既多且雜,在面試中你不僅需要有牢固的知識儲備,還需要一本“面試葵花寶典”以防萬一。 話不多

攻略!帶你國慶免費玩轉海醬油“迪士尼”

一年一度的國慶假期又到了,想去玩又不知道去哪兒玩?不想湊熱鬧瞎打卡,又想一次滿足吃、喝、玩、樂N個願望?沒問題!這裡是以醬油為主題的遊樂王國。走進醬油的天地,你既可以在這裡瞭解醬油文化知識、觀看3D電影 ,又可以在這裡品嚐美味黃豆宴、DIY醬油飯糰,還可以對著3D牆畫隨意凹造型,收穫最潮文化

還有2618年就過完了, 2019區塊鏈行業指南

話說,還有26天就要跟2018說再見了,在這裡想衷心地問一句: “年初的願望實現了嗎?事到如今只好祭奠嗎?” 不過話說回來,這一年區塊鏈的發展繼續加速,只是沒有像預想中的那麼快。今天,就跟老鐵們一起簡單回顧一下2018年的歷程,然後從這一脈絡中談談2019年的區塊鏈及加密貨幣的走向。 比起2017年,

@程式設計師比特幣“勒索病毒”應對須知!

作者 | JiekeXu 責編 | 胡巍巍 風險從來都不是臆想和草木皆兵,就在你不經意的時刻,可能風險就突然降臨到我們的身邊。 發現比特幣勒索病毒 業務賬號無法連線資料庫 2018年7月18日早上10點多,某公司一

從理論到案例篇Nginx監控運維乾貨

Nginx特性   作為Web伺服器,Nginx不免要與Apache進行比較。相比Apache伺服器,Nginx因其採用的非同步非阻塞工作模型,使其具備高併發、低資源消耗的特性,高度模組化設計使Nginx具備很好的擴充套件性;在處理靜態檔案、反向代理請求等方面,Nginx表現出很大

一篇TCP總結

## 前言 很高興遇見你~ TCP這些東西,基本每個程式猿都或多或少是掌握的了。雖然感覺在實際開發中沒有什麼用武之處,但,面試他要問啊 ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/f75b6ed0719542b6b7cc48ccb24365

【王曉剛】深度學習在圖像識別中的研究進展與展望

ast eric all orm 反向 nic 分類函數 大網 goole 深度學習是近十年來人工智能領域取得的最重要的突破之中的一個。它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域都取得了巨大成功。本文將重點介紹深度學習在物體

挺適合你的但這些私人事情但情牧塵還冰玄靈蛟龐大

fec e30 afa c2c html oba add f11 bdc http://baobao.baidu.com/article/10c07040c73b1fcf9a14ba76f4430654.html?lz=1 http://baobao.baidu.com/a

為什麽你學不好java!你好思考下你真的有麽弱嗎?

javajava難學?java難學!是的,沒有錯!如果java這麽簡單容易,你覺得還會有它的市場價值嗎?我英語差、我學歷低、我理解能力差,能戰勝它嗎?整天遇到困難就逃避的人,學什麽都學不好!還沒有開始就否定自己,大清都亡了,只有天才一出生啥都會的!做什麽事必須要在它的身上付出,你付出的多回報就越豐厚!沒有任何