1. 程式人生 > >第六屆"泰迪杯"數據挖掘挑戰賽C題參賽經歷總結

第六屆"泰迪杯"數據挖掘挑戰賽C題參賽經歷總結

論文 https 中文 git osi ram lec 原理 hub

第六屆"泰迪杯"參賽經歷總結

Part 1 賽題

點擊Part 1 賽題進入題目網站

Part 2 C題參考與建議

智能閱讀模型的構建 —— 一份閱讀建議

一、 賽題

1、 賽題

(1) 主題:以文本輸入作為知識基礎的智能問答模型

(2) 學名:篇章排序、閱讀理解

(3) 數據:給出問題文本,判斷材料與文本的相關性

2、 原則:“對於用戶來說,如果能夠識別用戶用自然語言提出的問題、並加快用戶尋找該問題的答案,那麽我們的模型已經產生了價值。”

二、 入門基於傳統文本挖掘和機器學習)

1、 中文分詞

(1) 如何改善分詞效果?

2、 TF-IDF

(1) TF-IDF的作用是什麽?

3、 關鍵詞提取

(1) 基於TF-IDF:提取關鍵詞的原理和方法

(2) 基於TextRank:提取關鍵詞的原理和方法

4、 詞向量與Word2Vec

(1) 詞向量的好處是什麽?

(2) 如何比較兩個詞的相似度?

(3) 如何比較句子的相似度?

5、 搜索引擎技術

(1) 倒排索引是什麽,它怎麽加速搜索?

(2) 搜索引擎是如何計算相關性的?

6、 邏輯回歸、SVM等模型

(1) 如何用邏輯回歸或SVM做分類模型?

(2) 如何用它們做文本分類?

三、 進階

1、 CNN / RNN / Attention

(1) CNN怎麽用在文本任務上?

(2) 用CNN/RNN怎麽做序列標註?

(3) 如何在普通任務中加入Attention機制?

2、 問答匹配模型

(1) 常見的QA匹配模型結構?

(2) 常見的QA編碼形式?

(3) 常見的loss選取方式?

3、 閱讀理解模型

(1) 目前已有的閱讀理解模型?

4、 SQUAD、MARCO評測任務

(1) SQUAD:https://rajpurkar.github.io/SQuAD-explorer/

(2) MARCO:http://www.msmarco.org/

Part 3 參賽經歷感受與反思

  這是我第一次參加泰迪杯的比賽,對我來說,還是蠻難的。在整個小組裏,主要靠師兄撐起來——師兄不斷調試代碼讓結果能出來。

  寫一下反思:

  1.這個比賽至少有15天,所以不能全部堆到最後兩三天來做,這樣很可能是又累又做不好,一定要把握好比賽節奏,在每天上課的情況下每天都要做一點,每天都要有推進;

  2.少做無用功,無用功少,效率才高,產出才高;

  3.寫代碼時一定不能兩眼一抹黑瞎寫的,脫離理論和邏輯;沒有了邏輯,就只能很低效地不斷調啊調,改啊改,調個幾天都沒什麽結果,最終是搞得累到放棄;一定是要把邏輯和原理捋順。花點時間來這個邏輯和原理捋順,越是大的工程越有意義。

  4.要寫總結,不然不寫就過去了,收獲不會大。

  5.寫論文的經驗也可以寫點:寫論文感覺至少要留兩天(至少最後一天+前一天下午和晚上),寫論文感覺是一件慢慢磨的過程。寫的時候可以先花點時間捋順整個的宏觀的思路和流程,把目錄結構先寫下來,然後直接開寫,寫的不好什麽的沒關系,思路是先寫第一稿,再增加修改成第二稿,接著第三稿,以此類推,不要想著一次寫完,就是要好事多磨。當然論文內容就是要註意摘要和圖表啦。

Part 4 總結

  1.要是就這樣寫總結就結束,我的能力也沒什麽提高,下次我再參加就業只能再依靠別人。抽個時間我要獨自一人把整個流程都實施一遍:分析問題、提出思路、代碼實現(重點難)、測試數據集。

  2.理一下接下來要整理的東西:

  ①整理代碼 ,最好能解構得出跟抽象的知識(另外);

  ②好的參考文獻記錄一下。

  (1)總思路來源(CNN+Cosine):APPLYING DEEP LEARNING TO ANSWER SELECTION:A STUDY AND AN OPEN TASK

  (2)詞向量:

  Distributed Representations of Words and Phrases and their Compositionality

  Word2vec Parameter Learning Explained

  Learning word embeddings efficiently with noise-contrastive estimation

  Hierarchical Probabilistic Neural Network Language Model

  (3)註意力機制

  Attention Is All You Need

  (4)序列模型

  Convolutional Sequence to Sequence Learning

第六屆"泰迪杯"數據挖掘挑戰賽C題參賽經歷總結