第六屆"泰迪杯"數據挖掘挑戰賽C題參賽經歷總結
第六屆"泰迪杯"參賽經歷總結
Part 1 賽題
點擊Part 1 賽題進入題目網站
Part 2 C題參考與建議
智能閱讀模型的構建 —— 一份閱讀建議
一、 賽題
1、 賽題
(1) 主題:以文本輸入作為知識基礎的智能問答模型
(2) 學名:篇章排序、閱讀理解
(3) 數據:給出問題文本,判斷材料與文本的相關性
2、 原則:“對於用戶來說,如果能夠識別用戶用自然語言提出的問題、並加快用戶尋找該問題的答案,那麽我們的模型已經產生了價值。”
二、 入門(基於傳統文本挖掘和機器學習)
1、 中文分詞
(1) 如何改善分詞效果?
2、 TF-IDF
(1) TF-IDF的作用是什麽?
3、 關鍵詞提取
(1) 基於TF-IDF:提取關鍵詞的原理和方法
(2) 基於TextRank:提取關鍵詞的原理和方法
4、 詞向量與Word2Vec
(1) 詞向量的好處是什麽?
(2) 如何比較兩個詞的相似度?
(3) 如何比較句子的相似度?
5、 搜索引擎技術
(1) 倒排索引是什麽,它怎麽加速搜索?
(2) 搜索引擎是如何計算相關性的?
6、 邏輯回歸、SVM等模型
(1) 如何用邏輯回歸或SVM做分類模型?
(2) 如何用它們做文本分類?
三、 進階
1、 CNN / RNN / Attention
(1) CNN怎麽用在文本任務上?
(2) 用CNN/RNN怎麽做序列標註?
(3) 如何在普通任務中加入Attention機制?
2、 問答匹配模型
(1) 常見的QA匹配模型結構?
(2) 常見的QA編碼形式?
(3) 常見的loss選取方式?
3、 閱讀理解模型
(1) 目前已有的閱讀理解模型?
4、 SQUAD、MARCO評測任務
(1) SQUAD:https://rajpurkar.github.io/SQuAD-explorer/
(2) MARCO:http://www.msmarco.org/
Part 3 參賽經歷感受與反思
這是我第一次參加泰迪杯的比賽,對我來說,還是蠻難的。在整個小組裏,主要靠師兄撐起來——師兄不斷調試代碼讓結果能出來。
寫一下反思:
1.這個比賽至少有15天,所以不能全部堆到最後兩三天來做,這樣很可能是又累又做不好,一定要把握好比賽節奏,在每天上課的情況下每天都要做一點,每天都要有推進;
2.少做無用功,無用功少,效率才高,產出才高;
3.寫代碼時一定不能兩眼一抹黑瞎寫的,脫離理論和邏輯;沒有了邏輯,就只能很低效地不斷調啊調,改啊改,調個幾天都沒什麽結果,最終是搞得累到放棄;一定是要把邏輯和原理捋順。花點時間來這個邏輯和原理捋順,越是大的工程越有意義。
4.要寫總結,不然不寫就過去了,收獲不會大。
5.寫論文的經驗也可以寫點:寫論文感覺至少要留兩天(至少最後一天+前一天下午和晚上),寫論文感覺是一件慢慢磨的過程。寫的時候可以先花點時間捋順整個的宏觀的思路和流程,把目錄結構先寫下來,然後直接開寫,寫的不好什麽的沒關系,思路是先寫第一稿,再增加修改成第二稿,接著第三稿,以此類推,不要想著一次寫完,就是要好事多磨。當然論文內容就是要註意摘要和圖表啦。
Part 4 總結
1.要是就這樣寫總結就結束,我的能力也沒什麽提高,下次我再參加就業只能再依靠別人。抽個時間我要獨自一人把整個流程都實施一遍:分析問題、提出思路、代碼實現(重點難)、測試數據集。
2.理一下接下來要整理的東西:
①整理代碼 ,最好能解構得出跟抽象的知識(另外);
②好的參考文獻記錄一下。
(1)總思路來源(CNN+Cosine):APPLYING DEEP LEARNING TO ANSWER SELECTION:A STUDY AND AN OPEN TASK
(2)詞向量:
Distributed Representations of Words and Phrases and their Compositionality
Word2vec Parameter Learning Explained
Learning word embeddings efficiently with noise-contrastive estimation
Hierarchical Probabilistic Neural Network Language Model
(3)註意力機制
Attention Is All You Need
(4)序列模型
Convolutional Sequence to Sequence Learning
第六屆"泰迪杯"數據挖掘挑戰賽C題參賽經歷總結