第六屆"泰迪杯"數據挖掘挑戰賽C題參賽經歷總結

阿新 • • 發佈：2018-04-15

論文 https 中文 git osi ram lec 原理 hub

第六屆"泰迪杯"參賽經歷總結

Part 1 賽題

點擊Part 1 賽題進入題目網站

Part 2 C題參考與建議

智能閱讀模型的構建 —— 一份閱讀建議

一、賽題

1、賽題

（1）主題：以文本輸入作為知識基礎的智能問答模型

（2）學名：篇章排序、閱讀理解

（3）數據：給出問題文本，判斷材料與文本的相關性

2、原則：“對於用戶來說，如果能夠識別用戶用自然語言提出的問題、並加快用戶尋找該問題的答案，那麽我們的模型已經產生了價值。”

二、入門（基於傳統文本挖掘和機器學習）

1、中文分詞

（1）如何改善分詞效果？

2、 TF-IDF

（1） TF-IDF的作用是什麽？

3、關鍵詞提取

（1）基於TF-IDF：提取關鍵詞的原理和方法

（2）基於TextRank：提取關鍵詞的原理和方法

4、詞向量與Word2Vec

（1）詞向量的好處是什麽？

（2）如何比較兩個詞的相似度？

（3）如何比較句子的相似度？

5、搜索引擎技術

（1）倒排索引是什麽，它怎麽加速搜索？

（2）搜索引擎是如何計算相關性的？

6、邏輯回歸、SVM等模型

（1）如何用邏輯回歸或SVM做分類模型？

（2）如何用它們做文本分類？

三、進階

1、 CNN / RNN / Attention

（1） CNN怎麽用在文本任務上？

（2）用CNN/RNN怎麽做序列標註？

（3）如何在普通任務中加入Attention機制？

2、問答匹配模型

（1）常見的QA匹配模型結構？

（2）常見的QA編碼形式？

（3）常見的loss選取方式？

3、閱讀理解模型

（1）目前已有的閱讀理解模型？

4、 SQUAD、MARCO評測任務

（1） SQUAD：https://rajpurkar.github.io/SQuAD-explorer/

（2） MARCO：http://www.msmarco.org/

Part 3 參賽經歷感受與反思

　　這是我第一次參加泰迪杯的比賽，對我來說，還是蠻難的。在整個小組裏，主要靠師兄撐起來——師兄不斷調試代碼讓結果能出來。

　　寫一下反思：

　　1.這個比賽至少有15天，所以不能全部堆到最後兩三天來做，這樣很可能是又累又做不好，一定要把握好比賽節奏，在每天上課的情況下每天都要做一點，每天都要有推進；

　　2.少做無用功，無用功少，效率才高，產出才高；

　　3.寫代碼時一定不能兩眼一抹黑瞎寫的，脫離理論和邏輯；沒有了邏輯，就只能很低效地不斷調啊調，改啊改，調個幾天都沒什麽結果，最終是搞得累到放棄；一定是要把邏輯和原理捋順。花點時間來這個邏輯和原理捋順，越是大的工程越有意義。

　　4.要寫總結，不然不寫就過去了，收獲不會大。

　　5.寫論文的經驗也可以寫點：寫論文感覺至少要留兩天（至少最後一天+前一天下午和晚上），寫論文感覺是一件慢慢磨的過程。寫的時候可以先花點時間捋順整個的宏觀的思路和流程，把目錄結構先寫下來，然後直接開寫，寫的不好什麽的沒關系，思路是先寫第一稿，再增加修改成第二稿，接著第三稿，以此類推，不要想著一次寫完，就是要好事多磨。當然論文內容就是要註意摘要和圖表啦。

Part 4 總結

　　1.要是就這樣寫總結就結束，我的能力也沒什麽提高，下次我再參加就業只能再依靠別人。抽個時間我要獨自一人把整個流程都實施一遍：分析問題、提出思路、代碼實現（重點難）、測試數據集。

　　2.理一下接下來要整理的東西：

　　①整理代碼，最好能解構得出跟抽象的知識（另外）；

　　②好的參考文獻記錄一下。

　　(1)總思路來源（CNN+Cosine）:APPLYING DEEP LEARNING TO ANSWER SELECTION:A STUDY AND AN OPEN TASK

　　(2)詞向量：

　　Distributed Representations of Words and Phrases and their Compositionality

　　Word2vec Parameter Learning Explained

　　Learning word embeddings efficiently with noise-contrastive estimation

　　Hierarchical Probabilistic Neural Network Language Model

　　(3)註意力機制

　　Attention Is All You Need

　　(4)序列模型

　　Convolutional Sequence to Sequence Learning

第六屆"泰迪杯"數據挖掘挑戰賽C題參賽經歷總結

論文 https 中文 git osi ram lec 原理 hub 第六屆"泰迪杯"參賽經歷總結 Part 1 賽題點擊Part 1 賽題進入題目網站 Part 2 C題參考與建議智能閱讀模型的構建 —— 一份閱讀建議一、賽題 1、賽題（1）主題：以文

第六屆"泰迪杯"數據挖掘挑戰賽C題參賽經歷總結

第六屆"泰迪杯"參賽經歷總結

Part 1 賽題

Part 2 C題參考與建議

智能閱讀模型的構建 —— 一份閱讀建議

Part 3 參賽經歷感受與反思

Part 4 總結

第六屆"泰迪杯"數據挖掘挑戰賽C題參賽經歷總結

湖南省第六屆中信軟體教育杯大學生程式設計大賽試題第二題弟弟的作業

"浪潮杯"第六屆ACM山東省省賽山科場總結

文字檢索問題----第六屆泰迪杯C題賽後總結

算法筆記_208:第六屆藍橋杯軟件類決賽真題(Java語言A組)

第六屆藍盾杯總結

藍橋杯第六屆-牌型總數&&藍橋杯第七屆-湊算式&&藍橋杯第七屆-方格填數

第六屆藍橋杯真題總結

第六屆藍橋杯java b組第三題

第六屆藍橋杯java b組第一題

第六屆藍橋杯java b組第8題

2015年第六屆藍橋杯C/C++程序設計本科B組決賽 ——居民集會(編程大題)

加法變乘法——第六屆藍橋杯C語言B組（省賽）第六題

【藍橋杯】第六屆國賽C語言B組 2.完美正方形（dfs）

【藍橋杯】第六屆國賽C語言B組 1.積分之迷（水題）

三羊獻瑞——第六屆藍橋杯C語言B組（省賽）第三題

2015年第六屆藍橋杯JavaB組決賽題解——穿越雷區

藍橋杯第六屆省賽JAVA真題----生命之樹

第六屆藍橋杯題解

2015第六屆藍橋杯國賽決賽c/c++本科B組試題總結及解題答案

第六屆"泰迪杯"數據挖掘挑戰賽C題參賽經歷總結

第六屆"泰迪杯"參賽經歷總結

Part 1 賽題

Part 2 C題參考與建議

智能閱讀模型的構建 —— 一份閱讀建議

Part 3 參賽經歷感受與反思

Part 4 總結

相關推薦