1. 程式人生 > >論文閱讀14+總結:Reinforcement learning approach towards effective content recommendation in MOOC environme

論文閱讀14+總結:Reinforcement learning approach towards effective content recommendation in MOOC environme

參考論文:Reinforcement learning approach towards effective content recommendation in MOOC environments

 

#論文筆記:Reinforcement learning approach towards effective content recommendation in MOOC environments#


MOOC推薦

LMS (Learning management system)學習管理系統: 通過web利用顯隱反饋去獲取更多資訊,是一種通用的方法

RILS (reinforcement learning system)包含強化學習的學習管理系統: 本文提出的系統,利用顯隱反饋獲得學習者資訊(學習者需求和能力資訊)去進行推薦。系統中的RILEngine利用了CRBL演算法。(與典型的RL基於state-action-reward不同)

CRBL(constructivist reward based learning algorithm):獲取學習者資訊的過程,並用資訊去決定推薦策略

RILS系統

介面層:(search query interface)

       得到學習者查詢資訊,傳入處理層

處理層:(Profile analyzer , RILEngine)

       Profile analyzer:接受查詢資訊和過去學習經驗,獲得學習者需求資訊

       RILEngine:基於CRBL演算法,獲取學生資訊並利用這些資訊得到推薦策略

資料層:(LRS,LOR)

       LRS:儲存學習者學習特定知識的資訊和學習經驗(學習者當前狀態資訊、學習過的課程(path)、在每一個learning instance下的學習者經驗、reward資訊)

       LOR:儲存並分類所有要推薦的內容,依據LOCAI [論文 9]進行小間隔形式表示

作者文中說了learning object,each learning instance,topic of learning path

topic

:是要學習的一大塊巨集觀概念(如人工智慧下的topic有概率論、矩陣論、凸優化、機器學習、神經網路、深度學習)

each learning instance :是topic下需要學習的課程,包含在topic下:不同老師不同學校的概率論課程有很多

learning object:要推薦的內容,具體哪個老師那個學校講的課程

對於整個系統的大致流程:

初始狀態:學習者完成課程註冊,學習者資訊中的元素(skill,preference,knowledge)有相同的權重

→隨著學習者進行the topics of learning path(人工智慧研究),在each learning instance(人工智慧下要學習的相關課程),最優策略(權重值)的確定是基於學習者採取的使狀態發生改變的動作生成的學習者經驗資訊。每個動作後學習者產生顯式的正負反饋,通過actual rating來反映

→CRBL演算法在每個狀態都預測使用者的評分為predicted rating(見下面流程)

→最後學習者表現performance通過測試得到,可以加強學生概念理解。我們利用actual rating和performance來區分兩種情形:

rating表示學習者是否喜歡這項推薦(preference)

performance表示學習者對於這項推薦是否能夠很好的理解(難度級別level)

rating 高,performance低:可以保留使用者的preference,推薦level低的以便學習者理解

performance高,rating低:找到使用者的preference進行任何級別的推薦(?別的偏好萬一不能很好理解概念了呢?

可能是所學的這門概率論課程講的太簡單,對應出的考驗能力的題目沒有很難,要針對這個概率論推薦更深入講解的課程

→在每一個learning instance(如概率論課程結束)結束後動態調整狀態的權重值來決定最優推薦。

→用狀態的權重值來找到候選的learning object(推薦的下一門課如矩陣論,推薦很多,按高低排序

→一旦使用者選用了learning object(矩陣論中一個特定老師的課程),就更新LRS裡面儲存的資訊

文中說明了使用者建模特徵含義,未說明具體如何進行表示(state)

 

agent:系統

state:學習者資訊(skill,preference,knowlege)

action:對於系統推薦的learning object的選擇

reward:當建議的learning object 被使用者採用,則計算獎勵值1/abs(actual-predicted rating)+1

CRBL演算法流程:

第一步:So(w1,w2,w3)為初始狀態,這裡作者實驗中設定為0.3,0.3,0.4

第二步:對於每一個topic t(人工智慧),依據關鍵字從LOR中獲取課程列表

              LOM是元資料資訊,如課程名等在LOR中進行過小間隔處理

第三步:分析LRS儲存的使用者資訊,得到學習者x的推薦策略Rx

              1、將學習者資訊(skill,preference,knowledge)進行語境分析(?具體分析了啥),並分析按reward值排列的learning instance(很多概率論課程

              2、增大可以最大化獎勵值的屬性

              3、另Rx為當前策略(可以最大化reward值,滿足學生需求)

4、依據滿足當前狀態值Sc的程度()預測推薦的learning object(特定學校老師的概率論課程,但這裡推薦了n個)的評分p=[p1,p2,..,pn],按從高到低排列

5、得到從學生那裡獲得的對於這些課程的評分a=[a1,a2,…,an]

6、對於學習者應用的learning object,更新學習者的引數以反映學習者的preference

7、計算reward值;r=1/abs(a-p)+1

第四步:更新LRS中的使用者資訊和Q表

              1、更新LRS中使用者資訊,包括狀態值,reward值

              2、更新Q值:(u這裡應該是動作,即使用者選的哪個課程

              3、更新Q表中的值