1. 程式人生 > >論文筆記12:Building Adaptive Tutoring Model using Artificial Neural Networks and Reinforcement Learning

論文筆記12:Building Adaptive Tutoring Model using Artificial Neural Networks and Reinforcement Learning

論文筆記12:《Building Adaptive Tutoring Model using Artificial Neural Networks and Reinforcement Learning》

參考文獻:Building Adaptive Tutoring Model Using Artificial ..._百度學術

圖片出不來,請參考我知乎同文連線:https://zhuanlan.zhihu.com/p/39623091

 

 

 


Abstract

隨著新技術支援的學習環境出現(例如,mooc,移動edu遊戲),高效的輔導機制仍然與傳統的智慧輔導系統相關。本文提出了一種利用人工神經網路和強化學習來構建輔導模型的方法。基本的想法是,輔導規則可以是,首先,通過觀察人類導師的行為,然後在執行時,通過觀察每個學習者在學習過程的不同狀態下的學習環境中如何反應,從而學習。利用最優發展區基礎理論來評價學習經驗的有效性和效率。

Introduction

人工智慧的方法和工具已經嵌入到傳統的計算機輔助教學導師中,以增加智慧決策能力。從本質上講,在一個給定的學習環境,一個智慧輔導系統(ITS)旨在通過監控學習者的互動來模擬人類的導師的行為。

ITS通過導航有序學習活動,識別情況反饋,提供適當的個性化的提示,以更好地支援個人學習需求[1]。這種系統可以實時改變其輔導行為,遵循個體學習者的策略和行為的差異。它的行為可以通過考慮外部迴圈和內部迴圈來描述。特別地,本文討論的是外部迴圈,它為學習者提供了不同難度的動態序列(通常是解決問題的方法)。

預設的行為是,如果成功執行了下一個任務,那麼下一個任務就會比前一個任務更大。然而,如果學習者的結果是負面的,那麼它就可以提供一個難度更低的任務,或者提出一個具有相同難度的任務,但是是另一個學習內容。

通常,ITSs利用列夫維果斯基提出的最優發展區(ZPD)理論。ZPD可以從認知和情感的角度來描述。從認知的角度來看,提議的任務不應該太難或容易;從情感的角度來看,學習者應該避免極端的無聊和困惑和沮喪。無聊和困惑都可能導致分心、沮喪和缺乏動力。

當然,每個學習者的最佳條件是不同的,在不同的學習環境和環境中,對於同一個學習者也是不同的。

通常,一個學習者的ZPD,與給定的學習環境相互作用,是由一個狀態空間圖來表示的,它說明了學生在任務難度的空間和學習者不斷髮展的技能水平之間的軌跡。沿著軌跡的進展不一定是線性的。

-----------------------------舉例說明

例如,圖1描述了兩個不同學習者的ZPDs。ZPDs是圖1(a)和圖1(b)的兩條虛線之間的區域。

因此,ZPD根據每個學習者對無聊和困惑的容忍程度不同。一個學習者在她自己的ZPD中展示了高效和有效的學習。隨著新技術支援的學習環境的出現(如mooc、移動edu遊戲、增強現實玩具、能力開發工具4),高效和有效的輔導機制仍然與傳統的ITSs相關。這項工作提出了一種建立輔導模式的方法,特別是在與學習環境的互動過程中,選擇下一個任務困難來保持學習者在她的ZPD中。本文提出了一種新穎的方法,既考慮了人類導師的能力/經驗,又考慮了個體學生的ZPDs。

Overall approach,整體方法

提出的方法是基於人工神經網路(ANN)與強化學習演算法(RL)的結合。這種方法的目的是為學習者提供一個智慧助手,能夠選擇下一個任務難度等級,以使他們保持在特殊的ZPD中。建議的方法側重於下一個任務選擇(NTS)規則的生成和改編。這種方法(見圖2中的示意圖)由兩個主要階段組成,

模型的目的是在每個任務結束時,決定下一個任務的適當難度水平。一個合適的選擇是提供一個難度等級需要產生NTS(下一任務選擇)規則,使學習者能夠保持他們的ZPDs。

模型步驟

第一階段是通過批處理,ANN通過學習人類導師行為來決定下一個任務難度等級。(建立在導師的經驗和能力基礎上的模型,並不能直接解決與學習效率相關的問題,在第二階段上得到改進,建立在一個特定的學習者行為上)

第二階段是通過強化學習處理來自特定學習者的互動的實時資料。建立在一個特定的學習者的行為上,以便考慮到她的ZPD。因此,該系統學習如何在一個特定的學習者保持她的ZPD中

圖3顯示,在第1點,只有一個輔導動作(增加兩個單位當前的難度)可以再次將學習者推入ZPD。所以適當的學習難度,即決定的動作行為,可以保持ZDP

Data gathering and preprocessing資料收集和預處理

資料集:

3個5-6年的學習者在平臺上的互動行為

一個教育遊戲應用程式(在Android平板上執行)

由專家(人類)老師為這些學習者提供的導師的行為。

觀察是在多個會議上收集的,涉及到幾個學習者和導師。

----------------------------------------------------------------------------

雖然在以前的工作8中使用了相同的方法來學習反饋和提示的規則,但是現在的工作重點是挖掘NTS規則。

遊戲是在問題(任務)中組織的,每個問題都可以通過正確執行一系列步驟來解決。

在每一步的最後,導師會通過提供反饋、提示或其他輔導措施來回應學習者的答案(如告知答案解題思路或題目解答正確與否);在每項任務結束時,導師會選擇下一個任務,由學習者來挑戰。因此,痕跡代表了學習者的觀察和人類導師的行為。跟蹤觀察值已經被預處理,以便分析與任務相關的不同步驟的任務。

因此,預處理的資料集被格式化為表I中報告的格式,特別是,nexttaskdifficulty欄位包含一個符號,表示由導師提供的NTS操作。

≡符號代表,下一個任務將有相同的困難的,

≻符號代表,下一任務有一個增量的難度(對當前任務),

≫符號表示,下一任務有增量2的難度水平(對當前任務),

≺符號表示,下一任務有一個減量的難度(對當前任務),

Learning tutoring rules by ANN(實驗中ANN規則)

這個階段是資料集是預處理獲得資料。NTS規則重新定義為一個分類問題。

主要的想法是通過ANN學習人類導師行為(即處於某一個狀態時,與學習者進行的互動行為)構建分類模型

下一個任務難易程度的可接受值成為問題的目標類。

輸入層接收7個值,輸入值對應於表I的前七個欄位,啟用函式relu

輸出層生成5個值。輸出由五個元素的向量編碼,這些元素編碼了5個難度欄位,輸出層的啟用函式是softmax。

ANN在交叉熵的情況下接受訓練,學習率為=0.01,用Adam演算法對損失函式進行隨機梯度下降優化。學習者與一個任務相互作用,反過來,它收集的互動資料成為NTS模型的輸入,從而預測下一個任務的困難。

ADAPTATION APPROACH FOR TUTORING RULES 輔導規則的適應方法

人類導師的行為是高度適應的。

事實上對於tutor:

1)估計ZPD和學習者與學習環境互動的當前狀態,

2)決定向學習者提出的下一個任務,

3)向她提交這樣的任務。

NTS模型無法實現決策,可以採用強化學習(RL)。這個想法是在一個特定的任務中收集學習者的適應度表現,並將其與之前的輔導行動聯絡起來。在上一項任務結束時由自動導師執行的NTS動作。因此,我們的想法是使用RL,考慮一個自動代理,它學習如何在每個狀態中選擇最合適的動作(下一個任務難度級別),使學習者保持在ZPD中。為了說明代理是如何根據其經驗改變其策略的,可以採用Sarsa演算法,通過執行-貪婪選擇來進行開發和開發。

experiment

執行三個實驗(觀察三個學習者),以證明從人類導師的經驗(由ANN學習)中獲得的輔導行為可以通過考慮學習者的反饋(RL演算法獲得和使用)來進行調整。

在每一個實驗中,都選擇了一個特定的狀態。然後,彙總組從這種狀態開始的學習者行為。通過這種方式,我們可以理解RL演算法是如何通過考慮學習者的ZPD來適應輔導規則的。第二個實驗上,ANN預測下一行為是保持當前難易程度,但是RL演算法得到要保持舒適度應該增加一增量難度。特別地,在三次迭代之後,權重分別為-0.01和0.1。在6次迭代之後,保持難易動作沒有選中,權重是-0.01和0.27。最後,在9次迭代之後,會有更多的選擇,因此權重是-0.05和0.35。因此,該系統在幾個步驟中實現了對NTS規則的穩定適應。

 

conclusion

該方法將單層感知器與Sarsa演算法整合在一起,以學習和適應ITSs的下一個任務選擇規則。這種方法的主要優點是將人類導師的能力與同樣的導師在觀察和分析學習者行為、預測她的ZPD並調整他們的輔導策略時所做的適應相結合。

 

個人理解:ANN與RL分開進行