- 相關推薦
基于聯結主義的連續記分IRT模型的項目參數和被試能力估計
與經典測驗理論相比,項目反應理論(簡稱IRT)由于具有參數不變性、能進行計算機化自適應測驗等優點而受到歡迎,但是也存在著不少問題,首先是目前比較成熟的、得到廣泛應用的IRT軟件,如BILOG、MicroCAT等,主要是運用極大似然法或貝葉斯方法進行項目參數和被試能力估計,一般都只能處理二值記分的項目,也有少數軟件可以處理等級記分的項目,例如MULTILOG,但對于連續記分的項目還缺少估計方法和工具;其次是在運用BILOG、MicroCAT和MULTILOG等軟件時往往需要數百人的大樣本,而對于小樣本則缺少有效的估計方法,因此需要另尋途徑來解決這些問題。
2 聯結主義理論中的級連相關模型
聯結主義理論(或稱人工神經網絡)是近年來得到廣泛關注的認知心理學理論,它一方面可以用來模擬人的認知活動,探討人類的信息加工機制,另一方面可以作為一種工具來分析系統的輸入和輸出之間的關系,特別是當系統的輸入和輸出之間難以用顯性的數學方程表示時,聯結主義模型就可以通過其本身的學習功能,在用一組已知的輸入和輸出數據對它進行訓練以后,就可以在一定程度上掌握了該系統內部的輸入和輸出之間的關系,即建立了某種模型。如果我們再給這個經過訓練的網絡模型以新的輸入,那么它就可以給出相應的輸出值。因此,人們可以利用聯結主義模型的這種性質來進行預測和參數估計等活動。
聯結主義模型通常由一個輸入層、一個輸出層和若干個隱含層組成,每一層中含有若干個結點,一個模型中所含的隱含層數目和各層所含結點數目,是由具體問題的性質和復雜程度來確定的。各個結點之間的聯結具有一定的權重,它的大小反映了相鄰兩個結點之間相互影響的程度,在模型被訓練的過程中,各結點間的權重得到了調整。
聯結主義模型通常可以分為靜態型和動態型兩種,靜態型模型的拓撲結構是實驗者在一開始的時候就設計好的,它的訓練過程就是調節各結點之間的權重。動態型模型的拓撲結構是在訓練過程中不斷變化的,它能夠隨著訓練的進行,自動地加入新的隱含結點,同時也調整各結點間的聯結權重,這樣就可以更快地減少訓練誤差。
級連相關模型是動態型聯結主義模型中的一種,它的計算精度較高,運算速度較快。在開始訓練時,該模型只有輸入層和輸出層,處于最小拓撲結構。隨著訓練過程的進行,它能夠根據需要自動地逐個加入隱含結點。該模型的訓練分為輸出和輸入兩個階段交替進行,首先是輸出階段,在這一階段,模型對聯結隱含結點和輸出結點間的各權重進行調整,直到誤差不再減少為止;然后轉至輸入階段,在這一階段,模型對于聯結輸入結點和候選隱含結點間的各個權重進行調整,并從中選出其輸出變量和網絡的誤差變量間相關為最大的候選隱含結點,把它裝入網絡,這樣使得每次裝入的新隱含結點都能最大程度地影響誤差的變化。然后再轉至輸出階段,這個過程不斷重復,直到達到預定的訓練精度。在本研究中,由于無法事先確定模型的拓撲結構,以及為了較快地對模型進行訓練和達到較好的訓練和測試效果,采用了級連相關模型作為研究的工具。
3 連續記分IRT模型
連續記分IRT模型是二值記分IRT模型的擴展,即它的記分不是按照二值邏輯的全對或全錯的方式來進行,而是根據被試答對項目的程度來進行記分,如果全對該題目就得滿分。由于各題目的滿分值不一樣,有的是3分、5分、6分或更高的分數,為了統一起見,可以對它們進行歸一化處理,全部轉化為0至1的值。這樣就可以和下面的三參數邏輯斯諦模型中的P(θ)相一致。Samejima、Muller和Mullenbergh等都對連續記分IRT模型進行過研究,它和二值記分模型一樣,可以用正態卵形模型和邏輯斯諦模型表示。對于常用的三參數邏輯斯諦模型,它的表示式為:
P(θ)=c (1-c)exp(θ-b)]/{1 exp(θ-bi)]}
在該模型中,式中的ai、bi和ci分別為第i個項目的區分度、難度和猜測參數,θ為某個被試的能力,P(θ)為該被試答對第i個項目的概率,它的值為0至1,這是一個連續的值。
雖然有些學者對于該模型進行了一些研究,但是他們的研究還只是涉及該模型的性質、信息函數的定義、參數不變性等方面,在具有實用意義的參數和被試能力估計方面還沒有成熟的結果。
為了對連續記分IRT模型的參數估計問題進行研究,作者對目前常用的幾個IRT軟件的算法進行分析,發現它們的共同特點都是運用統計的方法來進行參數估計,都無法對小樣本情況下的IRT連續記分模型進行參數估計,于是作者就決定另辟捷徑,在本研究中采用了和常用統計技術完全不同的聯結主義模型(人工神經網絡)方法。運用統計方法不能完全解決的問題,并不意味著用其它方法就不能解決,其關鍵問題是常用的統計參數估計方法大多是建立在線性模型的基礎上的,而被試的反應和IRT中參數之間的關系是非線性的,因此在運用統計方法進行參數估計時,要采用大樣本才能得到較好的結果。而人工神經網絡的輸出和輸入之間的關系本身就是非線性的,特別值得一提的是,本研究把人工神經網絡的激活函數設計為S型的Sigmoid函數,它的表達式為
f(x)=exp(x)/
它和上述的三參數邏輯斯諦模型的表示式非常相似,仔細比較一下,就可以看出它實際上就是IRT模型在c=0,b=0,1.7a=1,θ=x時的特例,因此聯結主義模型(人工神經網絡)的這種輸出和輸入之間的非線性結構就可以較好地處理IRT中相類似的數據關系。
4 計算機模擬實驗的設計和實施
該實驗的基本思想是:把一組被試對于一組項目的反應矩陣作為級連相關模型(以下簡稱為神經網絡)的輸入,這組被試的能力θ或該組項目的參數a、b和c作為該模型的輸出,并且用這些輸入和對應的輸出值對該神經網絡進行訓練,經過訓練的網絡就具備了估計θ,a,b或c的能力。當輸入一組新的反應矩陣時,該網絡就可以輸出所需的被試能力或項目參數估計值。本實驗是用計算機模擬方法來考察運用這種方法得到的估計值和真實值之間的誤差是否能夠達到相當小的程度。
4.1 實驗步驟的設計
整個實驗分以下幾個步驟進行:
(1)運用蒙特卡羅方法產生一組均勻分布的被試能力值θ,一組均勻分布的項目參數值(包括項目區分度a、項目難度b和項目猜測參數c)。被試能力值θ的分布范圍為,項目區分度a的分布范圍為,項目難度b的分布范圍為,項目猜測參數c的分布范圍為。
(2)根據項目反應模型,讓各個模擬的被試回答各個模擬的項目,產生反應矩陣。
(3)將該反應矩陣作為神經網絡訓練模式的輸入部分,用所要學習的項目參數或被試能力作為訓練模式的輸出部分。若要估計被試的能力,就把反應矩陣中的每一行作為一個模式,因為它恰好是一個被試對于一組項目的反應;若要估計項目參數,就把反應矩陣中的每一列作為一個模式,因為它反映了每一個項目被解答的情況。
(4)用上述訓練模式對一組神經網絡進行訓練,直至達到預定的精確度為止。在本研究中為了統計上的方便,對30個神經網絡進行了訓練,預定的精確度為網絡的目標值和實際輸出值之間的誤差小于0.001。
(5)用經過訓練的神經網絡來估計被試能力和項目參數。在本研究中需要估計的被試能力和項目參數的真實值實際上是用蒙特卡羅方法產生的,因此可以計算出估計值(實際輸出值)和真實值的誤差,稱為測試誤差,并用下式表示:
附圖
式中,T為每個測試模式的每個輸出結點的目標值。N為每個測試模式的每個輸出結點的實際輸出值。p是測試模式的數目,o是輸出結點的數目。根據測試誤差E的大小,可以看出經過訓練的神經網絡是否真正可以對項目參數和被試能力進行很好的估計。
4.2 預備實驗
由于在正式對神經網絡進行訓練以前,對于要用什么樣的模式來訓練沒有任何先驗的知識,為此先進行預備實驗。和正式實驗的步驟一樣,首先運用蒙特卡羅方法產生25個被試對15個項目的反應矩陣,用這一矩陣和相應的被試能力或項目參數組成4組訓練模式,分別用以估計θ,a,b和c。在對被試能力進行估計時,將矩陣的行作為一組神經網絡訓練模式的輸入部分,因為矩陣的一行數據就代表了一個被試對所有項目的反應;相應被試的θ值作為訓練模式的輸出部分,因為它代表了被試的能力值。在對項目參數進行估計時,將矩陣的列作為一組神經網絡訓練模式的輸入部分,因為矩陣的一列數據就代表了所有被試對一個項目的反應;相應項目的a,b或c值作為訓練模式的輸出部分,因為它代表了項目的參數值。就用這些訓練模式分別對4組神經網絡進行訓練,這4組神經網絡分別對應于被試能力和項目的三個參數,每組有30個網絡。然后,再用蒙特卡羅方法產生另外25個被試對另外15個項目的反應矩陣,并用已經訓練過的網絡對這個反應矩陣估計θ,a,b和c,記錄下測試誤差。其結果表明,雖然可以進行被試能力和項目參數的估計,但誤差較大,無法達到實際應用的精確度。根據神經網絡訓練的一般規律,估計出現這一情況的原因有兩條,一是訓練模式太少,二是訓練模式和測試模式之間沒有任何聯系,即沒有用“錨題”或“錨人”把它們聯系起來,改進的方法可以是增加訓練模式,或運用一定的“錨題”或“錨人”方法,在本研究中先用“錨題”的方法進行試驗(具體方法在進行正式實驗時詳述),試驗的效果很好,然后進行下面的正式實驗。
4.3 正式實驗
(1)步驟1:產生訓練矩陣和測試矩陣
運用蒙特卡羅方法產生25個被試(稱為第一組被試)對45個項目(稱為第一組項目)的反應矩陣(稱為第一矩陣),這一矩陣在下面的實驗中將作為測試矩陣;從該45個項目中隨機取出15個項目(稱為第二組項目),再用蒙特卡羅方法產生另外25個被試(稱為第二組被試),令它們和上述隨機取出的第二組項目起反應,產生另一個反應矩陣(稱為第二矩陣),用它作為訓練模式的一部分,由此可見,訓練矩陣和測試矩陣之間有15個項目作為“錨題”,如下面圖1所示。
附圖
圖1 被試、項目和反應矩陣
圖1中的第三組項目和第三矩陣將在下面作解釋。
(2)步驟2:建立能力訓練模式
用“第二矩陣”中的每一行作為一個模式的輸入,其相應的25個第二組被試的能力值作為輸出,組成能力訓練模式,對一組神經網絡(共30個,稱為第一組神經網絡)進行訓練。
(3)步驟3:建立能力測試模式并進行測試
將“第一矩陣”中的每一行作為一個模式的輸入,相應的第一組被試的25個能力值作為輸出,組成能力測試模式,用上述經過訓練的第一組神經網絡對其進行測試。這時,實際上是神經網絡對第一組被試的能力值進行估計。然后,將估計值和真實值進行比較,記錄下測試誤差,如表1左邊第1列所示,要注意的是,表中記錄的是30個網絡的測試誤差實際值,根據公式可見,它是所有輸出結點和所有測試模式的誤差總和。由于本研究中只有一個輸出結點,有25個測試模式(因為有25個被試),因此要將表中的測驗誤差實際值除以25,得到對單個測試模式的測試誤差,然后,再計算其平均數M和標準差SD,結果如表2所示,可以看出測試誤差是比較小的。由此可見,當測試模式中有部分項目(本例中為15個項目)和訓練模式相同時,經過訓練的神經網絡可以對被試的θ進行很好的估計。應該指出的是,測試模式和訓練模式中沒有被試是重復相同的,這說明經過訓練的神經網絡確實可以對新的被試進行能力估計。
表1 測試誤差
θ a b c
0.129 2.239 2.982 0.065
0.084 1.843 2.976 0.056
0.243 2.016 2.798 0.069
0.324 1.804 2.133 0.058
0.126 2.159 2.556 0.027
0.201 2.224 2.399 0.067
0.288 2.246 2.617 0.043
0.114 1.741 2.834 0.065
0.189 1.937 2.347 0.076
0.249 2.295 2.745 0.092
0.264 2.319 2.433 0.065
0.321 2.382 2.030 0.044
0.105 2.136 2.231 0.093
0.132 2.061 2.244 0.023
0.153 2.019 2.868 0.068
0.279 2.270 2.042 0.044
0.204 2.196 1.850 0.099
0.102 1.950 2.597 0.059
0.105 1.732 1.709 0.089
0.282 1.764 2.328 0.072
0.228 2.281 2.556 0.114
0.256 2.089 1.961 0.071
0.222 2.445 2.002 0.093
0.210 1.666 2.243 0.035
0.138 1.743 2.441 0.075
0.201 2.438 2.034 0.080
0.171 1.740 2.100 0.106
0.246 2.307 2.594 0.069
0.195 1.577 2.535 0.057
0.213 2.436 2.199 0.057
下一頁
【基于聯結主義的連續記分IRT模型的項目參數和被試能力估計】相關文章:
有關EMS的最優線路參數估計模型03-01
基于最小二乘模型的Bayes參數辨識方法03-07
母體為指數分布的參數估計和檢驗03-07
HF信道復包絡參數估計法原理11-22
均勻分布的參數估計與假設檢驗問題05-14