- 相關推薦
試析決策樹算法在教育統計學中的應用論文
數據挖掘就是從大量的不完全的有噪聲的模糊的隨機的實際應用數據中,抽取隱含在其中的、事先并不知道的、但又是潛在有用的信息和知識的過程。
決策樹算法作為常用的數據挖掘技術之一,其基本思想是將實例庫中記錄的大量有限的具體事實數據進行歸納和分類并建立樹型結構,以發現并形成隱含在大量實例中的若干形式化的分類判別規則,典型的決策樹算法方法有ID3方法和IBLE(Information—based Learning from Example)方法。
利用決策樹評估教材質量的基本思想
筆者以高校教學質量建設中的重頭戲——教材建設為例來闡釋決策樹算法在教育統計學中的應用。
從教材的教學水平,科學水平等兩大要素來對教材的質量進行合理分類,探索出科學合理的決策樹的模型,使之成為學校教材建設管理的理論方法,并在今后的教材管理中起著一定的指導作用。
教學水平:教材符合人才培養目標及本課程教學的要求:取材合適、深度適宜、份量恰當;符合認知規律;富有啟發性;便于學習。
科學水平:能反映本學科國內外科學研究和教學研究的先進成果;能完整地表達本課程應包含的知識;反映其相互聯系及發展規律;結構嚴謹。
構建決策樹模型
即利用訓練集(教材建設數據庫)建立并精化一棵決策樹。該過程可分為建樹和剪枝兩階段。其中,建樹是用每一個屬性將訓練集劃分成一個或多個子集,遞歸地調用該過程,直到每個子集中的記錄都屬于同一類,最終得到決策樹。剪枝是為提高樹的精度及分類效率,而去掉因訓練數據中的噪聲和孤立點等引起的不可靠或可能是噪聲的一些枝條。
利用決策樹研究影響教材質量的因素
首先,將學生問卷調查數據庫和教學管理部門所掌握的資料結合起來,分類整理,同時進行規范化的數據清洗,得到創建決策樹模型的訓練集,如表1所示。
根據評估預期的要求,將所有教材的評估結果分為兩類:
Class p:綜合評價=“優秀”
Class n:綜合評價=“一般”
從上表顯示的數據可知,綜合評價為“一般”的教材有9種, 綜合評價為“優秀”的教材有6種,從而可以計算出樣本分類的期望信息:
—∑Pi log2(pi)=
I(p,n)=I(9,6)= —[(9/15)×log2(9/15)+6/15×log2=(6/15)]
=—(—0.444—0.53)=0.974
下面以綜合評價是否為“優秀”作為衡量標準分別計算由各個屬性劃分子集的信息熵,以及各自的信息增益度。
計算“教學水平”的信息增加益度
從而算出信息熵E(教學水平)=
I(3,1)+I(3,2)+I(0,3)+I(0,3)=0.43
再計算出其信息增益度
GainI(p,n)—E(教學水平)=0.974—0.507=0.467
計算“科學水平”的信息增益度
計算信息熵E(科學水平)=I(2,1)+I(3,2)+I(1,6)+I(0,0)—0.783再計算出其信息增益度GainI(科學水平)=I(p,n)—E(科學水平)=0.974—0.783=0.191
計算“教材編者職稱”的信息增益度
從而算出信息熵E(教材編者職稱)=I(4,1)+I(2,1)+I(0,4)+I(0,3)=0.424再計算出其信息增益度GainI(教材編者職稱)—I(p,n)—E(教材編者職稱)=0.974—0.424=0.55
計算“教材編者學歷”的信息增益度
計算信息熵E(教材編者學歷)=I(3,1)+I(3,3)+I(0,5)=0.667再計算出其信息增益度GainI(教材編者學歷)=(p,n)—(教材編者學歷)=0.974—0.667=0.307
由此可以得知“教材編者職稱”的信息增益度最大,它是最能區別訓練集實例中教材質量的屬性,應作為決策樹的根節點。根據各個屬性的信息增益度的大小,可以構建該訓練集實例的決策樹如下圖1所示:
由該決策樹可以得出諸如以下結論:
教材編者職稱的高低程度(也可以說是教學經驗的豐富程度)很大程度上影響著教材的質量,教材的教學水平的優劣程度對教材質量的影響程度次之,教材編者的學歷和教材的科學水平也在相當程度上影響教材的質量。
【試析決策樹算法在教育統計學中的應用論文】相關文章:
粗決策樹動態規則提取算法研究及應用03-17
教育游戲在幼兒教育中的應用論文05-23
教育技術中教學實踐應用論文11-30
MCMC算法在MIMO系統檢測中的應用03-07
賞識激勵教育在音樂教學中的應用論文11-20
論音樂在幼兒教育中的應用論文11-30
決策樹在基于消費者外表的服裝營銷中的應用03-26
遺傳算法及其在求解TSP中的應用03-07