淺談基于web日志挖掘的網絡教學系統的設計與實現
論文關鍵詞:web日志挖掘 網絡教學 聚類
論文摘要:現有的網絡教學系統,雖然自身信息量極其豐富,但教師對學生的學習情況缺乏了解,無法滿足學生個性化的學習需求。Web日志全面記錄學生網上學習的行為,是解決問題的有效方法,文章設計并實現了Web日志挖掘系統,從中發現相似的學生群體,以及瀏覽興趣路徑,幫助教師及時調整站點結構提供寶貴的建議參考。
一、引言
針對某課程的網絡教學系統網站的服務器上每天記錄了大量的學生網上學習的行為記錄的,通過對Web日志進行挖掘可[1]以幫助任課教師了解哪些教學內容學生比較感興趣,網站的使用情況,根據發現的信息對網站結構進行改進,以吸引更多的學生來進行網上學習,提高網站的服務效率。
二、系統需求分析
基于以上的目的,以某職業院校的某課程的網絡教學系統為研究對象,設計并實現了Web日志挖掘系統,取得了較好的實驗效果。系統主要是對該網絡教學系統的日志數據進行采樣、預處理[2],然后運用基于選擇路徑和瀏覽頁面的`聚類算法對處理后的數據進行模式分析,獲得Web站點用戶的瀏覽興趣路徑和用戶聚類群。
三、系統功能模塊
系統的功能包含員和用戶兩部分。管理員主要是設置采樣時間、配置挖掘參數,修改網站拓撲結構信息;用戶主要是實施Web日志挖掘,進行用戶[3]識別、會話識別、事務識別、最后得到用戶瀏覽興趣路徑。
。ㄒ唬┕芾韱T功能
管理員主要是該網站的建設者以及該課程的實訓教師負責設置采樣時間、設置挖掘參數、添加網頁改變網站結構。
1.設定采樣時間:實現從大量的Web日志數據中選取基于配置文件中的采樣時間段的日志數據的功能,并將獲取該時間段的日志數據存儲到數據庫中。管理員通過修改配置文件更改采樣時間段(以天為單位)。
2.設置挖掘參數:挖掘參數包括會話超時時間、選擇路徑興趣度所占的權重wr、瀏覽頁面興趣度所占的權重wn、瀏覽興趣[4]路徑使用的閾值。會話超時時間前人實驗得到的經驗值為25.5分鐘,管理員可重新設定;選擇路徑興趣度所占權重與瀏覽頁面興趣度所占權重之和為1。默認設定為wr=0.5,wn=0.5,可進行更改。
3.調整網站拓撲結構:包括調整頁面順序,添加新的頁面,刪除過時的頁面等。
(二)普通用戶功能
普通用戶主要指該課程的任課教師、學生以及該系部的教務員。
1.用戶識別:依據規則從日志中識別不同用戶,并保存用戶訪問信息。主要有2個規則:第一,不同的用戶名(UserID)代表不同的用戶;第二,不同的IP地址代表不同的用戶。
2.會話識別:根據會話識別規則,對用戶數據進行會話識別,得到用戶一系列的會話數據。同時提供了基本的會話信息,如用戶的瀏覽路徑序列。會話識別后,將會話信息保存會話信息表中,以備事務識別使用。
3.事務識別:根據規則將用戶會話序列分割為事務,并將事務序列信息存儲事務信息表中,作為用戶聚類的數據輸入。
4.用戶聚類:依照聚類算法,把所有用戶劃分為不同的用戶群,并將用戶群信息存入用戶群表中,作為系統的最終數據。
5.瀏覽興趣路徑:找出用戶瀏覽興趣模式,同時得到瀏覽興趣路徑的相關信息,包括瀏覽興趣路徑序列。
四、系統結果分析
實驗以某職業院校網絡教學管理系統服務器上的日志為研究對象,搜集了8周的數據,作為系統的測試用例。從實驗結果中可以看到,瀏覽興趣路徑的長度一般不超過5。這就表示在設計教學網站時網站深度不要太深,避免給用戶訪問造成不便。從總體來看,學生瀏覽的路徑分為3大類,分別是查看作業、通知、課件。而教學大綱以及視頻查看的人寥寥無幾。本算法的執行時間與網站的URL數目n有關系,它的時間復雜度為O(n2)。因此在該網站中當不斷的增加新的頁面時,算法的執行時間也會隨之增加。當網站的頁面數目超過20時,該算法有待于進一步驗證。
參考文獻:
[1]胡迎松,寧海霞.一種新型的Web挖掘數據采集模型[J].工程與科學,2007,29(2):36-39
[2]陳峰.基于Web日志的用戶興趣聚類研究[D][碩士學位論文].合肥:合肥大學,2008
[3]任曉霞.一種Web日志數據挖掘系統的設計與實現[D][碩士學位論文].北京:北京郵電大學,2008
[4]胡可云,田鳳占,黃厚寬.數據挖據理論與應用[M].北京:清華大學出版社,北京大學出版社,2008
【淺談基于web日志挖掘的網絡教學系統的設計與實現】相關文章: