- 相關推薦
淺談數據集市技術在高校信息管理中的應用
論文關鍵詞:數據倉庫:數據集市;AnlaysisServices(分析服務工具);OLd(聯機分析處理)
論文摘要:高校各類信息系統積累了大量的數據,亟待一種方法對其進行整合以更大限度的發揮其作用,文章針對高校特點提出了自底向上先建立數據集市,再集成為數據倉庫的解決方案,并針對西華師范大學學院利用SQLcSver2000建立了數據集市。
1引言
計算機技術已經在高校教學管理工作中廣泛應用,各種類型的信息管理系統在高校各部門都已建立,如學生管理系統、教務管理系統、教師信息系統等等,它們的開發和應用大大提高了工作效率。但是,各類信息資源分散在各個不同的部門,缺乏統一的管理和組織,雖然積累了大量的數據信息,可是功能只是局限于查詢等初級的應用,不能實現一些高級應用如:OLAP分析、數據挖掘等。對這些數據信息,巫待一種方法對其進行整合以更大限度的發揮其作用,這種方法就是建立數據倉庫。
自頂向下開發數據倉庫能最大限度地減少集成問題,是很好的開發方案。然而,數據倉庫項目龐大、結構復雜、物力投人大、開發周期長,并且很難使整個組織的共同數據模型達到一致,從而缺乏靈活性。所以,高校數據倉庫的建設應該采取漸進式、分階段、分步驟的策略一自底向上首先設計、開發獨立的面向一個院、系、部門數據集市,待成功后再建立所有院、系、部門的數據集市,最后集成為數據倉庫。這種方式靈活性大、花費又低,并且能快速見效,更適合高校的實際情況。
2數據倉庫的建立
對高校數據倉庫建立我們設計如下實現步驟(圖1):
(1)定義一個高層次的整體數據模型,在不同的主題和可能的應用之間,提供全局范圍的、一致的、集成的數據視圖。無論數據集市提供何種功能,都是數據倉庫的組件,要保證數據的組織、格式和架構在整個數據倉庫內保持一致。表的設計、更新機制或維度的層次結構如果不一致,可能會使數據無法在整個數據倉庫內重新使用,并可能導致由相同的數據生成不一致的報表。
(2)基于上述相同的整體數據模型,并行地實現獨立的院、系、部門數據集市和校級部門數據集市。
(3)構造分布式數據集市,通過網絡中心服務器集成不同的數據集市。
(4)集成為一個多層數據倉庫,這里,多層數據倉庫是所有倉庫數據的唯一管理者,數據則分布在一些依賴的各院、系、部門數據集市中。
(5)建立C/S模式通過網絡中心服務器為廣大的教學管理人員、教師、學生提供服務。開發OLAP分析和數據挖掘等高級的應用,為高校教學管理提供決策支持。
3數據集市實例設計
本文以西華師范大學計算機學院為研究對象,利用SQL Server 2000及Analysis Services構造了一個面向院、系、部門的數據集市。
3.1數據集市模型的設計
在決策分析時,需要從多個方面來分析一個主題,這就要求數據集市以多維數據集的方式來組織數據,以簡化OLAP分析,提高查詢性能。本文采用了雪花模型一將星型模型的維表進行分解,分解成多個具有層次關系的維表,建立多維數據集。分解維表的過程也就是對維表進一步標準化的過程。雪花模型是標準化的維表,粒度較低,增加了應用程序的靈活性,易于實現動態SQL生成,便于以后進行數據挖掘等高級應用(圖2)。
3.2建立數據準備區
數據準備區是數據中間存儲區,在這里從數據源中析取數據,將數據轉換為常用格式,檢查一致性和引用完整性,并裝人數據集市數據庫。使用獨立于數據源的數據準備區將原始數據同數據集市數據隔離開,可以提高數據集市的效率,保護數據集市的完整性,并且不影響數據集市執行支持客戶端訪問等主要功能。本文為數據準備區創建單獨的數據庫,包含創建數據表、視圖、索引,還包含從源數據系統中析取數據的進程,如數據轉換服務(DTS)包,以及關系數據庫中常用的其它元素。
3.3清理和轉換數據
對于構建數據集市或OLAP分析、數據挖掘等高級應用,都需要數據的正確性、一致性、完整性。而現有數據存在很多的問題,如:濫用縮寫詞、慣用語、數據輸入錯誤、重復記錄、丟失值等等。所以數據必須進行清理及格式化,并轉換為數據集市架構。本文把數據駐留在數據準備區完成清理和轉換,并且驗證數據的一致性,將數據轉換成常用格式以及合并代理鍵。在實際轉換中很多的數據需要執行手工操作協調數據的不一致或解決二義性文本字段輸人項。每次需要手工操作時,要試著確定一種方法來消除在以后的數據轉換操作中的手工步驟。這樣能夠修改源數據系統以消除起因,或者能建立自動化進程將未解決的數據留待以后手工異常處理,從而,大批的數據就可以裝人數據集市而不會因手工干預而耽擱。典型的數據轉換如:將多個名稱字段組合成一個字段;將日期字段劃分成單獨的年、月、日字段;將數據從一個表示法映射到另一個,如從TRUE到1和F人LSE到0;創建并應用維度表記錄的代理鍵。SQL Server 2000中提供Transact一 SQL查詢、DTS包、ActiveX腳本等工具可以有效地協助轉換數據。
3.4 OLAP(聯機分析處理)
OLAP是實現對數據高效率訪問分析的一種技術。它有很多優點,如:直觀的多維數據模型使用戶很容易就能選擇、瀏覽和研究數據;分析查詢為研究復雜的業務數據關系提供了強大功能;對頻繁查詢的數據預先進行計算,可以非?斓仨憫厥獠樵。數據集市基于多維數據模型,該模型將數據看作數據立方體形式,進行OLAP分析。數據立方體由維和事實定義,允許以多維的形式對數據建模和觀察。但是數據立方體由于可視化技術的限制,大多在理論上研究,很少有軟件能較好的實現。在Analysis Services使用了多維數據集的概念,代替數據立方體,在表現的形式上采用了嵌套表的形式以利于編程實現。多維數據集仍是把數據組織成多維,每維包含由概念分層定義的多個抽象層,緯度指分析的角度,度量值指分析的對象。利用Analysis Services的多維數據集瀏覽器,我們可以很方便的實現上卷、下鉆、切片和切塊、旋轉等OLAP操作(圖3)。
3.5多維數據集角色定義和權限分配
角色是Analysis Service。保護多維數據集內對象和數據安全的主要方法,它可以在多維數據集的不同粒度級別上定義安全性。基于需要,管理員可以在維度成員級別或數據單元級別上保護數據的安全,利用多維數據集角色定義哪些用戶或用戶組可以訪問和查詢多維數據集內的數據,如限制學生只能查閱自己的成績,不能查閱其他同學的成績。
3.6元數據的管理
元數據是關于數據屬性和數據結構的信息,也指用以界定對象(如多維數據集或維度)設計的信息。有了元數據,用戶就可以很快找到所需要數據或確認這些數據是否在數據集市中,從而更有效的利用數據集市。Analysis Services可以自動生成元數據,并通過SQL Server2000 Meta Data Services對其進行管理。
3.7在web上建立OLAP數據透視
向用戶提供數據訪問能力的Web應用程序,客戶端可以使用Web瀏覽器,而不必安裝、配置和維護特殊的應用程序。我們通過FrontPage組件建立直接在web上的應用。“插人/組件/office數據透視表”,通過Microsoft OLE DB Provider for OLAP Services 8 .0可以創建對應于任何ODBC兼容數據源的。LAP數據透視表視圖,通過“MS FrontPage:業務分析模式”結合“數據透視表屬性工具箱”建立分析模式,用戶可以在Web瀏覽器上,調整字段列表、數據屬性、顯示格式,以便以最合適分析角度的方式進行分析[’]。
3.8數據的更新
一些數據會不定時的更新,如經費開支,但是這些日常性的變化不需要存人數據集市,我們可以把數據更新的部分存人數據準備區。對于新生人校、學生畢業、的、教師的晉級等,一般每學期末才會,所以,我們的數據集市只需要在每學期末更新和整理一次。
4結論與展望
本文利用SQL Server 2000及Analysis Service建立了面向學院級的數據集市。通過運行,系統較好的解決了學院管理中的許多問題,充分顯示出數據倉庫管理的靈活、便捷和穩定等特點。這種結合高校特點,通過數據集市集成為數據倉庫的方法,最終可以發展成為高校管理決策支持的有力工具。
【淺談數據集市技術在高校信息管理中的應用】相關文章:
數據挖掘技術在CRM中的應用03-22
數據挖掘技術在企業知識管理中的應用03-19
研究數據融合技術及其在林業中的應用03-18
探析數據融合技術及其在林業中的應用03-18
淺析數據融合技術及其在林業中的應用03-19
淺談RTK技術在公路測量中應用問題03-19
淺談CAD技術在工程設計中的應用03-18
淺談安全技術在電子商務中的應用03-27
談數據挖掘技術在電子商務中的應用03-21