華南理工大學本科畢業設計開題報告
一、選題的背景及意義
近四十年來,傳統的確定性數據( deterministic data)
管理技術得到了極大的發 展,造就了一個數百億的數據庫產業。
數據庫技術和系統已經成為信息化社會基 礎設施建設的重要支撐。
在傳統數據庫的應用中,數據的存在性和精確性均確定 無疑。
近年來,隨著技術的進步和人們對數據采集和處理技術理解的不斷深入, 不確定性數據( uncertain data)
得到了廣泛的重視。
在許多現實的應用中,例如 經濟、軍事、物流、金融、電信等領域,數據的不確定性普遍存在,不確定性數 據扮演著關鍵角色。
傳統的數據管理技術卻無法有效管理不確定性數據,這就引 發了學術界和工業界對研發新型的不確定性數據管理技術的興趣。
由于不確定性數據的產生原因比較復雜(可能是原始數據本身不準確或是采 用了粗粒度的數據集合,也可能是為了滿足特殊應用目的或是在處理缺失值、數 據集成過程中而產生的),因此,不確定性數據的種類較多,例如關系型數據、半 結構化數據、流數據、移動對象數據等,相應地也出現了許多與數據類型緊密相 關的數據模型。
定義與應用場景相匹配的數據模型是不確定性數據管理的首要任務. 在不確 定性數據管理領域,最常用的模型是可能世界模型(possibleworld model)。該模型 從一個不確定性數據庫演化出很多確定的數據庫實例(稱為可能世界實例)
,而且 所有實例的概率之和為 1. 不確定性數據的種類較多,例如關系型數據、半結構化 數據、流數據、移動對象數據等,盡管存在許多與數據類型緊密相關的數據模型, 但是這些模型最終都可以轉化為可能世界模型. 其中,基于 xml 的不確定性數據建模的研究對象主要是半結構化數據模型。
半結構化數據模型( semistructured data model)
能有效描述缺乏嚴格模式結構的 數據。
半結構化數據通常可以用文檔樹來描述。
Dekhtyar 等人提出了一種管理 概率半結構化數據(probabilistic semistructured data)
的方法,該方法以關系數據庫 技術為基礎,支持豐富的`代數查詢。
更多的工作則是直接以文檔樹形式描述不確 定性半結構化數據,例如p2 文檔模型( p2document model)、概率樹模型,以及 PXML 模型 、Keulen 等人的概率樹模型、PrXML 模型等。
二、工作任務分析
我在小組中的研究部分是不確定性數據的模型。項目開啟后,我的工作與任 務可分解分以下幾個部分 1、學習與整理前輩們在不確定性數據方面的研究成果。這項目工作任務主要分三個階段進行。第一階段是廣泛地收集與了解不確定性數據的相關知識,了解不確定性數據的輪廓,知道相關的術語、概念,方便以后與別人作相關的交流。
第二階段是有針對性學習與理整理現有的不確定性數據模型方面的理論知識。這 一階段,要知道各種模型的概念、所針對不同種類的數據、以及它們優勢與不足 之處。第三階段是把精力放在不確定性數據研究的某種數據的模型上。
此階段要做到對相關的模型在較深入的理解,不單要知道他們的定義、優劣、具體應用情 況,還要理解它們在數學上表述、證明。
2、對現有的不確定性數據模型提出自己的見解。主要包括以下一系列的活動:
1)仔細研究現在模型的優點與不足之處;2)與其它組員(還有指導老師以及相 關的研究人員)交流看法,尤其是向其它組員了解在不確定性數據的存儲與查詢 方面算法知識,為優化工作提供依據與靈感。3)整理所收集到的不確定性數據模 型的資料。
三、調研報告
1 不確定性數據與xml 的發展史 實際上,針對不確定性數據的研究工作已經有幾十年歷史了。從二十世紀八 十年代末開始,針對概率數據庫(probabilistic database)的研究工作就從未間斷, 這類研究工作將不確定性引入到關系數據模型中去,取得較大研究進展。近年來, 針對不確定性數據的研究工作則在更廣的范圍之內取得更大的進展,即:在更豐 富的數據類型上處理更多種類的查詢任務。不確定性數據管理技術的典型框架包 含四大部分:模型定義、預處理與集成、存儲與索引、查詢分析處理。
可擴展標記語言XML(eXtensible Markup Language)〔1〕是一種簡單靈活的 文本格式的可擴展標記語言,起源于 SGML(Standard Generalized Markup Language),是 SGML 的一個子集合,也就是 SGML 的一個簡化版本,非常適合 于在 Web 上或者其它多種數據源間
進行數據的交換。隨著 Web 上數據的增多, HTML 的缺點越來越突出。W3C 的成員認識到,必須有一種方法能夠把數據本身 和數據的顯示分離開來,這樣W3C 在1996 年提出了XML 的概念。XML 不僅保 留了SGML 的很多優點,而且更加容易操作以及在World Wide Web 環境下實現。
1998 年,XML 成了W3C 的推薦標準。
2 不確定性數據的發展方向 在傳統數據庫的應用中,數據的存在性和精確性均確鑿無疑。近年來,隨著 技術的進步和人們對數據采集和處理技術理解的不斷深入,不確定性數據 (uncertain data)得到廣泛的重視。在許多現實的應用中,例如:經濟、軍事、 物流、金融、電信等領域,數據的不確定性普遍存在,不確定性數據扮演關鍵角 色。傳統的數據管理技術卻無法有效管理不確定性數據,這就引發了學術界和工 業界對研發新型的不確定性數據管理技術的興趣。針對不確定性數據的研究工作 則在更廣的范圍之內取得更大的進展,即:在更豐富的數據類型上處理更多種類 的查詢任務。
四、方案擬定與分析
1、采用由大到小,由淺入深的順序進行研究。
不確定性數據對于我來說,是比較新的東西。要想快速把握一樣新的東西, 并不斷深入,從整體上了解它的整個框架,是很重要的。這樣可以防止在研究的 過程中迷失方向,同時,從整體上把握了不確定性數據后,也可以更方便更有效 率地與別人進行交流,更有效地從網絡上檢索到有用的信息。
萬丈高樓平地起,把握不確定性數據的整體,就是為不確定性數據的模型研 究打基礎;A扎實,深入研究階段才能底氣。
五、畢業論文撰寫提綱
摘要Abstract
第一章 緒論
1.1 不確定性數據的背景
1.2 不確定性數據的管理框架
1.2.1 模型定義
1.2.2 預處理與集成
1.2.3 存儲與索引
1.2.4 查詢分析處理
1.3 不確定性數據的模型
1.4 建模的要求與挑戰
1.4.1 龐大的可能世界實例集合
1.4.2 新出現的維度———概率維
1.4.3 不確定性數據管理的理論問題
第二章 可能世界模型
2.1 可能世界模型的簡介
2.2 可能世界模型的舉例與說明 第三章 針對關系型數據的模型
3.1 Probabilistic ?-table 模型 3.2 Probabilistic or-set table 模型 3.3 Probabilistic or-set-?
Table 模型 3.4 Probabilistic c-table 模型 3.4.1 三個簡單的表達系統
3.4.2 Probabilistic c-table 第四章 針對半結構化數據的模型 4.1 p-document 模型 4.1.1 模型簡介 4.1.2 xml 4.1.3 模型定義的相關問題與解決方法 4.2 概率樹模型模型(probabilistic tree model 4.2.1 模型快照
4.2.2 模型的定義 4.2.3 模型的不足之處 4.3 PXDB 模型 4.3.1 PXDB 模型引入 4.3.2 模型定義 4.3.3 c-formulae 4.3.4 模型評價 第五章 其它模型
5.1 針對數據流的模型
5.1.1 針對數據流的模型
5.1.2 一個常用模型的定義
5.1.3 相關窗口的分類
5.2 針對多維數據的模型
5.2.1 關于OLAP
5.2.2 針對多維數據的模型
5.2.3 相關模型
第六章 總結
6.1 內容總結
6.2 展望 參考文獻 致謝
六、 實施計劃
設計總共用時3 個半月左右。
具體安排如下:
2010.3.1——2010.4.11 論文選題,收集資料,并完成開題報告初稿。
2010.4.12——2010.4.30 學習與整理不確定性數據的相關資料。
2010.5.1——2010.5.15 進入不確定性數據模型深入研究階段,并完成論文初 稿。
2010.5.16——2010.5.25 修改畢業論文 2010.5.26——2010.6.10 整理好材料,裝訂好論文,進行答辯準備。
指導教師意見:
簽 名:
年 月 日 備注:
1、要有10 篇以上相關文章的閱讀量。
2、理、工科開題報告撰寫不少于2500 字,人文社科開題報告不少于3500 字,包括論文選題 的背景和意義、工作任務分析、調研報告、方案擬定與分析、畢業論文撰寫提綱及實施計 劃、文獻綜述(理、工科可不提交文獻綜述)等。
3、電腦打印,用 A4 紙,頁邊距左邊 3。2cm,右邊 2。54cm,上下邊距 2。54cm,在左邊裝 訂;內容為小四號宋體,行距為固定值20 磅。
4、文獻綜述(按文獻綜述格式打。└皆陂_題報告后面一起裝訂。
【華南理工大學本科畢業設計開題報告】相關文章:
大學本科畢業設計開題報告10-16
大學本科生畢業設計開題報告11-05
畢業設計開題報告03-11
mv畢業設計開題報告11-27
排水畢業設計開題報告11-26
會計畢業設計開題報告11-26
廣場畢業設計開題報告11-26
文秘畢業設計開題報告11-25
路橋畢業設計開題報告11-25