基于數(shù)據(jù)挖掘技術(shù)的保險(xiǎn)行業(yè)決策分析研究

時(shí)間：2024-07-22 17:20:27 計(jì)算機(jī)應(yīng)用畢業(yè)論文我要投稿

相關(guān)推薦

　　摘要:本文針對(duì)目前保險(xiǎn)行業(yè)信息管理的現(xiàn)狀,提出數(shù)據(jù)挖掘技術(shù)對(duì)保險(xiǎn)行業(yè)的重大影響,簡(jiǎn)要說(shuō)明了“保險(xiǎn)行業(yè)決策系統(tǒng)V1.0”項(xiàng)目及其對(duì)挖掘算法的改進(jìn)等。并通過(guò)實(shí)驗(yàn)論證了改進(jìn)算法的優(yōu)勢(shì),通過(guò)分析結(jié)果展示了數(shù)據(jù)挖掘技術(shù)能使保險(xiǎn)行業(yè)有效地利用現(xiàn)有數(shù)據(jù)實(shí)現(xiàn)經(jīng)營(yíng)目標(biāo),預(yù)測(cè)保險(xiǎn)業(yè)的發(fā)展趨勢(shì),進(jìn)而在激烈的競(jìng)爭(zhēng)中贏得先機(jī)。
　　關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)分析;Apriori
　　
　　1 引言
　　隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,各行各業(yè)積累的數(shù)據(jù)越來(lái)越多。日益劇增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢(xún)、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。
　　隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的發(fā)展,獲得某一行業(yè)有關(guān)資料已切實(shí)可行。而對(duì)于數(shù)量大、涉及面廣的數(shù)據(jù),依靠傳統(tǒng)的簡(jiǎn)單匯總、按指定模式去分析的統(tǒng)計(jì)方法無(wú)法完成對(duì)數(shù)據(jù)的分析。因此,一種智能化的信息分析技術(shù)——“數(shù)據(jù)挖掘”(Data Mining)應(yīng)運(yùn)而生。
　　數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。通過(guò)挖掘數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的大量數(shù)據(jù),從中發(fā)現(xiàn)有意義的新的關(guān)聯(lián)模式和趨勢(shì)的過(guò)程。數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。從而使企業(yè)在激烈的市場(chǎng)競(jìng)爭(zhēng)中獲得先機(jī)。就保險(xiǎn)行業(yè)而言,目前具有廣闊的市場(chǎng)需求。
　　
　　2 項(xiàng)目說(shuō)明
　　本項(xiàng)目開(kāi)發(fā)了“保險(xiǎn)行業(yè)決策系統(tǒng)V1.0”。本系統(tǒng)操作主界面利用ASP編程實(shí)現(xiàn):數(shù)據(jù)預(yù)處理、客戶(hù)購(gòu)買(mǎi)險(xiǎn)種分析、客戶(hù)購(gòu)買(mǎi)習(xí)慣分析、分析結(jié)果輸出等功能;后臺(tái)數(shù)據(jù)庫(kù)利用Sql Server 2005網(wǎng)絡(luò)數(shù)據(jù)庫(kù)實(shí)現(xiàn);挖掘工具采用SPSS Clementine 11.0;在研究實(shí)驗(yàn)階段,針對(duì)Apriori算法存在的“存儲(chǔ)復(fù)雜度”及“大量冗余規(guī)則”兩大缺點(diǎn)進(jìn)行了算法改進(jìn),通過(guò)利用一個(gè)模式樹(shù)結(jié)構(gòu)來(lái)降低Apriori算法的存儲(chǔ)復(fù)雜度,并同時(shí)減少冗余規(guī)則的出現(xiàn)。
　　本系統(tǒng)共分:數(shù)據(jù)預(yù)處理、客戶(hù)購(gòu)買(mǎi)險(xiǎn)種分析、客戶(hù)購(gòu)買(mǎi)習(xí)慣分析、分析結(jié)果輸出等主要功能模塊。
　　(1)“數(shù)據(jù)預(yù)處理”模塊包括:上傳、數(shù)據(jù)平臺(tái)、數(shù)據(jù)處理、統(tǒng)計(jì)、生成數(shù)據(jù)集等功能。
　　● 上傳:可完成保險(xiǎn)總公司下設(shè)所有分公司數(shù)據(jù)的上傳。
　　● 數(shù)據(jù)平臺(tái):在數(shù)據(jù)上傳前允許對(duì)數(shù)據(jù)平臺(tái)進(jìn)行選擇。
　　● 數(shù)據(jù)處理:對(duì)數(shù)據(jù)進(jìn)行清理、格式轉(zhuǎn)換等操作。
　　● 統(tǒng)計(jì):對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)進(jìn)行分析,提取有效性數(shù)據(jù)。
　　● 生成數(shù)據(jù)集:將統(tǒng)計(jì)過(guò)程提取的有效數(shù)據(jù)生成數(shù)據(jù)集,為數(shù)據(jù)挖掘提供較高質(zhì)量的數(shù)據(jù)源。
　　(2)“客戶(hù)購(gòu)買(mǎi)險(xiǎn)種分析”模塊包括:數(shù)據(jù)導(dǎo)入、參數(shù)設(shè)定、結(jié)果分析等功能。
　　● 數(shù)據(jù)導(dǎo)入:在此操作界面上,可通過(guò)選擇不同數(shù)據(jù)平臺(tái)將經(jīng)過(guò)“數(shù)據(jù)預(yù)處理”生成的數(shù)據(jù)集分別導(dǎo)入。
　　● 參數(shù)設(shè)定:在此操作界面上設(shè)定“支持度”“置信度”等參數(shù),對(duì)有效數(shù)據(jù)集中有分析價(jià)值的數(shù)據(jù)記錄范圍進(jìn)行篩選。
　　● 結(jié)果分析:在此操作界面上可將“客戶(hù)購(gòu)買(mǎi)險(xiǎn)種分析”的最終分析結(jié)果以“報(bào)表”、“圖表”形式展示,此分析結(jié)果為行業(yè)提供了“同一客戶(hù)購(gòu)買(mǎi)本公司多種(次)保險(xiǎn)”的客戶(hù)信息,進(jìn)而為行業(yè)提供了“可爭(zhēng)取客戶(hù)”的決策依據(jù)。
　　(3)“客戶(hù)購(gòu)買(mǎi)習(xí)慣分析”模塊包括:數(shù)據(jù)導(dǎo)入、參數(shù)設(shè)定、結(jié)果分析等功能。
　　● 數(shù)據(jù)導(dǎo)入:此操作同(2)“客戶(hù)購(gòu)買(mǎi)險(xiǎn)種分析”模塊中的“數(shù)據(jù)導(dǎo)入”。
　　● 參數(shù)設(shè)定:在此分別設(shè)定“輸入?yún)?shù)”(包括:年齡、性別、職業(yè)等客戶(hù)基本信息)及“輸出參數(shù)”(客戶(hù)購(gòu)買(mǎi)的險(xiǎn)種信息)。
　　● 結(jié)果分析:通過(guò)此操作界面可展示出客戶(hù)購(gòu)買(mǎi)習(xí)慣的分析結(jié)果,進(jìn)而為行業(yè)提供了“可保持客戶(hù)”的決策依據(jù)。
　　(4)“分析結(jié)果輸出”模塊包括:“客戶(hù)購(gòu)買(mǎi)險(xiǎn)種分析”“客戶(hù)購(gòu)買(mǎi)習(xí)慣分析”等分析結(jié)果的打印輸出功能。
　　
　　3 項(xiàng)目中改進(jìn)的快速算法
　　由于Apriori算法存在時(shí)間空間復(fù)雜度高及產(chǎn)生大量冗余規(guī)則兩大缺陷。因此本項(xiàng)目通過(guò)利用一個(gè)模式樹(shù)結(jié)構(gòu)來(lái)降低Apriori算法的存儲(chǔ)復(fù)雜度,并同時(shí)減少冗余規(guī)則的出現(xiàn)。
　　3.1 一個(gè)模式樹(shù)的結(jié)構(gòu)
　　root是一個(gè)標(biāo)為“null”的根結(jié)點(diǎn),root以下是作為根結(jié)點(diǎn)的孩子的項(xiàng)目前綴子樹(shù)集合,以及項(xiàng)目頭表組成;樹(shù)中的每一結(jié)點(diǎn)包含四個(gè)域user_id,count,node_link,node_next。其中,user_id為user的標(biāo)記(唯一標(biāo)識(shí)一個(gè)user),count為該父結(jié)點(diǎn)到達(dá)該結(jié)點(diǎn)的路徑的數(shù)目,node_link指向樹(shù)中具有相同的user_id的下一個(gè)結(jié)點(diǎn)的下一結(jié)點(diǎn),當(dāng)下一個(gè)結(jié)點(diǎn)不存在時(shí),node_link為null,node_next指向樹(shù)中其子結(jié)點(diǎn);項(xiàng)目頭表的每一表項(xiàng)包含三個(gè)域:user_id,count,head of node,user_id與樹(shù)中的定義相同,count為樹(shù)中所有相同user_id之和,head of node指向樹(shù)中具有相同user_id值的首結(jié)點(diǎn)的指針。
　　3.2 建立模式樹(shù)
　　算法如下:
　　設(shè)事務(wù)數(shù)據(jù)庫(kù)為A,其中的一個(gè)項(xiàng)集為Ai。
　　算法:Patterntree(tree,p),構(gòu)造模式樹(shù)
　　輸入:用戶(hù)事務(wù)數(shù)據(jù)庫(kù)A
　　輸出:用戶(hù)模式樹(shù)
　　Procedure Patterntree(T,p)
　　{create_ tree (T);//創(chuàng)建Pattern-Tree的根節(jié)點(diǎn),以“null”標(biāo)記
　　t=T; //t為當(dāng)前結(jié)點(diǎn)
　　While A<>null do
　　{讀入一個(gè)事務(wù)數(shù)據(jù)庫(kù)項(xiàng)集Ai
　　while p !=null
　　do
　　{if p.user_id==t的祖先n.user_id
　　then
　　{ n.count=n.count+l;
　　t=n;
　　 }
　　 Elseif p.user_id==T的孩子c.user_id
　　then
　　 { c.count=c.count+ l;
　　t=c ;
　　}
　　 else
　　insert_Patterntree(T,p) ;//把p作為新結(jié)點(diǎn)插入樹(shù)中,作為當(dāng)前結(jié)點(diǎn)的孩子結(jié)點(diǎn)
　　p=p.next;
　　}
　　}
　　}
　　3.3 對(duì)模式樹(shù)進(jìn)行剪枝
　　模式樹(shù)建立后,可能存在大量的冗余的分枝,為了保證數(shù)據(jù)挖掘結(jié)果不被這些冗余分枝產(chǎn)生的噪聲所影響,因此需要對(duì)樹(shù)進(jìn)行剪枝,剔除噪聲信息。
　　算法:SPT(Tree,a),通過(guò)調(diào)用此算法對(duì)模式樹(shù)進(jìn)行剪枝
　　//SPT為支持度模式樹(shù),即Supported Access Pattern Tree;a為項(xiàng)目頭表
　　輸入:模式樹(shù)PatternTree,Min_Sup(模式樹(shù)的最小支持度)
　　輸出:經(jīng)過(guò)修剪后的支持度模式樹(shù)SPT,模式B={bi|i=1,2,3……n｝
　　SPT(Tree,a)
　　{ i=1;
　　While(ai!= null) // 為項(xiàng)目頭表的某一項(xiàng)
　　{
　　if(ai.count>= Min_Sup)
　　then
　　 {
　　模式bi= ai.head of node ;

基于數(shù)據(jù)挖掘技術(shù)的保險(xiǎn)行業(yè)決策分析研究

　　 p= ai.head of node ;//p指向ai在模式樹(shù)中
　　的位置
　　While (p!= null and ai.count>= Min_Sup)
　　 {
　　查找p的前綴基,將p的前綴基和p連接,構(gòu)
　　成模式b;
　　if (bi.count>= Min_Sup)
　　then
　　{
　　 //bi.count 為模式b中p與p的前綴基中
　　的最小計(jì)數(shù)
　　在模式bi中保留p及其前綴基;
　　bi = bi. node_link
　　}
　　else
　　{
　　根據(jù)模式b中的p及其前綴基刪除
　　PatternTree中的相應(yīng)節(jié)點(diǎn),重構(gòu)子節(jié)點(diǎn)
　　與父節(jié)點(diǎn),同時(shí)修改項(xiàng)目頭表中的ai;
　　p=p. node_next//p指向在模式樹(shù)中的
　　下一個(gè)位置;
　　}
　　}
　　 }
　　else
　　{
　　修改項(xiàng)目頭結(jié)點(diǎn)的ai值;
　　刪除模式樹(shù)中相應(yīng)的節(jié)點(diǎn)及其前綴基,重構(gòu)父子
　　節(jié)點(diǎn);
　　i++;
　　}
　　}
　　}
　　通過(guò)模式樹(shù)的建立可以避免多次掃描事務(wù)數(shù)據(jù)庫(kù);同時(shí)利用count域有效的保留了項(xiàng)集的數(shù)目,避免大量產(chǎn)生頻繁項(xiàng)集,對(duì)于減小空間時(shí)間復(fù)雜度起到了一定的作用。通過(guò)樹(shù)形結(jié)構(gòu)可以避免產(chǎn)生大量冗余規(guī)則。
　　通過(guò)對(duì)模式樹(shù)的剪枝,可以減除在模式樹(shù)產(chǎn)生過(guò)程中產(chǎn)生的大量冗余分枝,起到了減小空間復(fù)雜度的作用,同時(shí)可以利用輸出模式B產(chǎn)生規(guī)則,避免了多項(xiàng)集的頻繁出現(xiàn),減小了時(shí)間復(fù)雜度。
　　
　　4 結(jié)束語(yǔ)
　　本項(xiàng)目中通過(guò)模式樹(shù)結(jié)構(gòu)改進(jìn)了Apriori算法,彌補(bǔ)了Apriori算法存在的缺陷。此種方法既能夠?qū)priori算法從時(shí)間復(fù)雜度和空間復(fù)雜度上進(jìn)行改進(jìn),同時(shí)又避免了中間規(guī)則的產(chǎn)生。本研究表明,通過(guò)利用一個(gè)模式樹(shù)結(jié)構(gòu)來(lái)降低Apriori算法的存儲(chǔ)復(fù)雜度,并同時(shí)減少冗余規(guī)則的出現(xiàn),這對(duì)于Apriori算法的改進(jìn)是一種有效的措施。
　　
　　參考文獻(xiàn)
　　[1]鄧納姆.數(shù)據(jù)挖掘教程[M].郭崇慧,田鳳占,靳曉明,等譯.北京:清華大學(xué)出版社,2005.
　　[2]蘇新寧,楊建林,江念南,等.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2006.
　　[3]GAL C S, KANTOR P B, SHAPIRA B. Security Informatics and Terrorism: Patrolling the Web. Amsterdam: IOS Press,2008.
　　[4]BORGES J, LEVENE M. Evaluating Variable Length Markov Chain Models for Analysis of User Web Navigation Sessions.IEEE Transactions on Knowledge and Data Engineering.2007,19(4): 441-452.

【基于數(shù)據(jù)挖掘技術(shù)的保險(xiǎn)行業(yè)決策分析研究】相關(guān)文章：

基于數(shù)據(jù)挖掘技術(shù)的交叉銷(xiāo)售分析12-08

基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)11-23

基于數(shù)據(jù)挖掘技術(shù)的現(xiàn)代物流管理03-25

基于愛(ài)好的電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究12-08

基于聚類(lèi)分析的數(shù)據(jù)挖掘方法03-08

HIS數(shù)據(jù)的挖掘統(tǒng)計(jì)對(duì)醫(yī)院管理決策的意義03-14

數(shù)據(jù)挖掘技術(shù)在ＣＲＭ中的應(yīng)用03-22

數(shù)據(jù)挖掘在財(cái)務(wù)決策中的應(yīng)用03-22

基于決策樹(shù)方法的員工素質(zhì)與績(jī)效關(guān)聯(lián)分析研究11-18