- 相關推薦
基于數據挖掘技術的保險行業決策分析研究
摘要:本文針對目前保險行業信息管理的現狀,提出數據挖掘技術對保險行業的重大影響,簡要說明了“保險行業決策系統V1.0”項目及其對挖掘算法的改進等。并通過實驗論證了改進算法的優勢,通過分析結果展示了數據挖掘技術能使保險行業有效地利用現有數據實現經營目標,預測保險業的發展趨勢,進而在激烈的競爭中贏得先機。
關鍵詞:數據挖掘;關聯分析;Apriori
1 引言
隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,各行各業積累的數據越來越多。日益劇增的數據背后隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。目前的數據庫系統可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識手段,導致了“數據爆炸但知識貧乏”的現象。
隨著計算機及網絡技術的發展,獲得某一行業有關資料已切實可行。而對于數量大、涉及面廣的數據,依靠傳統的簡單匯總、按指定模式去分析的統計方法無法完成對數據的分析。因此,一種智能化的信息分析技術——“數據挖掘”(Data Mining)應運而生。
數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。通過挖掘數據倉庫中存儲的大量數據,從中發現有意義的新的關聯模式和趨勢的過程。數據挖掘是一種新的商業信息處理技術,是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。從而使企業在激烈的市場競爭中獲得先機。就保險行業而言,目前具有廣闊的市場需求。
2 項目說明
本項目開發了“保險行業決策系統V1.0”。本系統操作主界面利用ASP編程實現:數據預處理、客戶購買險種分析、客戶購買習慣分析、分析結果輸出等功能;后臺數據庫利用Sql Server 2005網絡數據庫實現;挖掘工具采用SPSS Clementine 11.0;在研究實驗階段,針對Apriori算法存在的“存儲復雜度”及“大量冗余規則”兩大缺點進行了算法改進,通過利用一個模式樹結構來降低Apriori算法的存儲復雜度,并同時減少冗余規則的出現。
本系統共分:數據預處理、客戶購買險種分析、客戶購買習慣分析、分析結果輸出等主要功能模塊。
(1)“數據預處理”模塊包括:上傳、數據平臺、數據處理、統計、生成數據集等功能。
● 上傳:可完成保險總公司下設所有分公司數據的上傳。
● 數據平臺:在數據上傳前允許對數據平臺進行選擇。
● 數據處理:對數據進行清理、格式轉換等操作。
● 統計:對經過預處理的數據進行分析,提取有效性數據。
● 生成數據集:將統計過程提取的有效數據生成數據集,為數據挖掘提供較高質量的數據源。
(2)“客戶購買險種分析”模塊包括:數據導入、參數設定、結果分析等功能。
● 數據導入:在此操作界面上,可通過選擇不同數據平臺將經過“數據預處理”生成的數據集分別導入。
● 參數設定:在此操作界面上設定“支持度”“置信度”等參數,對有效數據集中有分析價值的數據記錄范圍進行篩選。
● 結果分析:在此操作界面上可將“客戶購買險種分析”的最終分析結果以“報表”、“圖表”形式展示,此分析結果為行業提供了“同一客戶購買本公司多種(次)保險”的客戶信息,進而為行業提供了“可爭取客戶”的決策依據。
(3)“客戶購買習慣分析”模塊包括:數據導入、參數設定、結果分析等功能。
● 數據導入:此操作同(2)“客戶購買險種分析”模塊中的“數據導入”。
● 參數設定:在此分別設定“輸入參數”(包括:年齡、性別、職業等客戶基本信息)及“輸出參數”(客戶購買的險種信息)。
● 結果分析:通過此操作界面可展示出客戶購買習慣的分析結果,進而為行業提供了“可保持客戶”的決策依據。
(4)“分析結果輸出”模塊包括:“客戶購買險種分析”“客戶購買習慣分析”等分析結果的打印輸出功能。
3 項目中改進的快速算法
由于Apriori算法存在時間空間復雜度高及產生大量冗余規則兩大缺陷。因此本項目通過利用一個模式樹結構來降低Apriori算法的存儲復雜度,并同時減少冗余規則的出現。
3.1 一個模式樹的結構
root是一個標為“null”的根結點,root以下是作為根結點的孩子的項目前綴子樹集合,以及項目頭表組成;樹中的每一結點包含四個域user_id,count,node_link,node_next。其中,user_id為user的標記(唯一標識一個user),count為該父結點到達該結點的路徑的數目,node_link指向樹中具有相同的user_id的下一個結點的下一結點,當下一個結點不存在時,node_link為null,node_next指向樹中其子結點;項目頭表的每一表項包含三個域:user_id,count,head of node,user_id與樹中的定義相同,count為樹中所有相同user_id之和,head of node指向樹中具有相同user_id值的首結點的指針。
3.2 建立模式樹
算法如下:
設事務數據庫為A,其中的一個項集為Ai。
算法:Patterntree(tree,p),構造模式樹
輸入:用戶事務數據庫A
輸出:用戶模式樹
Procedure Patterntree(T,p)
{create_ tree (T);//創建Pattern-Tree的根節點,以“null”標記
t=T; //t為當前結點
While A<>null do
{讀入一個事務數據庫項集Ai
while p !=null
do
{if p.user_id==t的祖先n.user_id
then
{ n.count=n.count+l;
t=n;
}
Elseif p.user_id==T的孩子c.user_id
then
{ c.count=c.count+ l;
t=c ;
}
else
insert_Patterntree(T,p) ;//把p作為新結點插入樹中,作為當前結點的孩子結點
p=p.next;
}
}
}
3.3 對模式樹進行剪枝
模式樹建立后,可能存在大量的冗余的分枝,為了保證數據挖掘結果不被這些冗余分枝產生的噪聲所影響,因此需要對樹進行剪枝,剔除噪聲信息。
算法:SPT(Tree,a),通過調用此算法對模式樹進行剪枝
//SPT為支持度模式樹,即Supported Access Pattern Tree;a為項目頭表
輸入:模式樹PatternTree,Min_Sup(模式樹的最小支持度)
輸出:經過修剪后的支持度模式樹SPT,模式B={bi|i=1,2,3……n}
SPT(Tree,a)
{ i=1;
While(ai!= null) // 為項目頭表的某一項
{
if(ai.count>= Min_Sup)
then
{
模式bi= ai.head of node ;
p= ai.head of node ;//p指向ai在模式樹中
的位置
While (p!= null and ai.count>= Min_Sup)
{
查找p的前綴基,將p的前綴基和p連接,構
成模式b;
if (bi.count>= Min_Sup)
then
{
//bi.count 為模式b中p與p的前綴基中
的最小計數
在模式bi中保留p及其前綴基;
bi = bi. node_link
}
else
{
根據模式b中的p及其前綴基刪除
PatternTree中的相應節點,重構子節點
與父節點,同時修改項目頭表中的ai;
p=p. node_next//p指向 在模式樹中的
下一個位置;
}
}
}
else
{
修改項目頭結點的ai值;
刪除模式樹中相應的節點及其前綴基,重構父子
節點;
i++;
}
}
}
通過模式樹的建立可以避免多次掃描事務數據庫;同時利用count域有效的保留了項集的數目,避免大量產生頻繁項集,對于減小空間時間復雜度起到了一定的作用。通過樹形結構可以避免產生大量冗余規則。
通過對模式樹的剪枝,可以減除在模式樹產生過程中產生的大量冗余分枝,起到了減小空間復雜度的作用,同時可以利用輸出模式B產生規則,避免了多項集的頻繁出現,減小了時間復雜度。
4 結束語
本項目中通過模式樹結構改進了Apriori算法,彌補了Apriori算法存在的缺陷。此種方法既能夠對Apriori算法從時間復雜度和空間復雜度上進行改進,同時又避免了中間規則的產生。本研究表明,通過利用一個模式樹結構來降低Apriori算法的存儲復雜度,并同時減少冗余規則的出現,這對于Apriori算法的改進是一種有效的措施。
參考文獻
[1]鄧納姆.數據挖掘教程[M].郭崇慧,田鳳占,靳曉明,等譯.北京:清華大學出版社,2005.
[2]蘇新寧,楊建林,江念南,等.數據倉庫和數據挖掘[M].北京:清華大學出版社,2006.
[3]GAL C S, KANTOR P B, SHAPIRA B. Security Informatics and Terrorism: Patrolling the Web. Amsterdam: IOS Press,2008.
[4]BORGES J, LEVENE M. Evaluating Variable Length Markov Chain Models for Analysis of User Web Navigation Sessions.IEEE Transactions on Knowledge and Data Engineering.2007,19(4): 441-452.
【基于數據挖掘技術的保險行業決策分析研究】相關文章:
基于數據挖掘技術的交叉銷售分析12-08
基于數據挖掘的網絡入侵檢測技術11-23
基于數據挖掘技術的現代物流管理03-25
基于愛好的電子商務數據挖掘技術的研究12-08
基于聚類分析的數據挖掘方法03-08
HIS數據的挖掘統計對醫院管理決策的意義03-14
數據挖掘技術在CRM中的應用03-22
數據挖掘在財務決策中的應用03-22