- 相關(guān)推薦
大數(shù)據(jù)建模技術(shù)在人身保險反欺詐領(lǐng)域的應(yīng)用路徑解析論文
一、引言
隨著大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,尤其是“Alpha Go”戰(zhàn)勝李世石后,又以“Master”的身份橫掃圍棋界,使基于機器學(xué)習(xí)的大數(shù)據(jù)建模成為了最新的技術(shù)熱點。通過模型訓(xùn)練讓機器智能化,代替人工,降低成本,提高效率和準(zhǔn)確率,其眾多的優(yōu)勢和巨大的商業(yè)價值吸引了各行各業(yè)的商業(yè)巨頭紛紛開始打造屬于自己的人工智能體系,尤以騰訊、阿里、百度等擁有明顯大數(shù)據(jù)資源優(yōu)勢的互聯(lián)網(wǎng)企業(yè)為代表。目前,人臉識別、語義識別、無人駕駛、智能風(fēng)險識別、精準(zhǔn)預(yù)測模型等基于大數(shù)據(jù)的新技術(shù)在商業(yè)上的應(yīng)用已經(jīng)日趨成熟,并通過“互聯(lián)網(wǎng)+”迅速輻射到金融領(lǐng)域,開始重塑甚至顛覆傳統(tǒng)的商業(yè)及運營管理模式。這種變革帶來的競爭壓力迫使銀行、保險等金融機構(gòu)必須快速轉(zhuǎn)型升級,積極尋求自身業(yè)務(wù)與大數(shù)據(jù)和新技術(shù)之間的契合點。而通過大數(shù)據(jù)構(gòu)建精準(zhǔn)風(fēng)險預(yù)測模型提升風(fēng)險識別的精準(zhǔn)度和效率,對于經(jīng)營風(fēng)險的保險公司來說,便成了一個極具吸引力和價值的切入點。
縱觀國內(nèi)保險行業(yè),目前對于大數(shù)據(jù)建模技術(shù)的應(yīng)用還處在探索和嘗試階段。整體來看,財產(chǎn)險領(lǐng)域在精準(zhǔn)風(fēng)險識別模型的應(yīng)用上要略為先行一步:一方面是行業(yè)信息的整合共享更加到位,2016 年底,“全國車險反欺詐信息系統(tǒng)”正式上線,面向各市場主體提供保險欺詐線索識別和風(fēng)險預(yù)警功能,初步實現(xiàn)了行業(yè)車險欺詐信息的交互共享;另一方面,由于車輛保險的數(shù)據(jù)標(biāo)準(zhǔn)化程度較高,進行大數(shù)據(jù)建模的基礎(chǔ)良好,因此國內(nèi)部分財產(chǎn)險公司在車輛保險后續(xù)稽核方面通過構(gòu)建大數(shù)據(jù)風(fēng)險識別模型輔助稽核,取得了一定的成效。而人身保險以人的壽命和健康作為對象,其經(jīng)營的風(fēng)險更加復(fù)雜多樣,加之我國公民信息管理較為碎片化,數(shù)據(jù)標(biāo)準(zhǔn)化程度低,因此大數(shù)據(jù)在我國人身保險風(fēng)險管控領(lǐng)域的應(yīng)用還較為滯后,僅有數(shù)家保險公司進行了創(chuàng)新嘗試。
本文以大數(shù)據(jù)建模技術(shù)在人身保險反欺詐領(lǐng)域的應(yīng)用為例,從業(yè)務(wù)場景選擇、風(fēng)險特征篩選、數(shù)據(jù)清洗與整理、建模工具與算法選擇、模型準(zhǔn)確性的驗證等方面,詳細(xì)解構(gòu)了基于Spark 計算引擎、采用隨機森林算法構(gòu)建重大疾病保險核保欺詐風(fēng)險評估模型的路徑,以期對大數(shù)據(jù)建模技術(shù)在保險風(fēng)險管控領(lǐng)域的應(yīng)用提供一定的參考。
二、人身保險大數(shù)據(jù)建模的基礎(chǔ)條件分析
(一)基礎(chǔ)數(shù)據(jù)條件
從1980 年我國保險業(yè)恢復(fù)經(jīng)營以來,經(jīng)過30 多年的快速發(fā)展,到2016 年我國保險業(yè)原保險保費收入已達(dá)3.10 萬億元。三十年來,人身保險經(jīng)營領(lǐng)域穩(wěn)步拓展,險種類型不斷豐富,客戶群體持續(xù)擴充,國內(nèi)主要人身保險公司已經(jīng)積累起了海量的內(nèi)部數(shù)據(jù)。盡管保險運營數(shù)據(jù)數(shù)字化的歷史僅二十年左右,規(guī)范的高質(zhì)量數(shù)據(jù)積累時間大約只有十余年,但主要人身保險公司的內(nèi)部數(shù)據(jù)已經(jīng)足夠豐富。此外,金融行業(yè)的多元融合、金融機構(gòu)集團化發(fā)展、大數(shù)據(jù)交易市場的興起,為人身保險公司提供了外部重要風(fēng)險數(shù)據(jù)接入的渠道和機會。雖然大部分重要數(shù)據(jù)都還碎片化地散落在不同領(lǐng)域,但從基本面上看,已經(jīng)具備進行反欺詐大數(shù)據(jù)建模的數(shù)據(jù)基礎(chǔ)。
(二)建模技術(shù)條件
基于機器學(xué)習(xí)的數(shù)據(jù)建模工作,2010 年以前已經(jīng)在某些特定領(lǐng)域發(fā)揮了巨大作用,如圖像識別、自然語言處理等等。2010 年以后,隨著大數(shù)據(jù)概念的興起,機器學(xué)習(xí)大量的應(yīng)用都與大數(shù)據(jù)高度耦合,幾乎可以認(rèn)為,大數(shù)據(jù)是機器學(xué)習(xí)應(yīng)用的最佳場景。另一方面,技術(shù)發(fā)展促使硬件資源的成本不斷降低,模型構(gòu)建可用資源不斷擴展,也為算法本身的完善提供了有利條件。2012年6月,《紐約時報》報道了Google Brain項目,這個項目是由Andrew Ng 和Map-Reduce 發(fā)明人Jeff Dean 共同主導(dǎo),用16000 個CPU Core的并行計算平臺訓(xùn)練一種稱為“深層神經(jīng)網(wǎng)絡(luò)”的機器學(xué)習(xí)模型,深度學(xué)習(xí)的概念由此提出。通過大量模擬人腦行為的計算,深度學(xué)習(xí)為人類解決很多復(fù)雜的問題打開了一扇無限的大門。
此外,在建模的工具和語言上,近幾年也有了井噴式的發(fā)展。除去老牌的SPSS 和SAS 這樣的企業(yè)在向大數(shù)據(jù)、分布式轉(zhuǎn)型,R和Python 語言的發(fā)展和應(yīng)用也簡化了數(shù)據(jù)分析和建模的難度,各大互聯(lián)網(wǎng)企業(yè)也紛紛推出自己的機器學(xué)習(xí)平臺,像Google 的Tensor Flow、IBM 的Watson 等等,都已經(jīng)有了很多成熟的應(yīng)用。
各方技術(shù)條件的成熟,為大數(shù)據(jù)建模技術(shù)在人身保險反欺詐工作中的應(yīng)用做了充分的鋪墊。該應(yīng)用的探討和落地,可以有效輔助風(fēng)險管控的人工作業(yè),提高欺詐案件的識別效率和識別精準(zhǔn)度。
(三)國內(nèi)建模技術(shù)人才狀況
在大數(shù)據(jù)建模工作中,具體模型搭建這個環(huán)節(jié)的主要承擔(dān)者是“數(shù)據(jù)科學(xué)家”!皵(shù)據(jù)科學(xué)家”的概念在2009 年由Natahn Yau 首次提出,其概念是采用科學(xué)方法、運用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師。一個優(yōu)秀的數(shù)據(jù)科學(xué)家需要具備業(yè)務(wù)知識、數(shù)理統(tǒng)計和數(shù)據(jù)分析能力、計算機相關(guān)知識及機器學(xué)習(xí)等多維度的知識體系,是業(yè)務(wù)、技術(shù)與數(shù)據(jù)三者結(jié)合的高端型人才。對此類人才高標(biāo)準(zhǔn)的要求和目前各行各業(yè)對這些人才的強大需求,造成了相關(guān)人才的緊缺,目前國內(nèi)此類人才供需狀況非常緊張,處于嚴(yán)重的供不應(yīng)求狀態(tài)。據(jù)2016 年數(shù)據(jù)科學(xué)家報告統(tǒng)計,大約三分之二的數(shù)據(jù)科學(xué)家從業(yè)時間小于5 年,有83%的企業(yè)和組織表示沒有足夠的數(shù)據(jù)科學(xué)家來解決問題。而隨著“互聯(lián)網(wǎng)+大數(shù)據(jù)”商業(yè)模式的巨大成功,越來越多的企業(yè)和組織對數(shù)據(jù)進行投資,這一趨勢可能繼續(xù)。
但需求催生供給,國內(nèi)巨大的數(shù)據(jù)科學(xué)家人才供給缺口引致了此類人力資源價格的高企,吸引了人才資源流入國內(nèi)。2016 年國內(nèi)數(shù)據(jù)人才短缺的狀況已較2015 年有所改善,其中大部分屬于引進國外專家或留學(xué)歸國人員;國內(nèi)高校、科研機構(gòu)和各類企業(yè)也加快了對此類人才的培養(yǎng)。
綜合來看,目前國內(nèi)人身保險行業(yè)構(gòu)建精準(zhǔn)反欺詐風(fēng)險識別模型的數(shù)據(jù)條件、技術(shù)條件和人才條件均已具備,可以也應(yīng)當(dāng)融合數(shù)據(jù)技術(shù)重構(gòu)傳統(tǒng)的反欺詐管理模式,以提升人身保險經(jīng)營死差益。
三、基于應(yīng)用實操的反欺詐大數(shù)據(jù)建模路徑探析
(一)業(yè)務(wù)場景選擇
模型的建設(shè)和應(yīng)用必須基于具體的業(yè)務(wù)場景,它決定了模型的數(shù)據(jù)原料范圍、風(fēng)險特征篩選、作業(yè)經(jīng)驗導(dǎo)入和模型建成后的具體應(yīng)用方式,因此在進行模型建設(shè)之前需要選定目標(biāo)業(yè)務(wù)場景。下面從一個角度分析大數(shù)據(jù)模型在人身保險反欺詐實踐中適合的業(yè)務(wù)場景:
1.選擇業(yè)務(wù)類型。以契約形式來劃分,保險業(yè)務(wù)可以分為個人業(yè)務(wù)和團體業(yè)務(wù)兩種類型。人身保險公司在團體業(yè)務(wù)中能夠獲取的數(shù)據(jù)信息普遍不足,而且在團體業(yè)務(wù)中議價能力較弱,對團體業(yè)務(wù)中單一被保險人開展反欺詐工作存在一定的障礙和難度。因此,個人業(yè)務(wù)應(yīng)該是人身保險公司反欺詐工作關(guān)注的重點。
2.選擇險種類型。從險種類型角度考量,高現(xiàn)金價值的儲蓄型險種,由于射幸性不強,故作為欺詐的標(biāo)的險種可能性不大,保險公司花費大量的投入進行建模的產(chǎn)出很低;費用補償型短期健康險雖然存在欺詐,但多以軟性欺詐為主,且涉及到第三方(醫(yī)療機構(gòu)),構(gòu)建反欺詐控費模型需要龐大的醫(yī)療知識庫和海量的數(shù)據(jù),難度大、耗時長,一般保險公司難以具備相應(yīng)能力。綜合考慮業(yè)務(wù)價值、代表性、實施可行性和數(shù)據(jù)質(zhì)量等多種因素,重大疾病保險是一個較為理想的切入點。
3.選擇作業(yè)環(huán)節(jié)。從保險公司業(yè)務(wù)風(fēng)險管控作業(yè)鏈條和保險合同的整個生命周期考慮,核保、理賠兩個環(huán)節(jié),一個把控入口關(guān)、一個把控出口關(guān),是保險公司風(fēng)險管控鏈條中最核心的兩個環(huán)節(jié),都是構(gòu)建和應(yīng)用反欺詐風(fēng)險識別模型比較理想的業(yè)務(wù)環(huán)節(jié)。基于以上幾點的考慮,本文以個人業(yè)務(wù)重大疾病保險核保階段的大數(shù)據(jù)反欺詐模型構(gòu)建作為后續(xù)探討的基礎(chǔ)。
(二)風(fēng)險特征選擇
大數(shù)據(jù)預(yù)測模型是與對應(yīng)業(yè)務(wù)強綁定的。對保險公司來說,大數(shù)據(jù)反欺詐模型性能的好壞,相關(guān)業(yè)務(wù)的風(fēng)險特征的選擇是最基礎(chǔ)也是最重要的工作。它需要依靠保險運營風(fēng)險管理業(yè)務(wù)專家對實際業(yè)務(wù)的精深了解,協(xié)同數(shù)據(jù)科學(xué)家進行精細(xì)篩選。只有將與欺詐結(jié)論密切相關(guān)的業(yè)務(wù)風(fēng)險特征字段放入預(yù)先選擇的范圍內(nèi),才能為后續(xù)建模過程所用;如果在最初階段就遺漏某些關(guān)鍵業(yè)務(wù)信息,則將嚴(yán)重影響模型的效果。以重大疾病保險核保階段的風(fēng)險管控業(yè)務(wù)場景為例,大數(shù)據(jù)反欺詐模型建設(shè)中“本次投保信息、客戶歷史信息、銷售人員/渠道信息、外部重要風(fēng)險信息”應(yīng)是主要考慮到的四個維度,基于以上維度又可以進一步篩選風(fēng)險特征,F(xiàn)簡單舉例如下:除了從保險公司內(nèi)外部可以直接獲取的風(fēng)險數(shù)據(jù)特征外,數(shù)據(jù)科學(xué)家往往會基于數(shù)據(jù)的相關(guān)性等因素構(gòu)建一些衍生特征,目的在于用更低維度、相關(guān)性更強的特征替代原有特征,簡化模型,提升效率。這在保險公司的建模實操中也是一個非常重要的步驟。
(三)數(shù)據(jù)清洗和整理
基于預(yù)選的數(shù)據(jù)特征,需要進行數(shù)據(jù)的基礎(chǔ)分析和數(shù)據(jù)清洗整理。
通過數(shù)據(jù)基礎(chǔ)的分析,可以使數(shù)據(jù)科學(xué)家對于數(shù)據(jù)質(zhì)量有一個全局的把控,也能夠獲取到各特征之間的相關(guān)性、和標(biāo)簽值(Label,是否為欺詐)之間的相關(guān)性,為上文提到的衍生特征加工作基礎(chǔ)。數(shù)據(jù)清洗和整理,能夠保證模型訓(xùn)練數(shù)據(jù)的數(shù)據(jù)質(zhì)量,結(jié)合模型算法的選擇,作一些適當(dāng)?shù)臄?shù)據(jù)格式轉(zhuǎn)換,可以提升模型的效率,具體有以下幾種方式:缺失值填補、量綱統(tǒng)一、離散連續(xù)值轉(zhuǎn)換、信息冗余值處理等。
(四)建模工具選擇
如上文所述,大數(shù)據(jù)建模技術(shù)的興起,為業(yè)內(nèi)提供了多樣化的建模工具與語言的選擇。在數(shù)據(jù)量不大的基礎(chǔ)上可以考慮在R語言或Python 語言單機開發(fā)環(huán)境上進行模型建立;對于已經(jīng)熟練使用SAS 等傳統(tǒng)工具的企業(yè),可以在原有基礎(chǔ)上進行大數(shù)據(jù)方面的擴展和延伸;但目前基于大數(shù)據(jù)比較主流的建模工具是由UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP 實驗室)所開源的通用并行框架——Spark。
Spark ML 是Spark 的機器學(xué)習(xí)庫,支持回歸、分類、協(xié)同過濾、聚類等多種算法,部分算法支持流式訓(xùn)練,而且在spark2.0 上提供了模型文件保存和調(diào)用的接口,為模型落地實施提供了基礎(chǔ)。數(shù)據(jù)量較大的保險公司進行重大疾病保險核保欺詐風(fēng)險大數(shù)據(jù)建模時,Spark ML 是比較合適的工具選擇。
(五)建模算法選擇
本文選擇的業(yè)務(wù)場景——個人業(yè)務(wù)重大疾病保險核保階段的欺詐風(fēng)險評估,可以視為一個數(shù)據(jù)的二分類問題,將欺詐案件標(biāo)簽值識別為1,非欺詐案件識別為0。目前比較主流的二分類算法有:支持向量機(SVM)、決策樹、梯度下降樹、隨機森林等等。相比于其他的算法,隨機森林擁有以下優(yōu)點:
1.實現(xiàn)比較簡單;
2.有很好的抗噪聲能力,以及較低的擬合風(fēng)險;
3.高維度數(shù)據(jù)處理能力強,能同時處理離散和連續(xù)型數(shù)據(jù);
4.訓(xùn)練速度快,能較快得到變量重要性排序;
5.訓(xùn)練過程中能夠?qū)崟r檢測到變量間的相互影響;
6.適用于并行化計算。
保險公司在選擇算法的時候,應(yīng)當(dāng)綜合業(yè)務(wù)場景、數(shù)據(jù)規(guī)模和項目推進時間要求來整體考量?傮w看來,隨機森林比較適合作為大型保險公司重大疾病保險核保階段的欺詐風(fēng)險評估模型的建模算法。
(六)構(gòu)建模型
大數(shù)據(jù)欺詐風(fēng)險精準(zhǔn)評估模型的構(gòu)建是一個反復(fù)迭代的過程,其中主要分為兩個階段——訓(xùn)練階段和測試階段。其中訓(xùn)練階段主要是通過訓(xùn)練集數(shù)據(jù)根據(jù)不同的算法以及選取的參數(shù)進行模型的初步擬合,而測試階段是通過測試集數(shù)據(jù)和評估指標(biāo)從數(shù)據(jù)上驗證模型,并根據(jù)驗證結(jié)果選擇調(diào)整模型參數(shù)重新訓(xùn)練或是輸出最終結(jié)果。其中參數(shù)的選取,是模型構(gòu)建過程中的一個關(guān)鍵步驟,本文使用Spark ML 提供的超參數(shù)網(wǎng)格和交叉驗證來實現(xiàn)參數(shù)自動化選取;模型的驗證標(biāo)準(zhǔn)選取二分類評估中的Auc 值,該值為一個0 到1 的小數(shù),取值越大認(rèn)為模型效果越優(yōu)。
考慮到本文選取隨機森林算法作為示例,所以最終的模型結(jié)果是一個N 棵決策樹的組合。每棵樹中特征為特征池中隨機選擇出的M 個變量。在隨機森林中種植決策數(shù)的具體數(shù)量,需要數(shù)據(jù)科學(xué)家和保險業(yè)務(wù)專家綜合模型的數(shù)據(jù)基礎(chǔ)和業(yè)務(wù)目標(biāo)來確定。整個模型以每棵決策樹評分的平均值作為最終案件欺詐風(fēng)險的評估值,命名為F(Fraud)值(可理解為欺詐概率值)。該值為0 到1 之間的小數(shù),越接近1,認(rèn)為欺詐風(fēng)險越大。
(七)模型性能的驗證
基于大數(shù)據(jù)基礎(chǔ)構(gòu)建的個人業(yè)務(wù)重大疾病保險核保階段欺詐風(fēng)險評估模型能否投入生產(chǎn)環(huán)境進入實際應(yīng)用,需要經(jīng)過詳盡周密的性能評估。目前業(yè)內(nèi)對于模型評估的兩種主要的評估度量是查準(zhǔn)率/準(zhǔn)確率(Precision)和召回率/查全率(Recall)。要理解這兩個度量值,首先要理解以下數(shù)據(jù)分類矩陣,又稱混淆矩陣——數(shù)據(jù)依照實際和預(yù)測的不同結(jié)果可以分為四類:
True Positives(TP):角色是反面人物,模型預(yù)測為反面人物
False Positives(FP):角色是正面人物,模型預(yù)測為反面人物
True Negatives(TN):角色是正面人物,模型預(yù)測為正面人物
False Negatives(FN):角色是反面人物,模型預(yù)測為正面人物
Precision 查準(zhǔn)率/準(zhǔn)確率計算公式為:在所有被預(yù)測為反面人物中,模型正確預(yù)測的比例,即TP(/ TP + FP);Recall 召回率/查全率計算公式為:在所有原本就是反面人物中,模型正確預(yù)測的比例,即TP / (TP + FN)?梢钥闯,通常在選擇高準(zhǔn)確率和高召回率之間總有一種權(quán)衡,這種權(quán)衡通過對F值判定欺詐的閾值大小調(diào)整來實現(xiàn)。而閾值的取值要取決于構(gòu)建模型的最終目的,對于某些情況而言,高準(zhǔn)確率的選擇可能會優(yōu)于高召回率。然而,對于欺詐預(yù)測模型,通常要偏向于高召回率,即使會犧牲掉一些準(zhǔn)確率。
四、大數(shù)據(jù)模型在保險公司反欺詐實踐中的應(yīng)用
(一)模型的反欺詐業(yè)務(wù)場景嵌入
大數(shù)據(jù)精準(zhǔn)風(fēng)險評估預(yù)測模型的價值實現(xiàn)是與具體業(yè)務(wù)強綁定的,脫離業(yè)務(wù)場景的模型無法創(chuàng)造價值。本文以重大疾病保險核保欺詐風(fēng)險評估模型具體應(yīng)用為例,簡要說明一下模型具體如何應(yīng)用。
1.將模型固化為可以即插即用的系統(tǒng)功能模塊,能夠快速高效地在保險公司的數(shù)據(jù)倉庫中抓取風(fēng)險特征數(shù)據(jù);
2.將模型嵌入保險公司的自動核保作業(yè)系統(tǒng),對所有待核保重大疾病投保申請進行全業(yè)務(wù)風(fēng)險掃描,并輸出模型計算的欺詐風(fēng)險評估結(jié)果——F 值;
3.保險公司運營風(fēng)險管理專家根據(jù)核保作業(yè)經(jīng)驗制定F 值的應(yīng)用規(guī)則,對F 值較低的投保申請自動核保通過,F(xiàn) 值較高的則進入人工核保作業(yè)池并標(biāo)識風(fēng)險提示;
4.核保作業(yè)人員參考F 值及對應(yīng)的風(fēng)險提示,對進入人工核保作業(yè)池的投保申請進行審核,必要時可采用體檢、契約調(diào)查等更進一步的風(fēng)險控制手段;
5.持續(xù)觀察模型應(yīng)用效果,當(dāng)模型的準(zhǔn)確率和召回率達(dá)到較為理想的狀態(tài)時,可以考慮按比例或者全部替代人工作業(yè),從而進一步降低保險公司運營成本。
此外,對于不需要嵌入作業(yè)流程或?qū)ψ鳂I(yè)時效要求不高的業(yè)務(wù)場景,也可以考慮以流程外批處理的方式應(yīng)用模型,來輔助業(yè)務(wù)的開展。
(二)模型的迭代完善
模型的后續(xù)迭代和完善是一個長期的過程,在以下幾種情況下應(yīng)當(dāng)考慮對模型進行迭代:
1.出現(xiàn)新的重要風(fēng)險特征或模型原有風(fēng)險特征被新的特征替代:在有外部數(shù)據(jù)補充或者業(yè)務(wù)角度分析出大量更優(yōu)的特征變量,可以對模型進行迭代。
2.出現(xiàn)重大的業(yè)務(wù)規(guī)則變更:當(dāng)業(yè)務(wù)規(guī)則發(fā)生變化,為了適應(yīng)新的業(yè)務(wù)場景,模型將會需要進行完全迭代,甚至可以理解為重建。
3.周期的迭代:模型是依賴于數(shù)據(jù)的,隨著數(shù)據(jù)的積累,模型應(yīng)該進行周期性的迭代來保證其性能,可以考慮以數(shù)據(jù)增量百分比或者時間周期為標(biāo)準(zhǔn)來進行迭代。
不論因為何種原因?qū)δP瓦M行了迭代,都需要基于準(zhǔn)確率和召回率重新評估模型的性能,必要的時候需要新舊模型同時在線,對比一段時間之后,再做模型的切換。
五、小結(jié)
保險欺詐是保險業(yè)自誕生以來從未徹底治愈的一個頑疾,嚴(yán)重威脅保險公司健康發(fā)展,而信息不對稱帶來的博弈地位巨大差異和保險本身的強射幸性是保險欺詐難以禁絕的重要原因。由于射幸性是保險的天然屬性難以改變,因此,盡可能地消除保險公司與投/被保人之間的信息不對稱便成為了防范與控制保險欺詐的主要途徑。通過商業(yè)調(diào)查的方式來消除信息不對稱雖然效果較好,但投入大、耗時長、成本高,不宜作為一種普遍方式應(yīng)用于每一單業(yè)務(wù),故而保險公司需要探索一條高效低廉的方式進行全業(yè)務(wù)風(fēng)險掃描,篩選出高風(fēng)險業(yè)務(wù)加以重點防控。近年來,隨著“互聯(lián)網(wǎng)+大數(shù)據(jù)”形成的現(xiàn)實生產(chǎn)力逐步滲透到保險行業(yè),大數(shù)據(jù)建模技術(shù)有了越來越多的應(yīng)用,雖然現(xiàn)在還不甚成熟,但其所指明的前進方向已確定無疑。將大數(shù)據(jù)建模技術(shù)應(yīng)用到人身保險反欺詐領(lǐng)域,是一項保險業(yè)務(wù)與先進技術(shù)之間的創(chuàng)新結(jié)合。
本文探討了人身保險公司開展大數(shù)據(jù)建模在數(shù)據(jù)、技術(shù)、人才三方面的條件。進一步地,以大數(shù)據(jù)建模技術(shù)在人身保險反欺詐領(lǐng)域的應(yīng)用為例,較為詳細(xì)地解構(gòu)了基于Spark計算引擎、采用隨機森林算法構(gòu)建重大疾病保險核保欺詐風(fēng)險評估模型的路徑,并給出了模型在實際業(yè)務(wù)中的嵌入方式以及相應(yīng)的迭代和完善方法。當(dāng)然,由于筆者能力有限以及一些客觀條件的限制,本文的研究還存在一些不足的地方,例如模型風(fēng)險特征的具體探討,各個算法之間模型性能的比較,模型落地和迭代的具體實施方案等,這些都有賴于實踐的進一步深化以豐富完善。展望未來,大數(shù)據(jù)建模技術(shù)與人身保險領(lǐng)域的合作將會更加深化,隨著技術(shù)能力的不斷提升,信息技術(shù)將在更高的層次上輔助保險業(yè)解決各種業(yè)務(wù)難題,在保證精準(zhǔn)度的同時,降低作業(yè)成本,助力保險業(yè)打造出一片更加健康美好的明天。
【大數(shù)據(jù)建模技術(shù)在人身保險反欺詐領(lǐng)域的應(yīng)用路徑解析論文】相關(guān)文章:
淺談納濾技術(shù)在水污染處理領(lǐng)域的應(yīng)用論文04-22
數(shù)據(jù)挖掘在電力企業(yè)中的應(yīng)用論文04-21
數(shù)據(jù)處理技術(shù)在教學(xué)管理中的應(yīng)用05-25
數(shù)學(xué)建模論文格式字體04-18
數(shù)學(xué)建模論文格式標(biāo)準(zhǔn)05-07
多媒體技術(shù)應(yīng)用論文參考文獻(xiàn)09-19