- 相關(guān)推薦
基于RFID與基因表達式編程的經(jīng)濟統(tǒng)計時序挖掘
摘要:為解決基因表達式編程(GEP)在符號回歸、RFID分類及經(jīng)濟領(lǐng)域中對時序數(shù)據(jù)的挖掘速度和精度還不夠的問題,提出了統(tǒng)計基因、統(tǒng)計染色體和統(tǒng)計時序一適應(yīng)度的定義,并針對傳統(tǒng)GEP經(jīng)濟時序模型進行了綜合改進;提出了新穎的單變量時序和多變量時序挖掘算法,提高了GEP統(tǒng)計時序挖掘的速度和精度;實驗表明,與傳統(tǒng)GEP、單變量GEP時序算法相比,多變量GEP時序算法挖掘速度快,其預(yù)測精度比單變量時序算法高出5%以上。該算法同樣適用于RFID以及其他經(jīng)濟系統(tǒng)中的時序數(shù)據(jù)挖掘。
關(guān)鍵詞:經(jīng)濟統(tǒng)計時序預(yù)測模型;單變量時序;多變量時序;GEP函數(shù)挖掘
GEP經(jīng)濟統(tǒng)計時序挖掘算法涉及到時序基因、時序染色體和適應(yīng)度函數(shù)等概念,作者提出的GEP時序挖掘模型是針對歷年的經(jīng)濟統(tǒng)計時序數(shù)據(jù),例如對成都市國民經(jīng)濟和社會發(fā)展總量與速度等經(jīng)濟指標時間序列進行預(yù)測。針對經(jīng)濟統(tǒng)計時序數(shù)據(jù)特點,在傳統(tǒng)GEP概念的基礎(chǔ)上¨。J,提出了Statisti.cal—C,ene、和Statistical—Fitness等新概念和技術(shù)。
1、問題描述
為了形式化描述GEP時間序列的統(tǒng)計指標序列數(shù)據(jù)對象,引入下列定義:
定義l GEP時序中的統(tǒng)計基因是一個5元組。
定義2統(tǒng)計時序一適應(yīng)度。
2、統(tǒng)計數(shù)據(jù)的時序GEP算法
目前GEP與遺傳算法和遺傳編程一樣,還存在未成熟收斂和收斂精度差的難題m 8l。為解決其精度差問題,對GEP時間序列模型進行了綜合改進。
1)GEP浮點數(shù)系數(shù)編碼在GEP算法中,對于數(shù)值編碼采用了浮點數(shù)編碼的方法。經(jīng)過實際應(yīng)用,發(fā)現(xiàn)浮點數(shù)編碼能提高了GEP運算效率,適合精度較高應(yīng)用。
2)改進了適應(yīng)度函數(shù)設(shè)計在統(tǒng)計學中,R2是用于表示非線性模型的重要指標,用于評價兩組數(shù)據(jù)符合程度的方法更多的是采用相關(guān)系數(shù)。
3)GEP多變量經(jīng)濟時序挖掘預(yù)測算法在統(tǒng)計系統(tǒng)中,其多個統(tǒng)計變量存在相互影響,因此提出了多維指標的時間序列預(yù)測式挖掘。
4)實驗與性能分析1)數(shù)據(jù)來源原始數(shù)據(jù)來源于(2006成都統(tǒng)計年鑒》,選擇了影響GDP增長的6個指標,建立合適的數(shù)學模型并預(yù)測2003,2004,2005年的GDP。計算得出平均擬合相對誤差是0.1579%,平均預(yù)測相對誤差是一0.09105%。得到模型的擬合/預(yù)測精度比單變量的GEP算法高于5%以上。
3、結(jié)論
根據(jù)經(jīng)濟領(lǐng)域中統(tǒng)計數(shù)據(jù)挖掘?qū)︻A(yù)測國民經(jīng)濟GDP數(shù)據(jù)的特點,提出了新穎的經(jīng)濟統(tǒng)計時序GEP函數(shù)挖掘與預(yù)測方法和技術(shù)。主要貢獻如下:針對多變量時間序列中各因素之間存在著一定的相關(guān)性,所觀測到的時序在一定程度上反映的信息有所重疊,提出了基于GEP的多變量時序預(yù)測模型。通過主成分分析方法對影響時間序列的諸多因素進行成分約簡,提取影響因子大的幾個綜合指標作為輸入變量,提高了GEP時序挖掘的效率和準確率。通過實驗證明,以同一批真實宏觀的國民經(jīng)濟統(tǒng)計年鑒GDP數(shù)據(jù)為研究對象,以后面年度GDP數(shù)據(jù)為預(yù)測目標,分別建立單變量預(yù)測模型和多變量預(yù)測模型,然后在不同的經(jīng)濟預(yù)測模型上進行仿真挖掘預(yù)測。通過實驗結(jié)果和相關(guān)性能指標的對比分析,證明多變量GEP經(jīng)濟統(tǒng)計時序預(yù)測模型的擬合/預(yù)測要比單變量GEP算法的預(yù)測精度提高了5%以上。該方法同樣適用于RFID應(yīng)用系統(tǒng)的時序數(shù)據(jù)挖掘。
參考文獻:
[1]賈曉斌,唐常杰,左劫,等.基于基因表達式編程的頻繁函數(shù)集挖掘[J].計算機學報,2005,28(8):1247—1254
[2]元昌安,唐常杰,溫遠光,等.基于基因表達式編程的智能模型庫系統(tǒng)的實現(xiàn)[J].四川大學學報:工程科學版,2005,37(3):99—104.
[3]黃曉冬,唐常杰,普東航,等.基于基因表達式編程的函數(shù)關(guān)系發(fā)現(xiàn)方法[J].計算機科學,2003,30(增刊):278—182.
[4]鐘義嘯,唐常杰,陳宇,等.提高基因表達式編程發(fā)現(xiàn)知識效率的回溯策略[J].四川大學學報:自然科學版,2006,43(2):299—304.(1):128—133.
[5]胡建軍,唐常杰,彭京,等.快速跳出局部最優(yōu)的VPS.GEP算法[J].四川大學學報:工程科學版,2007,39(1):128—133.
[6]彭京,唐常杰,李川,等.MGEP:基于多層染色體基因表達式編程的遺傳進化算法[J].計算機學報,2005,28(9):1459—1466.
[7]劉齊宏,唐常杰,胡建軍,等.多樣性制導(dǎo)分段進化的基因表達式編程[J].四川大學學報:工程科學版,2006,38(6):108—113.
【基于RFID與基因表達式編程的經(jīng)濟統(tǒng)計時序挖掘】相關(guān)文章:
基于WEB文本挖掘的統(tǒng)計分析VB+ACCESS08-07
基于RFID的石油運輸車閥門監(jiān)控裝置的研究10-24
談基于RFID技術(shù)的供應(yīng)鏈協(xié)同商務(wù)管理09-24
基于數(shù)據(jù)挖掘的成績分析系統(tǒng)10-10
基于數(shù)據(jù)挖掘技術(shù)的交叉銷售分析09-27