基于RFID與基因表達式編程的經濟統計時序挖掘
摘要:為解決基因表達式編程(GEP)在符號回歸、RFID分類及經濟領域中對時序數據的挖掘速度和精度還不夠的問題,提出了統計基因、統計染色體和統計時序一適應度的定義,并針對傳統GEP經濟時序模型進行了綜合改進;提出了新穎的單變量時序和多變量時序挖掘算法,提高了GEP統計時序挖掘的速度和精度;實驗表明,與傳統GEP、單變量GEP時序算法相比,多變量GEP時序算法挖掘速度快,其預測精度比單變量時序算法高出5%以上。該算法同樣適用于RFID以及其他經濟系統中的時序數據挖掘。
關鍵詞:經濟統計時序預測模型;單變量時序;多變量時序;GEP函數挖掘
GEP經濟統計時序挖掘算法涉及到時序基因、時序染色體和適應度函數等概念,作者提出的GEP時序挖掘模型是針對歷年的經濟統計時序數據,例如對成都市國民經濟和社會發展總量與速度等經濟指標時間序列進行預測。針對經濟統計時序數據特點,在傳統GEP概念的基礎上¨。J,提出了Statisti.cal—C,ene、和Statistical—Fitness等新概念和技術。
1、問題描述
為了形式化描述GEP時間序列的統計指標序列數據對象,引入下列定義:
定義l GEP時序中的統計基因是一個5元組。
定義2統計時序一適應度。
2、統計數據的時序GEP算法
目前GEP與遺傳算法和遺傳編程一樣,還存在未成熟收斂和收斂精度差的難題m 8l。為解決其精度差問題,對GEP時間序列模型進行了綜合改進。
1)GEP浮點數系數編碼在GEP算法中,對于數值編碼采用了浮點數編碼的方法。經過實際應用,發現浮點數編碼能提高了GEP運算效率,適合精度較高應用。
2)改進了適應度函數設計在統計學中,R2是用于表示非線性模型的重要指標,用于評價兩組數據符合程度的方法更多的是采用相關系數。
3)GEP多變量經濟時序挖掘預測算法在統計系統中,其多個統計變量存在相互影響,因此提出了多維指標的時間序列預測式挖掘。
4)實驗與性能分析1)數據來源原始數據來源于(2006成都統計年鑒》,選擇了影響GDP增長的6個指標,建立合適的數學模型并預測2003,2004,2005年的GDP。計算得出平均擬合相對誤差是0.1579%,平均預測相對誤差是一0.09105%。得到模型的擬合/預測精度比單變量的GEP算法高于5%以上。
3、結論
根據經濟領域中統計數據挖掘對預測國民經濟GDP數據的特點,提出了新穎的經濟統計時序GEP函數挖掘與預測方法和技術。主要貢獻如下:針對多變量時間序列中各因素之間存在著一定的相關性,所觀測到的時序在一定程度上反映的信息有所重疊,提出了基于GEP的.多變量時序預測模型。通過主成分分析方法對影響時間序列的諸多因素進行成分約簡,提取影響因子大的幾個綜合指標作為輸入變量,提高了GEP時序挖掘的效率和準確率。通過實驗證明,以同一批真實宏觀的國民經濟統計年鑒GDP數據為研究對象,以后面年度GDP數據為預測目標,分別建立單變量預測模型和多變量預測模型,然后在不同的經濟預測模型上進行仿真挖掘預測。通過實驗結果和相關性能指標的對比分析,證明多變量GEP經濟統計時序預測模型的擬合/預測要比單變量GEP算法的預測精度提高了5%以上。該方法同樣適用于RFID應用系統的時序數據挖掘。
參考文獻:
[1]賈曉斌,唐常杰,左劫,等.基于基因表達式編程的頻繁函數集挖掘[J].計算機學報,2005,28(8):1247—1254
[2]元昌安,唐常杰,溫遠光,等.基于基因表達式編程的智能模型庫系統的實現[J].四川大學學報:工程科學版,2005,37(3):99—104.
[3]黃曉冬,唐常杰,普東航,等.基于基因表達式編程的函數關系發現方法[J].計算機科學,2003,30(增刊):278—182.
[4]鐘義嘯,唐常杰,陳宇,等.提高基因表達式編程發現知識效率的回溯策略[J].四川大學學報:自然科學版,2006,43(2):299—304.(1):128—133.
[5]胡建軍,唐常杰,彭京,等.快速跳出局部最優的VPS.GEP算法[J].四川大學學報:工程科學版,2007,39(1):128—133.
[6]彭京,唐常杰,李川,等.MGEP:基于多層染色體基因表達式編程的遺傳進化算法[J].計算機學報,2005,28(9):1459—1466.
[7]劉齊宏,唐常杰,胡建軍,等.多樣性制導分段進化的基因表達式編程[J].四川大學學報:工程科學版,2006,38(6):108—113.
【基于RFID與基因表達式編程的經濟統計時序挖掘】相關文章: