數據挖掘在股票估價的運用
股票價格受到多種因素影響,具有復雜非線性變化特點,單一預測方法只難反映其片斷信息,預測精度低。那么,在股票估價中如何運用數據挖掘呢?
1引言
隨著經濟的迅速發展,股票交易市場成為人們投資理財的一種重要途徑,然而受到多種影響,是一種高風險、高回報投資方式,為了獲得更多的利潤,必須對股票價格的波動和發展趨勢準確的把握,因此股標價格的預測成為經濟領域中的一個重要研究課題[1]。
股票價格預測是指通過對歷史和當天股票價格進行分析和研究,對將來股票的價格進行預測。發達國家對股票價格預測問題研究比較成熟,發達國家股票市場比較穩定、正規,具有非常好的統計規律,而我國股票交易市場剛起步不久,受人為影響、政治、經濟影響比較,還起于發展初期,遠不成熟,沒有明顯統計規律,采用國外股票價格預測技術對我國股票價格進行預測,獲得結果不可靠,誤差比較大,容易給投資起到誤導作用,沒有什么參考和指導價值[3]。在國內,自從有了股票交易市場以來,就引起國內大量學者廣泛關注,提出一些股票預測方法,常用的方法有線性回歸、時間序列分析、灰色預測算法等[4-6]。其中的時間序列分析中一維自回模型(ARIMA最為靈活,使用最為廣泛,但是基于線性建模,股票是一種非線性、時變的時間序列數據,預測精度有待進一步提高[7]。近幾年,隨著數據挖掘技術發展,出現神經網絡、支持向量機等智能機器學習方法,為股票預測拓展了新的研究空間,并在股票市場中得到了廣泛的應用。股票價格受多種因素影響,變化十分復雜,其一種預測模型只能反映其部分信息,難以全面挖掘股票價格數據中隱藏的變化規律,預測結果與股民、投資人的要求有一定的差距[8]。
為了進一步提高股票價格預測精度,更好為股民、投資人提供有價格的參考信息,提出一種基于數據挖掘的股票價格組合預測模型。首先采用線性預測模型ARIMA對股票價格進行預測,然后采用智能學習算法—最小二乘支持向量機(LS-SVM)對股票價格非線線部分進行預測,最后將兩模型的預測值融合成股票價格的預測值。
2股票價格的預測原理
股票價格變化受到企業經營狀況、國家政策、經濟發展狀況、股民、投資人等因素影響,是一個動態、非線性、時變的復雜系統,具有一定的規律性,但同時具有顯著的隨機性,導致股價格漲跌幅度較大。股票價格量數學模型可以表示為:(略)。
根據式(1)可知,如果采用單一的線性ARIMA模型或非線性LSSSVM模型只能預測趨勢部分或非線線部分,均只能反映股票價格的部分信息,不能全面反映股票價格變化規律,采用單一的ARIMA或LSSSVM模型,得到預測結果不可靠,且預測精度低。為了解決單一模型預測精度的低,無法反映股票價格動態、非線性、時變等變化規律,將ARIMA和LSSVM模型組合在一起,對股票價格進行預測,以提高股票價格預測精度,因此基于數據挖掘的股票價格組合模型預測原如圖1所示。
3數據挖掘的股票價格預測模型
3.1股票價格的預處理
股票價格歷史數據是一種非平穩數據,漲跌幅度比較大,因此最小值和最大值相差比較大,這會對股票價格預測模型訓練速度產生不利影響,為消除這種不利因素,對股票價格歷史數據進行預處理,使其范圍縮放到[0.10.9],具體為:(略)。
3.2股票價格的線性預測模型
設股票價格歷史數據為:{xt},t=1,2,…n,ARIMA建模過程為:
1)由于股標是一種非平穩時間序列,首先對它進行差分處理,即:(略)。
經過多次差分后,股票價格數據變成是一種平穩時間序列,即可以得到:(略)。
那么股票價格的ARIMA(p,q,d)模型為:(略)。
2)模型識別。p、q是ARIMA建模的關鍵,首先采用自相關和偏自相關圖來決定p、q可能的取值,然后采用最小信息準則(AIC)和相合性準則(SBC)確定出最佳的模型階數。AIC和SBC函數定義為:(略)。
3)參數估計和模型診斷。模型中所有參數采用極大似然估計得到,然后對參數在模型中進行檢驗,對其合理性進行判定,如果不適合就重新估計參數。
4)采用最合參數建立股票價格預測模型。本文采用浙江大學DPS6.5軟件包的ARIMA模塊實現股票價格整個建模過程。
3.3股票價格的非線性預測模型
對于股票價格時間序列{xt},t=1,2,…n,由于LSSVM不能對一維時間序列進行直接預測,因此本文通過拓階方式將一維股票價格時間序列轉換成為多維時間序列{(xi,yi)},i=1,2,…k,xi和yi分別表示樣本輸入和輸出,xi∈Rn,yi∈R,通過非線性映射函數φ(•)將樣本映射到高維特征空間,從而獲得最優線性回歸函數:(略)。
根據結構風險最小化原則,式(9)問題求解的LSSVM回歸模型為:(略)。
通過引入拉格朗日乘子將上述約束優化問題轉變為無約束對偶空間優化問題,即:(略)。
選擇徑向基核函數作為LSSVM核函數,最后得到股票價格的LSSVM預測模型為:(略)。
3.4股票價格的組合預測步驟
1)收集某支股票價格的歷史數據。2)對股票價格原始歷史數據進行預處理,將其值縮放到0.1到0.9之間。3)采用ARIMA模型對股票價格線性變化規律進行預測,得到線性預測值。4)計算股票價格原始歷史數據與ARIMA模型預測值之間的殘差,這樣股票價格的非線性變化規律就隱藏于預測殘差中。5)對股票價格預測殘差數據進行拓階,確定模型最優滯后階數,并對股票價格殘差數據進行重構,得到LSSVM的樣本集。6)將重構的股票價格殘差數據輸入到LSSVM進行學習,并對其進行預測,得到股票價格殘差預測值,即股票價格非線性部分預測值。7)對線性預測值和非線性預測值進行融合,得到股票價格的最終預測值。其具體工作流程如圖2所示。
3.5股標價格預測模型性能評價指標
為了評價股票價格預測模型性能,采用本研究采用均方根誤差和平均絕對相對誤差作為模型性能評價指標,它們分別定義如下:(略)。
4股票價格組合模型仿真
4.1數據來源
仿真數據來源于黃山旅游(600054)股票2007年1月到2007年12月的收盤價,共收集到211個數據樣本,其中前111個數據作為訓練集,對股票收盤價進行建模,最后100個樣本作為測試集,檢驗股票收盤價預測模型的預測性能。600054的收盤價格如圖3所示。
4.2股票價格的線性部分預測
對股票價格的原始數據首先進行歸一化處理,然后將211個數據樣本輸入到DPS6.5軟件中,采用ARIMA模塊得到偏相關和自相關圖,如圖4所示。從圖4可知,該股票價格具有明顯的非平穩性,需要首先對其進行差分處理,使其變成平穩時間序列,ARIMA模型才能進行預測。股票價格的1階偏相關和自相關圖如圖5所示,此時,股票價格基本平穩,因此最佳差分階數d=1。采用從低階到高階逐步試探法來識別模型的參數,得到600054的收盤價格最優預測模模型為ARIMA(2,1,1),采用ARIMA(2,1,1)對最后100個樣本,預測結果如圖6所示。從圖6可知,ARIMA模型對股票價格的預測精度不高,但是能夠很好的把握股票價格變化趨勢。
4.3股票價格的非線性部分預測
根據ARIMA(2,1,1)預測結果確定股票價格的殘差序列,然后采用LSSVM進行逐步定階,確定最優價數為3,然后采用最優階數重構數據集,然后將訓練本輸入到LSSVM中進行學習建模,并對殘差序列測試集進行預測。
4.4獲得股票價格的最終預測結果
將ARIMA(2,1,1)和LSSVM模型預測結果進行相加,得到股票價格的最終預測結果。預測結果如圖7所示。
4.5與其它預測模型結果對比
為了驗證基于數據挖掘的股票價格預測模型的優越性,采用單一預測模型ARIMA和LSSVM進行對比實驗,它們對股票價格測試集的預測結果RMSE和MAPE如表1所示。從表1的對比結果可知,基于數據挖掘的組合預測模型的股票價格預測精度要遠遠高于單一的ARIMA和SVM模型預測精度,預測誤差大大降低,對比結果表明組合預測模型綜合利用了ARIMA和SVM優勢,達到優勢互補,克服兩者缺陷,更加全面的刻畫了股票價格的變化規律,而單一預測模型只能反映股票價格部分信息,不能能夠精確描述股票價格非線性和周期變化規律,因此相對于傳統預測方法,基于數據挖掘的組合預測模型是一種有效股票價格預測方法。
5結論
股票價格受到多種因素影響,具有復雜非線性變化特點,單一預測方法只難反映其片斷信息,預測精度低。為了全面、準確描述股票價格變化規律,提出一種基于數據挖掘的股票價格組合預測模型。仿真結果明,組合模型有效提高了股票價格預測精度,在股票價格預測中有著廣泛的應用前景。
【數據挖掘在股票估價的運用】相關文章:
數據挖掘技術在移動通信中的運用02-27
數據挖掘與企業營銷策略探究03-29
數據挖掘論文的參考文獻01-07
淺談反病毒數據庫的數據分類挖掘論文02-19
數據挖掘論文的參考文獻范文02-18
數據挖掘與客戶關系管理分析02-28
時間序列數據挖掘研究論文提綱03-27
數據挖掘論文參考文獻范文11-20
數據挖掘技術的教學輔助系統應用論文03-16
數據挖掘技術在就業指導的應用論文02-27
- 相關推薦