基于自組織數(shù)據(jù)挖掘區(qū)域物流需求預(yù)測論文
摘要:
文章將自組織數(shù)據(jù)挖掘方法應(yīng)用于區(qū)域物流需求預(yù)測,建立了參數(shù)GMDH輸入輸出模型和非參數(shù)模糊規(guī)則歸納區(qū)域物流需求預(yù)測模型,鑒于單個模型預(yù)測的局限性,以最小二乘法為最優(yōu)化準(zhǔn)則,建立了最優(yōu)線性組合預(yù)測模型。實(shí)證分析表明組合預(yù)測結(jié)果比較滿意,自組織數(shù)據(jù)挖掘方法是區(qū)域物流需求預(yù)測的有效工具。
關(guān)鍵詞:區(qū)域物流;物流需求;GMDH;組合預(yù)測
引言:
區(qū)域物流預(yù)測的研究始于上世紀(jì)90年代,我國學(xué)者對于物流需求預(yù)測的研究開始于本世紀(jì)初。由于區(qū)域物流概念從國外引入的時間不長,因此缺乏統(tǒng)一的標(biāo)準(zhǔn),統(tǒng)計數(shù)據(jù)很不全面,很多區(qū)域物流統(tǒng)計數(shù)據(jù)沒有能夠全面反映物流需求量的指標(biāo)。目前物流需求的量度大多通過實(shí)物量或價值量兩種度量體系來獲得,實(shí)物量主要有貨運(yùn)量、存貨量、加工量、配送量等,價值量則是反映所有物流環(huán)節(jié)的全部服務(wù)的價值構(gòu)成。大多數(shù)學(xué)者[1—3]在研究過程中用貨運(yùn)量來替代物流需求量,也有學(xué)者認(rèn)為利用貨運(yùn)量這一類的實(shí)物量不能如實(shí)反映物流需求。另外,目前物流需求預(yù)測的研究方法主要有統(tǒng)計學(xué)方法和人工智能方法[4]。統(tǒng)計學(xué)方法主要有投入產(chǎn)出模型、回歸分析、灰色理論模型和馬爾科夫鏈等,例如黃虎[5]通過構(gòu)建了主成分—SVR的“影響因素—區(qū)域物流需求”模型,對上海物流需求進(jìn)行預(yù)測,取得了良好的效果。人工智能方法主要有:人工神經(jīng)網(wǎng)絡(luò)及其改進(jìn)算法,林榮天[6]等建立了區(qū)域物流需求的BP神經(jīng)網(wǎng)絡(luò)模型,較好的擬合了區(qū)域經(jīng)濟(jì)與區(qū)域物流之間的非線性關(guān)系。
上述方法在模型可解釋性和學(xué)習(xí)樣本數(shù)量方面存在一定的局限性,而自組織數(shù)據(jù)挖掘在復(fù)雜系統(tǒng)的模擬和預(yù)測方面有著獨(dú)特的優(yōu)勢,所以論文將自組織數(shù)據(jù)挖掘技術(shù)應(yīng)用到區(qū)域物流需求預(yù)測中。從投入產(chǎn)出的角度,選擇交通運(yùn)輸、倉儲和郵政業(yè)產(chǎn)值來代表物流需求,主要是考慮到它可以大致代表物流供給量,在供需平衡的情況的下,其數(shù)值也代表物流需求量。首先分別建立了參數(shù)GMDH輸入輸出模型和非參數(shù)模糊規(guī)則歸納模型,得到單模型的預(yù)測結(jié)果,然后利用最優(yōu)線性組合建立了組合預(yù)測模型,得到更為理想的組合預(yù)測結(jié)果,最后對預(yù)測結(jié)果進(jìn)行了分析。
一、模型介紹。
1、自組織數(shù)據(jù)挖掘。
最早的自組織數(shù)據(jù)挖掘的思想由烏克蘭科學(xué)院A.G.I—vakhnenko院士于1967年提出,經(jīng)過不斷發(fā)展,如今在復(fù)雜系統(tǒng)的模擬、預(yù)測等方面,成為輔助人們進(jìn)行系統(tǒng)分析和決策的有力工具。自組織數(shù)據(jù)挖掘是建立在“進(jìn)化—遺傳—變異—選擇”的進(jìn)化論原理基礎(chǔ)上的,其建模方法體現(xiàn)了由簡單到復(fù)雜的事物演化過程,是基于復(fù)雜系統(tǒng)的'前沿科學(xué)。
利用自組織數(shù)據(jù)挖掘理論建立復(fù)雜系統(tǒng)動態(tài)模型時,根據(jù)因變量及自變量樣本數(shù)據(jù),在計算機(jī)上采用人機(jī)對話方式產(chǎn)生大量競爭模型,再根據(jù)外準(zhǔn)則選擇一部分“最有希望”的模型,在利用這些模型產(chǎn)生大批新的競爭模型。按這樣的方式將模型的結(jié)構(gòu)從簡單到復(fù)雜逐步改進(jìn),最后選擇出最優(yōu)的復(fù)雜模型來。自組織算法的外準(zhǔn)則是基于某些補(bǔ)充信息,即是在估計模型參數(shù)時沒有使用過的信息。使用外準(zhǔn)則篩選競爭模型,是自組織數(shù)據(jù)挖掘算法的特色[7]。
GMDH(Group Method of Data Handling)是自組織數(shù)據(jù)挖掘的核心技術(shù)。具體來說包括以下四類模型:
(1)參數(shù)GMDH輸入輸出模型。
。2)參數(shù)GMDH自回歸模型。
(3)非參數(shù)相似合成模型。
。4)非參數(shù)模糊規(guī)則歸納模型。
論文選擇的是參數(shù)GMDH輸入輸出模型和非參數(shù)模糊規(guī)則歸納模型。
參數(shù)GMDH輸入輸出模型能夠自動篩選進(jìn)入模型的自變量,因此常用于復(fù)雜系統(tǒng)的關(guān)鍵變量提取。這也符合物流需求預(yù)測的需要。同時,該模型允許變量延遲,可以直接利用建立的模型進(jìn)行預(yù)測。非參數(shù)模糊規(guī)則歸納模型使用黑箱方法分析處理系統(tǒng)輸入、輸出變量之間的關(guān)系,運(yùn)用GMDH技術(shù),能夠客觀地從系統(tǒng)所有可能的模糊規(guī)則中產(chǎn)生關(guān)于系統(tǒng)的最優(yōu)模糊規(guī)則。因此它的最大優(yōu)勢是可以比較直觀有效地描述模糊系統(tǒng),是定性與定量的結(jié)合[8]。
2、組合預(yù)測。
所謂組合預(yù)測,就是將不同的預(yù)測方法進(jìn)行適當(dāng)?shù)慕M合,綜合利用各種方法所提供的有用信息,從而盡可能的提高預(yù)測精度。論文根據(jù)參數(shù)GMDH輸入輸出模型和非參數(shù)模糊規(guī)則歸納模型的預(yù)測結(jié)果,建立了最優(yōu)線性組合預(yù)測模型得到最終預(yù)測值,即:Y=b0+b1Y參數(shù)GMDH+b2Y參數(shù)GMDH(1)其中b0、b1、b2通過最小二乘法估計得到。
二、實(shí)證研究。
論文通過對成都物流需求預(yù)測來進(jìn)行實(shí)證研究。由于物流需求與區(qū)域經(jīng)濟(jì)發(fā)展存在著很大的相關(guān)關(guān)系,所以論文選擇利用區(qū)域經(jīng)濟(jì)指標(biāo)對區(qū)域物流需求進(jìn)行預(yù)測,而不是直接利用物流數(shù)據(jù)本身。影響區(qū)域物流需求的因素從宏觀上考慮主要有四個:區(qū)域經(jīng)濟(jì)規(guī)模、產(chǎn)業(yè)結(jié)構(gòu)、經(jīng)濟(jì)空間布局和區(qū)域行業(yè)因素。根據(jù)文獻(xiàn)[9]、[10]、[11],結(jié)合成都實(shí)際情況和自組織數(shù)據(jù)挖掘能夠自動篩選進(jìn)入模型的自變量的特點(diǎn),選擇以下指標(biāo)作為影響物流需求的自變量:本地生產(chǎn)總值X1(萬元)、固定資產(chǎn)投資總額X2(萬元)、第一產(chǎn)業(yè)增加值X3(萬元)、第二產(chǎn)業(yè)增加值X4(萬元)、第三產(chǎn)業(yè)增加值X5(萬元)、貨物發(fā)送量X6(萬噸)、貨物周轉(zhuǎn)量X7(億噸公里)、區(qū)域零售總額X8(萬元)、人均消費(fèi)水平X9(元)、區(qū)域外貿(mào)總額X10(億美元)。選取指標(biāo)交通運(yùn)輸、倉儲和郵政業(yè)產(chǎn)值Y(萬元)來代表物流需求。
論文利用成都市1985——2008年的數(shù)據(jù)作為預(yù)測模型的原始數(shù)據(jù),其中1985——2005年的數(shù)據(jù)用作擬合模型,用2006——2008年的數(shù)據(jù)做模型檢驗(yàn)。
數(shù)據(jù)來自成都市統(tǒng)計年鑒。
1、參數(shù)GMDH輸入輸出模型預(yù)測。
利用Knowledge Miner軟件建立參數(shù)GMDH輸入輸出模型,根據(jù)多次試驗(yàn)和檢驗(yàn),發(fā)現(xiàn)當(dāng)選擇最大時滯為3的線性模型時結(jié)果最理想。具體模型如下:Y參數(shù)GMDH=—0.0078X4(t—3)+0.0978X5—125.3969X7(t—1)+23.6988X9(t—1)+36392.9460(2)由上式可知進(jìn)入模型的自變量有:第二產(chǎn)業(yè)增加值X4(萬元)、第三產(chǎn)業(yè)增加值X5(萬元)、貨物周轉(zhuǎn)量X7(億噸公里)、人均消費(fèi)水平X9(元).Adjusted R—squared值為0.998。
2、非參數(shù)模糊規(guī)則歸納。
模型預(yù)測利用Knowledge Miner軟件建立非參數(shù)模糊規(guī)則歸納模型,根據(jù)多次試驗(yàn)和檢驗(yàn),發(fā)現(xiàn)當(dāng)選擇最大時滯為12時模型結(jié)果最理想。由于非參數(shù)模糊規(guī)則歸納模型使用黑箱方法分析處理系統(tǒng)輸入、輸出變量之間的關(guān)系,所以無法得到具體模型形式,但根據(jù)模型輸出結(jié)果可知入選的變量為交通運(yùn)輸、倉儲和郵政業(yè)產(chǎn)值Y(t—1),第一產(chǎn)業(yè)增加值X3(t—3),區(qū)域零售總額X8(t—12)。
3、組合預(yù)測。
利用參數(shù)GMDH輸入輸出模型和非參數(shù)模糊規(guī)則歸納模型的預(yù)測結(jié)果和模擬值,建立的最優(yōu)線性組合預(yù)測模型如下:Y=—3380.323+1.142Y參數(shù)GMDH—0.14Y非參數(shù)GMDH(3)其中,Adjusted R—squared值為0.998。
4、結(jié)果分析。
參數(shù)GMDH輸入輸出模型、非參數(shù)模糊規(guī)則歸納模型及組合預(yù)測模型的預(yù)測結(jié)果。參數(shù)GMDH輸入輸出模型平均絕對誤差是1.66%,相對誤差最大為3.37%。非參數(shù)模糊規(guī)則歸納模型的平均絕對誤差是3.65%,相對誤差最大為7.55%,超過了5%,誤差比較大。所以,參數(shù)GMDH輸入輸出模型的預(yù)測效果要好于非參數(shù)模糊規(guī)則歸納模型。組合預(yù)測模型平均絕對誤差為1.42%,相對誤差最大為2.67%。即平均絕對誤差及最大相對誤差均小于單個模型,總體來說預(yù)測結(jié)果要優(yōu)于兩個單個模型,得到的預(yù)測結(jié)果相對比較滿意、可靠。
三、結(jié)語。
論文討論了參數(shù)GMDH輸入輸出模型和非參數(shù)模糊規(guī)則歸納模型在區(qū)域物流需求預(yù)測中的應(yīng)用,針對兩種預(yù)測模型建立了最優(yōu)線性組合預(yù)測模型,實(shí)證表明組合預(yù)測模型的預(yù)測結(jié)果是比較準(zhǔn)確,自組織數(shù)據(jù)挖掘可以作為區(qū)域物流需求預(yù)測的有效工具。未來可以在提高模型的預(yù)測精度和可解釋性方面做進(jìn)一步研究,另外,在組合預(yù)測方面,最優(yōu)準(zhǔn)則一般為“誤差平方和最小”、“誤差的絕對值之和最小”等,可以進(jìn)一步研究不同的最優(yōu)準(zhǔn)則,更好地發(fā)揮組合預(yù)測的優(yōu)勢。
【基于自組織數(shù)據(jù)挖掘區(qū)域物流需求預(yù)測論文】相關(guān)文章:
1.科技論文發(fā)表基于Web數(shù)據(jù)挖掘技術(shù)的研究論文