簡(jiǎn)介: 針對(duì)最小二乘回歸方法,分析了水文計(jì)算中判斷相關(guān)是否密切的臨界值0.8的來(lái)歷和使用條件,并指出這一判別標(biāo)準(zhǔn)不具備普遍意義。結(jié)合實(shí)例論述了回歸系數(shù)出現(xiàn)錯(cuò)誤符號(hào)的原因和分析方法。
關(guān)鍵字:最小二乘法 回歸分析 相關(guān)系數(shù) 臨界值 回歸系數(shù) 復(fù)共線關(guān)系
回歸分析方法是常用的數(shù)理統(tǒng)計(jì)方法,它用來(lái)處理變量之間的相關(guān)關(guān)系,在科學(xué)研究、工程技術(shù)等各個(gè)領(lǐng)域均有廣泛的應(yīng)用。由于回歸分析是通過(guò)試驗(yàn)數(shù)據(jù)研究變量之間的相關(guān)關(guān)系,故使用此方法時(shí),需要判斷相關(guān)關(guān)系是否密切(對(duì)回歸方程進(jìn)行顯著性檢驗(yàn))。水文計(jì)算的一些文獻(xiàn)[1][2]中,指出相關(guān)系數(shù)的絕對(duì)值|r|>0.8作為判別標(biāo)準(zhǔn),而沒(méi)有明確使用此標(biāo)準(zhǔn)的前提。另外,使用最小二乘估計(jì),有時(shí)盡管回歸方程顯著,但回歸方程中回歸系數(shù)的符號(hào)與實(shí)際問(wèn)題不符,即回歸系數(shù)出現(xiàn)錯(cuò)誤符號(hào),顯然這種情況下的回歸方程是不能使用的。本文針對(duì)相關(guān)系數(shù)的絕對(duì)值|r|>0.8判別標(biāo)準(zhǔn)的來(lái)歷以及回歸系數(shù)錯(cuò)誤符號(hào)的原因分析等進(jìn)行論述,以期達(dá)到回歸方法的正確使用。
1 相關(guān)系數(shù)臨界值0.8的來(lái)歷
水文上,常用0.8作為判別相關(guān)關(guān)系是否密切的監(jiān)界值。例如文獻(xiàn)[1][2]中均提到相關(guān)系數(shù)絕對(duì)值|r|>0.8時(shí),認(rèn)為相關(guān)密切。事實(shí)上,這一標(biāo)準(zhǔn)是針對(duì)一元線性回歸觀察值組數(shù)n≥10時(shí)的一種簡(jiǎn)便的判別方法,不具有普遍意義。若忽略了n≥10這一條件,則可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。關(guān)于這一點(diǎn)可以從相關(guān)系數(shù)顯著性檢驗(yàn)制成的相關(guān)系數(shù)臨界值表中容易得到解釋。
對(duì)于多元線性回歸,F檢驗(yàn)法的統(tǒng)計(jì)量F和復(fù)相關(guān)系數(shù)R分別為[3]:
式中 n——觀測(cè)數(shù)據(jù)組數(shù)
。怼宰兞總(gè)數(shù)
u——回歸平方和
。选?dú)埐钇椒胶?/p>
設(shè)顯著性水平為a、自由度為(m,n-m-1)的F檢驗(yàn)法的臨界值為:Fa(m,n-m-1),并簡(jiǎn)記為Fa,利用式(1)(2)可以導(dǎo)出F≥Fa等價(jià)于:
時(shí)相關(guān)系數(shù)靈敏檢驗(yàn)法的臨界值,以下簡(jiǎn)記為Ra。
當(dāng)R≥Ra時(shí),線性回歸方程顯著。
對(duì)于一元線性回歸,令Ra(n-2)=ra,簡(jiǎn)單線性相關(guān)系數(shù)r2=u/(Q+u),|r|=R,當(dāng)|r|≥ra時(shí),線性回歸方程顯著。
對(duì)于Ra已制成相關(guān)系數(shù)檢驗(yàn)臨界值表[3,4]。以一元線性回歸為便,由此表可得表1中的數(shù)據(jù)。
可見(jiàn),當(dāng)a=0.01,n=10,|r|≥0.765≈0.8,回歸方程效果顯著。
由上表可知,當(dāng)a=0.01,n≥10時(shí),|r|>0.8>ra。即n>10時(shí),ra<0.8。在水文計(jì)算中回歸分析用于插補(bǔ)延長(zhǎng)系列,從避免有較大誤差提高設(shè)計(jì)成果精度的角度,將n≥10時(shí)|r|>0.8作為相關(guān)密切的簡(jiǎn)易判別標(biāo)準(zhǔn)。但絕不能不問(wèn)n等于多少,而籠統(tǒng)地認(rèn)為只要|r|>0.8,則相關(guān)密切。
同時(shí),還應(yīng)注意,相同a相關(guān)系數(shù)臨界值Ra將隨自變量個(gè)數(shù)m的增大而增大。便如對(duì)于三元線性回歸,當(dāng)n=10時(shí),由文獻(xiàn)[4]中相關(guān)系數(shù)臨界值表可查得a=0.01時(shí),R0.01=0.911。切忌不分具體情況,一概而論,盲目使用|r|>0.8的判別標(biāo)準(zhǔn)。
2 回歸系數(shù)錯(cuò)誤符號(hào)的原因及分析方法
為討論方便,需引進(jìn)一般多元線性回歸模型
通常稱X為多元回歸模型的設(shè)計(jì)陣。
最小二乘原則確定回歸系數(shù)具有良好的性質(zhì),例如當(dāng)假設(shè)ε~N(0,σ2)時(shí),可對(duì)回歸方程進(jìn)行顯著性檢驗(yàn),經(jīng)驗(yàn)回歸系數(shù)是理論回歸系數(shù)的無(wú)偏估計(jì)量等。但最小二乘估計(jì)有時(shí)會(huì)出現(xiàn)某些自變量的回歸系數(shù)的符號(hào)與實(shí)際問(wèn)題不符的不合理現(xiàn)象,以下實(shí)例就說(shuō)明了這一點(diǎn)。
某承壓水漏斗區(qū)漏斗中心歷年最低水位、歷年開(kāi)采量資料見(jiàn)表2。漏斗中心最低水位出現(xiàn)在每年6月底、7月初。利用水均衡方程分析表明,影響第t+1年漏斗中心最低水位的主要因素為第t年漏斗中心最低水位和第t年漏斗區(qū)開(kāi)采量。根據(jù)1976~1995年數(shù)據(jù)建立線性回歸方程為:
。瑁ǎ簦保剑埃福梗叮 h(t)+0.0150 Q(t)-9.3952。ǎ担
式中h(t)、h(t+1)分別為第t年、第t+1年漏斗中心年最低水位m; Q(t)為第t年年開(kāi)采量,106m3。
從物理成因上分析容易得出,開(kāi)采量對(duì)漏斗中心最低水位的影響為負(fù)相關(guān),即開(kāi)采量越大,漏斗中心水位越低,但回歸方程中Q(t)的系數(shù)卻為正值,顯然是不合理的。盡管式(5)經(jīng)過(guò)顯著性檢驗(yàn)回歸效果顯著(復(fù)相關(guān)系數(shù)R=0.969,相關(guān)系數(shù)臨界值R0.01=0.662),但這樣的模型是不符合實(shí)際的。
為什么回歸系數(shù)會(huì)出現(xiàn)錯(cuò)誤符號(hào)理論分析[5]和實(shí)踐均表明,當(dāng)設(shè)計(jì)陣X接近奇異時(shí),正規(guī)方程組的唯一解雖然存在,但最小二乘估計(jì)的性能會(huì)變壞。X接近奇異,也就是X的列向量接近線性相關(guān),這種自變量之間的近似線性關(guān)系,稱為復(fù)共線關(guān)系,或復(fù)共線性。復(fù)共線關(guān)系的存在是回歸系數(shù)錯(cuò)誤符號(hào)的主要原因。
判斷設(shè)計(jì)陣復(fù)共線性關(guān)系的簡(jiǎn)便方法是計(jì)算自變量之間的相關(guān)系數(shù)。實(shí)例中h(t)與Q(t)的相關(guān)系數(shù)為-0.90,有近似線性關(guān)系,也即設(shè)計(jì)陣X的列向量接近線性相關(guān),這正是導(dǎo)致式(5)回歸系數(shù)錯(cuò)誤符號(hào)的原因。
對(duì)于復(fù)共線關(guān)系存在且各自變量確實(shí)對(duì)倚變量均影響顯著,則應(yīng)該用其它回歸方法,例如嶺回歸、殘差絕對(duì)值準(zhǔn)則回歸等,不能將回歸系數(shù)存在錯(cuò)誤符號(hào)的回歸方程應(yīng)用于實(shí)際。
3 結(jié)語(yǔ)
本文論述了水文計(jì)算中采用相關(guān)系數(shù)0.8作為相關(guān)是否密切的判別標(biāo)準(zhǔn)的來(lái)歷和使用條件,指出此標(biāo)準(zhǔn)并不具備普遍意義。結(jié)合實(shí)例分析了導(dǎo)致回歸系數(shù)錯(cuò)誤符號(hào)的原因,給出了判斷設(shè)計(jì)陣存在復(fù)共線性的簡(jiǎn)易方法。搞清這些對(duì)于正確使用最小二乘法回歸計(jì)算,進(jìn)行有效的數(shù)據(jù)分析,將具有重要的意義。
參考文獻(xiàn)
1蔣金珠.工程水文及水利計(jì)算M.北京:水利電力出版社,1992.
2殷兆熊.水文水利計(jì)算M.北京:中國(guó)水利水電出版社,1994.
3王俊德.水文統(tǒng)計(jì)M.北京:水利水電力出版社,1993.
4費(fèi)勤貴.水文統(tǒng)計(jì)學(xué)M.北京:水利電力出版社,1991.
5方開(kāi)泰.實(shí)用回歸分析M.北京:科學(xué)出版社,1988.