回歸分析方法是常用的數(shù)理統(tǒng)計方法,它用來處理變量之間的相關(guān)關(guān)系,在科學(xué)研究、工程技術(shù)等各個領(lǐng)域均有廣泛的應(yīng)用。由于回歸分析是通過試驗數(shù)據(jù)研究變量之間的相關(guān)關(guān)系,故使用此方法時,需要判斷相關(guān)關(guān)系是否密切(對回歸方程進行顯著性檢驗)。水文計算的一些文獻[1][2]中,指出相關(guān)系數(shù)的絕對值|r|>0.8作為判別標準,而沒有明確使用此標準的前提。另外,使用最小二乘估計,有時盡管回歸方程顯著,但回歸方程中回歸系數(shù)的符號與實際問題不符,即回歸系數(shù)出現(xiàn)錯誤符號,顯然這種情況下的回歸方程是不能使用的。本文針對相關(guān)系數(shù)的絕對值|r|>0.8判別標準的來歷以及回歸系數(shù)錯誤符號的原因分析等進行論述,以期達到回歸方法的正確使用。
1 相關(guān)系數(shù)臨界值0.8的來歷
水文上,常用0.8作為判別相關(guān)關(guān)系是否密切的監(jiān)界值。例如文獻[1][2]中均提到相關(guān)系數(shù)絕對值|r|>0.8時,認為相關(guān)密切。事實上,這一標準是針對一元線性回歸觀察值組數(shù)n≥10時的一種簡便的判別方法,不具有普遍意義。若忽略了n≥10這一條件,則可能會導(dǎo)致錯誤的結(jié)論。關(guān)于這一點可以從相關(guān)系數(shù)顯著性檢驗制成的相關(guān)系數(shù)臨界值表中容易得到解釋。
對于多元線性回歸,F檢驗法的統(tǒng)計量F和復(fù)相關(guān)系數(shù)R分別為[3]:
式中。睢^測數(shù)據(jù)組數(shù)
。怼宰兞總數(shù)
。酢貧w平方和
。选獨埐钇椒胶
設(shè)顯著性水平為a、自由度為(m,n-m-1)的F檢驗法的臨界值為:Fa(m,n-m-1),并簡記為Fa,利用式(1)(2)可以導(dǎo)出F≥Fa等價于:
時相關(guān)系數(shù)靈敏檢驗法的臨界值,以下簡記為Ra。
當R≥Ra時,線性回歸方程顯著。
對于一元線性回歸,令Ra(n-2)=ra,簡單線性相關(guān)系數(shù)r2=u/(Q+u),|r|=R,當|r|≥ra時,線性回歸方程顯著。
對于Ra已制成相關(guān)系數(shù)檢驗臨界值表[3,4]。以一元線性回歸為便,由此表可得表1中的數(shù)據(jù)。
可見,當a=0.01,n=10,|r|≥0.765≈0.8,回歸方程效果顯著。
由上表可知,當a=0.01,n≥10時,|r|>0.8>ra。即n>10時,ra<0.8。在水文計算中回歸分析用于插補延長系列,從避免有較大誤差提高設(shè)計成果精度的角度,將n≥10時|r|>0.8作為相關(guān)密切的簡易判別標準。但絕不能不問n等于多少,而籠統(tǒng)地認為只要|r|>0.8,則相關(guān)密切。
同時,還應(yīng)注意,相同a相關(guān)系數(shù)臨界值Ra將隨自變量個數(shù)m的增大而增大。便如對于三元線性回歸,當n=10時,由文獻[4]中相關(guān)系數(shù)臨界值表可查得a=0.01時,R0.01=0.911。切忌不分具體情況,一概而論,盲目使用|r|>0.8的判別標準。
2 回歸系數(shù)錯誤符號的原因及分析方法
為討論方便,需引進一般多元線性回歸模型
通常稱X為多元回歸模型的設(shè)計陣。
最小二乘原則確定回歸系數(shù)具有良好的性質(zhì),例如當假設(shè)ε~N(0,σ2)時,可對回歸方程進行顯著性檢驗,經(jīng)驗回歸系數(shù)是理論回歸系數(shù)的無偏估計量等。但最小二乘估計有時會出現(xiàn)某些自變量的回歸系數(shù)的符號與實際問題不符的不合理現(xiàn)象,以下實例就說明了這一點。
某承壓水漏斗區(qū)漏斗中心歷年最低水位、歷年開采量資料見表2。漏斗中心最低水位出現(xiàn)在每年6月底、7月初。利用水均衡方程分析表明,影響第t+1年漏斗中心最低水位的主要因素為第t年漏斗中心最低水位和第t年漏斗區(qū)開采量。根據(jù)1976~1995年數(shù)據(jù)建立線性回歸方程為:
h(t+1)=0.8963 h(t)+0.0150 Q(t)-9.3952。ǎ担
式中h(t)、h(t+1)分別為第t年、第t+1年漏斗中心年最低水位m; Q(t)為第t年年開采量,106m3。
從物理成因上分析容易得出,開采量對漏斗中心最低水位的影響為負相關(guān),即開采量越大,漏斗中心水位越低,但回歸方程中Q(t)的系數(shù)卻為正值,顯然是不合理的。盡管式(5)經(jīng)過顯著性檢驗回歸效果顯著(復(fù)相關(guān)系數(shù)R=0.969,相關(guān)系數(shù)臨界值R0.01=0.662),但這樣的模型是不符合實際的。
為什么回歸系數(shù)會出現(xiàn)錯誤符號理論分析[5]和實踐均表明,當設(shè)計陣X接近奇異時,正規(guī)方程組的唯一解雖然存在,但最小二乘估計的性能會變壞。X接近奇異,也就是X的列向量接近線性相關(guān),這種自變量之間的近似線性關(guān)系,稱為復(fù)共線關(guān)系,或復(fù)共線性。復(fù)共線關(guān)系的存在是回歸系數(shù)錯誤符號的主要原因。
判斷設(shè)計陣復(fù)共線性關(guān)系的簡便方法是計算自變量之間的相關(guān)系數(shù)。實例中h(t)與Q(t)的樣本相關(guān)系數(shù)為-0.90,有近似線性關(guān)系,也即設(shè)計陣X的列向量接近線性相關(guān),這正是導(dǎo)致式(5)回歸系數(shù)錯誤符號的原因。
對于復(fù)共線關(guān)系存在且各自變量確實對倚變量均影響顯著,則應(yīng)該用其它回歸方法,例如嶺回歸、殘差絕對值準則回歸等,不能將回歸系數(shù)存在錯誤符號的回歸方程應(yīng)用于實際。
3 結(jié)語
本文論述了水文計算中采用相關(guān)系數(shù)0.8作為相關(guān)是否密切的判別標準的來歷和使用條件,指出此標準并不具備普遍意義。結(jié)合實例分析了導(dǎo)致回歸系數(shù)錯誤符號的原因,給出了判斷設(shè)計陣存在復(fù)共線性的簡易方法。搞清這些對于正確使用最小二乘法回歸計算,進行有效的數(shù)據(jù)分析,將具有重要的意義。
參考文獻
1蔣金珠.工程水文及水利計算M.北京:水利電力出版社,1992.
2殷兆熊.水文水利計算M.北京:中國水利水電出版社,1994.
3王俊德.水文統(tǒng)計M.北京:水利水電力出版社,1993.
4費勤貴.水文統(tǒng)計學(xué)M.北京:水利電力出版社,1991.
5方開泰.實用回歸分析M.北京:科學(xué)出版社,1988.