11/28/2006

11.13 迴歸分析regress

11.13.1最小平方法多項式迴歸


多項式簡單迴歸可用線性解法直接求解:

y=a0 + a1t +a2t2

若利用最小平方法,將模式與觀測點誤差之平方和求取最小值,將可間接求得上項係數。
迴歸分析是實驗工作常需使用之工具。其基本的迴歸為線性,以最小平方法解此線性模式:

y= Xβ+ε
ε~N(0,σ²I)

在此公式中,y為nx1觀察值,X為nxP之設計矩陣,其列數與y之行數相同,而p則為預測子之變數。β則為px1之向量參數,為待求之解;此外ε為隨機函數。其對應之指令型式如下:

B = regress(y, X)
[B, bint, r, rint, stats] = regress(y, X)
[B, bint, r, rint, stats] = regress(y, X, alpha)

指令 regress(y, X)為以最小平方法進行多重回歸,執行後會傳回線性模式Y = X*B之係數B向量。其中,X為nxp之設計參數,其列數n必須與觀測值Y之行長度相同,且其第一行必須為1,以包含模式中之常數項。Y則為nx1之觀測量向量。因為F檢定與P值之計算必須模式含有常數項。
輸入參數中,alpha為顯著水準,預設值為0.05。輸出值bint則為在此信任水準下,B之上下區間。r為殘值,其平方則為迴歸平方和與變方和之比。rint則為殘值r之上下區間,可作為偵察離散度之用。stats則為統計參數,含有R平方、F檢定及P值等。

在X矩陣內,行間是線性獨立的,regress指令執行時 ,會先設定B元素之最大數為零,以先得到基本解,其後再傳回bint,若B為零值時會傳回零。X與Y中若含有NaN,則指令會視為遺失值,會自動去除。

例:在MATLAB 工具箱中,存有moore.mat之資料,其中前面五行為設定變數,第六行為回應值。求其回歸係數關係。

>>load moore;
moore
moore =
1.0e+003 *
1.1250 0.2320 7.1600 0.0859 8.9050 0.0016
0.9200 0.2680 8.8040 0.0865 7.3880 0.0009
0.8350 0.2710 8.1080 0.0852 5.3480 0.0007
1.0000 0.2370 6.3700 0.0838 8.0560 0.0007
1.1500 0.1920 6.4410 0.0821 6.9600 0.0003
0.9900 0.2020 5.1540 0.0792 5.6900 0.0004
0.8400 0.1840 5.8960 0.0812 6.9320 0.0001
0.6500 0.2000 5.3360 0.0806 5.4000 0.0001
0.6400 0.1800 5.0410 0.0784 3.1770 -0.0002
0.5830 0.1650 5.0120 0.0793 4.4610 -0.0002
0.5700 0.1510 4.8250 0.0787 3.9010 0
0.5700 0.1710 4.3910 0.0780 5.0020 0
0.5100 0.2430 4.3200 0.0723 4.6650 -0.0001
0.5550 0.1470 3.7090 0.0749 4.6420 -0.0002
0.4600 0.2860 3.9690 0.0744 4.8400 -0.0004
0.2750 0.1980 3.5580 0.0725 4.4790 -0.0002
0.5100 0.1960 4.3610 0.0577 4.2000 -0.0002
0.1650 0.2100 3.3010 0.0718 3.4100 -0.0004
0.2440 0.3270 2.9640 0.0725 3.3600 -0.0005
0.0790 0.3340 2.7770 0.0719 2.5990 -0.0000
X = [ones(size(moore,1),1) moore(:,1:5)];y = moore(:,6);
[b,bint,r,rint,stats] = regress(y,X);
[b bint],[r rint],stats

ans = % b bint
-2.1561 -4.1154 -0.1969
-0.0000 -0.0011 0.0011
0.0013 -0.0014 0.0040
0.0001 -0.0000 0.0003
0.0079 -0.0221 0.0379
0.0001 -0.0000 0.0003
ans = % r rint
0.5623 0.2258 0.8988
-0.1456 -0.5476 0.2565
0.0885 -0.3262 0.5032
-0.0479 -0.5515 0.4557
-0.2307 -0.7043 0.2429
0.1707 -0.2802 0.6216
-0.3413 -0.8377 0.1550
-0.0708 -0.6260 0.4844
-0.0103 -0.4749 0.4543
-0.1094 -0.6400 0.4211
0.1717 -0.3311 0.6745
0.0504 -0.4907 0.5915
-0.0399 -0.5938 0.5140
0.0227 -0.4991 0.5445
-0.3945 -0.8701 0.0812
0.0813 -0.4169 0.5795
0.0730 -0.0879 0.2338
0.0114 -0.4987 0.5214
-0.2223 -0.6676 0.2231
0.3806 -0.0071 0.7682
stats =
0.8107 11.9886 0.0001 0.0685

由stats之值可知, ,表示此模式已經包括了80%之變化。F檢定值近於12,而P值則為0.0001,低於0.05之顯著水率,顯然非常不會有迴歸係數為零之狀況。最後一項有關誤差之估計值則為0.0685,也相當小。