Download præsentationen
Præsentation er lastning. Vent venligst
Offentliggjort afDagmar Dahl Redigeret for ca. et år siden
1
Økonometri – lektion 5 Multipel Lineær Regression
Inferens Modelkontrol Prædiktion
2
Multipel Lineær Regression
Data: Sæt af observationer (x1i , x2i , …, xki , yi ) , i = 1,…,n yi er den afhængige variabel x1i , x2i , …, xki er de k forklarende/uafhængige forklarende variable for yi. Model: Yi = β0 + β1x1i +…+ βkxki + εi ε1 ,…,εn IID εi ~ N(0,σ2) E[Yi | x ] = β0 + β1x1 +…+ βkxk (lineær middelværdi-struktur)
3
Estimation Estimation pr mindste kvadraters metode:
Også kaldet Ordinary Least Squares (OLS). b er en lineær estimator af b. MKM forudsætter at søjlerne i X er lineært uafhængige. Hvis fejlledene er uafhængige, med middelværdi nul og samme varians, så er b et central estimat.
4
Eksempel (Eksempel 3.3 i JD)
Eksempel hvor n=5 observationer med to forklarende variable: Heraf følger
5
Stokastiske Vektorer og middelværdi
Stokastisk vektor: Middelværdi: Regneregel: Stokastisk variabel
6
Stokastiske Vektorer Varians-Covarians matrix
Bemærk at diagonalen indeholder varianserne. Regneregel:
7
Middelværdi af b Skriv b om: Middelværdien af b-β er:
Dvs. b er en central estimator. Bemærk: E(ε) = 0 er nok, dvs. normalford. antagelse ikke nødvendig.
8
Variansen af b Varians-kovarians matricen for b er:
Bemærk: Hvis søjlerne i X ikke indbyrdes vinkelrette, så kan de enkelte βi’er være indbyrdes korrelerede.
9
Eksempel fortsat Variansen af estimator b
10
MKM-estimatet b er BLUE
BLUE = Best Linear Unbiased Estimator Vi har set Hvilket gør b til lineær og central estimator – men er det den bedste lineære og centrale estimator? Definer: Hvis c = (0,…,0,1,0,…,0) så er μ = βj. j+1’te element
11
MKM-estimatet b er BLUE
Vælge lineær estimator m af μ: Estimatoren m er kun central hvis a’X=c’. Vælg a så Var(m) mindst mulig. Løsning: a = X(XTX)-1c Dvs. m = c’b er den bedste centrale og lineære estimator.
12
Estimation of σ2 Man kan vise Dvs. er en central estimator af σ2.
Desuden gælder
13
Fordelingen af b Hvis e1,…, en er uafhængige og ei~N(0,s2), så gælder
Hvilket betyder at b følger en n-dimensional multivariat normalfordeling.
14
Multivariate Normalfordeling
Lad S være den (k+1)* (k+1) varians-kovarians matrix. Hvis Gælder Og i+1’te element i S’s diagonal
15
Generel Hypotesetest i MLR
H0: vs H1: Fortolkning af H0: En given lineær transformation, R, af b har en bestemt værdi, r.
16
Generel Hypotesetest i MLR (fortsat)
Et estimatet af Rb er Rb. Egenskaber for Rb: Middelværdi: Varians:
17
Fordelingen af Rb Under antagelse af at e1,…,en IID og ei~N(0,s2):
Det kan vises at
18
F-test Fra tidligere har vi:
Da fordelingen af eTe og (*) er uafhængig gælder
19
Signifikanstest af enkelt parameter
H0: bi = 0 vs H1: bi ≠ 0 H0 hypotesen kan skrives som: Konsekvens: i+1’te element i matrix R
20
Signifikanstest af enkelt parameter
Lad Da har vi: Desuden: hvor Vi afviser H0 hvis
21
Signifikanstest af alle regressions-parametre: ”Er MLR besværet værd?”
H0: b1= b2 =…=bk = vs H1: Mindst et bi ≠ 0 H0 hypotesen kan skrives som: Det kan vises at i dette tilfælde er
22
”Er MLR besværet værd?” Under H0 har vi da:
Hvis F > Fa (k,n-k-1), så afviser vi H0. Bemærk følgende omskrivning: Dvs jo mere modellen forklare (stort R2) jo mindre sandsynligt er det at viafviser H0.
23
ANOVA Tabellen Store værdier af F er ufordelagtige for H0.
Source of variation Sums of squares df Mean Squares F-ratio P-værdi Regression SSR k MSR=SSR/k MSR/MSE ? Error SSE n-k-1 MSE=SSE/(n-k-1) Total SST n-1 Store værdier af F er ufordelagtige for H0. Hvis F > Fα(k,n-k-1) afviser vi H0, dvs. MLR er besværet værd
24
Signifikanstest af en gruppe parametre
H0: b2 = b4 = vs H1: b2 ≠ 0 og/eller b4 ≠ 0 Hypotesen kan omskrives til:
25
Signifikanstest af en gruppe parametre
Lad SSE være sum of squared errors når b2 og b4 er med i modellen. Lad SSE være sum of squared errors når b2 og b4 ikke er med i modellen. Da gælder Vi afviser H0 hvis F > Fa (q,n-k-1).
26
Multipel lineær regression (Eksempel 11-2 i bogen)
Y = Export Eksport til Singapore i millioner $ X1 = M1 Money supply X2 = Lend Udlånsrente X3 = Price Prisindex X4 = Exchange Vekselkurs ml. S’pore $ og US $ Model:
27
R2 = 0.825 betyder at modellen forklarer 82,5% af den totale variation i data.
F-testet af hypotesen H0:β1= β2 = β3 = β4 =0 har P-værdi mindre end 0,05, så vi afviser H0, dvs. Y har en lineær sammenhæng med mindst et Xi, mao. kan modellen ”betale sig”. Stemmer overens med R2.
28
Test for regressionsparametre
Det ser ud som om ’Lend’ og ’Exchange’ ikke har nogen betydning. Vi ser derfor på en simplere model: NB: Generelt ikke en god ide at fjerne alle ikke signif. par. Simplere model:
29
Test for at fjerne to prametre
b2 og b4 med b2 og b4 fjernet
30
Reduceret model Parameter estimater og test: R2 og justeret R2
Bemærk R2 er uændret men justeret R2 er øget!
31
Grafisk modelkontrol Scatterplots Residualplots Histogrammer
Normalfordelingsplot Outliers og Indflydelsesrige observationer
32
Modelkontrol: Residualplots
33
Residualplot
34
Normalfordelingsplot
Histogram og q-q plot for residualer
35
Outliers og Indflydelsesrige Observationer
Indflydelsesrig Observation Punkt med stor værdi af xi Regressionslinie uden outlier y y . . ● . . . . . Regressionslinie når alle data-punkter er inkluderet . . . . . . . . . . Regressions-linie med outlier . . . . . . . . . . . . . . ● Ingen sammenhæng mellem x og y i denne ”klump” Outlier x x
36
Prædiktion Mål: Prædiktere y når kovariaterne er Punkt-prædiktion
Egenskaber:
37
Konfidensinterval for
Fordelingn af = cTb med kendt varians Fordelingen af med ukendt varians (1-a)100% konfidens interval for
38
Prædiktionsinterval Model: y = cTb + e e~N (0,s2) Residual:
Variansen af residualet Fordelingen af y (1-a)100% prædiktions-interval
39
Estimerede regressionplane for Eksempel 11-2
Export M1 Price Prædiktions-intervaller tilgængelige i SPSS for x-værdier i data. Se under ’Save’ menuen.
40
Multipel lineær regression og dikotom forklarende variable
Y afhængig variabel X1 er skala forklarende variabel og X2 er dikotom forklarende variabel, dvs. kan tage to værdier. Eksempel: Y er vægt, X1 er højde og X2 er køn. Fremgangsmåde: X2 omkodes til binær variabel: X2 = 0 hvis X2 = Mand X2 = 1 hvis X2 = Kvinde
41
Antag X2=0 hvis mand og X1=1 hvis kvinde.
Model: For mænd har vi X2=0 og For kvinder har vi X2=1 og Bemærk: To linier med forskellige skæringspunkter, hhv β0 og β0+β2.
42
To regressions liner med forskellig skæring, men samme hældning
X1 Y Line for X2=1 Line for X2=0 β0 β0 + β2
Lignende præsentationer
© 2024 SlidePlayer.dk Inc.
All rights reserved.