Økonometri – lektion 5 Multipel Lineær Regression

Slides:



Advertisements
Lignende præsentationer
Dummyvariabler 13. oktober 2006
Advertisements

Statistik Lektion 18 Multipel Linear Regression
Statistik Lektion 17 Multipel Lineær Regression
Variansanalyse Modelkontrol
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 1. oktober 2004.
Økonometri 1: F81 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006.
Økonometri – lektion 7 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Heteroskedasticitet 17. marts 2006
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
KM2: F191 Kvantitative metoder 2 Heteroskedasticitet 16. april 2007.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
KM2: F61 Kvantitative metoder 2 Den simple regressionsmodel 21. februar 2007.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Inge Henningsen Stat BK uge
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Økonometri 1: F71 Økonometri 1 Inferens i den lineære regressionsmodel 29. september 2006.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Præsentationens transcript:

Økonometri – lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion

Multipel Lineær Regression Data: Sæt af observationer (x1i , x2i , …, xki , yi ) , i = 1,…,n yi er den afhængige variabel x1i , x2i , …, xki er de k forklarende/uafhængige forklarende variable for yi. Model: Yi = β0 + β1x1i +…+ βkxki + εi ε1 ,…,εn IID εi ~ N(0,σ2) E[Yi | x ] = β0 + β1x1 +…+ βkxk (lineær middelværdi-struktur)

Estimation Estimation pr mindste kvadraters metode: Også kaldet Ordinary Least Squares (OLS). b er en lineær estimator af b. MKM forudsætter at søjlerne i X er lineært uafhængige. Hvis fejlledene er uafhængige, med middelværdi nul og samme varians, så er b et central estimat.

Eksempel (Eksempel 3.3 i JD) Eksempel hvor n=5 observationer med to forklarende variable: Heraf følger

Stokastiske Vektorer og middelværdi Stokastisk vektor: Middelværdi: Regneregel: Stokastisk variabel

Stokastiske Vektorer Varians-Covarians matrix Bemærk at diagonalen indeholder varianserne. Regneregel:

Middelværdi af b Skriv b om: Middelværdien af b-β er: Dvs. b er en central estimator. Bemærk: E(ε) = 0 er nok, dvs. normalford. antagelse ikke nødvendig.

Variansen af b Varians-kovarians matricen for b er: Bemærk: Hvis søjlerne i X ikke indbyrdes vinkelrette, så kan de enkelte βi’er være indbyrdes korrelerede.

Eksempel fortsat Variansen af estimator b

MKM-estimatet b er BLUE BLUE = Best Linear Unbiased Estimator Vi har set Hvilket gør b til lineær og central estimator – men er det den bedste lineære og centrale estimator? Definer: Hvis c = (0,…,0,1,0,…,0) så er μ = βj. j+1’te element

MKM-estimatet b er BLUE Vælge lineær estimator m af μ: Estimatoren m er kun central hvis a’X=c’. Vælg a så Var(m) mindst mulig. Løsning: a = X(XTX)-1c Dvs. m = c’b er den bedste centrale og lineære estimator.

Estimation of σ2 Man kan vise Dvs. er en central estimator af σ2. Desuden gælder

Fordelingen af b Hvis e1,…, en er uafhængige og ei~N(0,s2), så gælder Hvilket betyder at b følger en n-dimensional multivariat normalfordeling.

Multivariate Normalfordeling Lad S være den (k+1)* (k+1) varians-kovarians matrix. Hvis Gælder Og i+1’te element i S’s diagonal

Generel Hypotesetest i MLR H0: vs H1: Fortolkning af H0: En given lineær transformation, R, af b har en bestemt værdi, r.

Generel Hypotesetest i MLR (fortsat) Et estimatet af Rb er Rb. Egenskaber for Rb: Middelværdi: Varians:

Fordelingen af Rb Under antagelse af at e1,…,en IID og ei~N(0,s2): Det kan vises at

F-test Fra tidligere har vi: Da fordelingen af eTe og (*) er uafhængig gælder

Signifikanstest af enkelt parameter H0: bi = 0 vs H1: bi ≠ 0 H0 hypotesen kan skrives som: Konsekvens: i+1’te element i matrix R

Signifikanstest af enkelt parameter Lad Da har vi: Desuden: hvor Vi afviser H0 hvis

Signifikanstest af alle regressions-parametre: ”Er MLR besværet værd?” H0: b1= b2 =…=bk = 0 vs H1: Mindst et bi ≠ 0 H0 hypotesen kan skrives som: Det kan vises at i dette tilfælde er

”Er MLR besværet værd?” Under H0 har vi da: Hvis F > Fa (k,n-k-1), så afviser vi H0. Bemærk følgende omskrivning: Dvs jo mere modellen forklare (stort R2) jo mindre sandsynligt er det at viafviser H0.

ANOVA Tabellen Store værdier af F er ufordelagtige for H0. Source of variation Sums of squares df Mean Squares F-ratio P-værdi Regression SSR k MSR=SSR/k MSR/MSE ? Error SSE n-k-1 MSE=SSE/(n-k-1) Total SST n-1 Store værdier af F er ufordelagtige for H0. Hvis F > Fα(k,n-k-1) afviser vi H0, dvs. MLR er besværet værd

Signifikanstest af en gruppe parametre H0: b2 = b4 = 0 vs H1: b2 ≠ 0 og/eller b4 ≠ 0 Hypotesen kan omskrives til:

Signifikanstest af en gruppe parametre Lad SSE være sum of squared errors når b2 og b4 er med i modellen. Lad SSE være sum of squared errors når b2 og b4 ikke er med i modellen. Da gælder Vi afviser H0 hvis F > Fa (q,n-k-1).

Multipel lineær regression (Eksempel 11-2 i bogen) Y = Export Eksport til Singapore i millioner $ X1 = M1 Money supply X2 = Lend Udlånsrente X3 = Price Prisindex X4 = Exchange Vekselkurs ml. S’pore $ og US $ Model:

R2 = 0.825 betyder at modellen forklarer 82,5% af den totale variation i data. F-testet af hypotesen H0:β1= β2 = β3 = β4 =0 har P-værdi mindre end 0,05, så vi afviser H0, dvs. Y har en lineær sammenhæng med mindst et Xi, mao. kan modellen ”betale sig”. Stemmer overens med R2.

Test for regressionsparametre Det ser ud som om ’Lend’ og ’Exchange’ ikke har nogen betydning. Vi ser derfor på en simplere model: NB: Generelt ikke en god ide at fjerne alle ikke signif. par. Simplere model:

Test for at fjerne to prametre b2 og b4 med b2 og b4 fjernet

Reduceret model Parameter estimater og test: R2 og justeret R2 Bemærk R2 er uændret men justeret R2 er øget!

Grafisk modelkontrol Scatterplots Residualplots Histogrammer Normalfordelingsplot Outliers og Indflydelsesrige observationer

Modelkontrol: Residualplots

Residualplot

Normalfordelingsplot Histogram og q-q plot for residualer

Outliers og Indflydelsesrige Observationer Indflydelsesrig Observation Punkt med stor værdi af xi Regressionslinie uden outlier y y . . ● . . . . . Regressionslinie når alle data-punkter er inkluderet . . . . . . . . . . Regressions-linie med outlier . . . . . . . . . . . . . . ● Ingen sammenhæng mellem x og y i denne ”klump” Outlier x x

Prædiktion Mål: Prædiktere y når kovariaterne er Punkt-prædiktion Egenskaber:

Konfidensinterval for Fordelingn af = cTb med kendt varians Fordelingen af med ukendt varians (1-a)100% konfidens interval for

Prædiktionsinterval Model: y = cTb + e e~N (0,s2) Residual: Variansen af residualet Fordelingen af y (1-a)100% prædiktions-interval

Estimerede regressionplane for Eksempel 11-2 Export M1 Price Prædiktions-intervaller tilgængelige i SPSS for x-værdier i data. Se under ’Save’ menuen.

Multipel lineær regression og dikotom forklarende variable Y afhængig variabel X1 er skala forklarende variabel og X2 er dikotom forklarende variabel, dvs. kan tage to værdier. Eksempel: Y er vægt, X1 er højde og X2 er køn. Fremgangsmåde: X2 omkodes til binær variabel: X2 = 0 hvis X2 = Mand X2 = 1 hvis X2 = Kvinde

Antag X2=0 hvis mand og X1=1 hvis kvinde. Model: For mænd har vi X2=0 og For kvinder har vi X2=1 og Bemærk: To linier med forskellige skæringspunkter, hhv β0 og β0+β2.

To regressions liner med forskellig skæring, men samme hældning X1 Y Line for X2=1 Line for X2=0 β0 β0 + β2