Grundlæggende teoretisk statistik

Slides:



Advertisements
Lignende præsentationer
Kvantitative metoder 2 Dummyvariabler 28. marts 2007 KM2: F16.
Advertisements

Dummyvariabler 13. oktober 2006
Statistik Lektion 17 Multipel Lineær Regression
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 FunktioneI form i den lineære regressionsmodel 19. oktober 2004.
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik II 5. Lektion Log-lineære modeller.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
KM2: F141 Kvantitative metoder 2 Inferens i den lineære regressionsmodel Funktionel form 21. marts 2007.
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Forudsigelse i markedsanalyse Burns & Bush ch. 19 Carsten Stig Poulsen Mandag d. 6. april 2009.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri 1: F81 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006.
Økonometri – lektion 5 Multipel Lineær Regression
Økonometri 1: F91 Økonometri 1 Prediktion. Dummyvariabler 9. oktober 2006.
KM2: F151 Kvantitative metoder 2 Funktionel form. Goodness-of-fit. Prediktioner og residualer 26. marts 2007.
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Heteroskedasticitet 17. marts 2006
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 5. oktober 2004.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 3. marts 2006.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
KM2: F61 Kvantitative metoder 2 Den simple regressionsmodel 21. februar 2007.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Grundlæggende teoretisk statistik
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Grundlæggende teoretisk statistik
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Kvalitative variable 8. marts 2006.
Økonometri 1: Flere emner i den multiple regressionsmodel1 Økonometri 1 Flere emner i den multiple regressionsmodel 13. marts 2003.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 FunktioneI form i den lineære regressionsmodel 11. oktober 2005.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Præsentationens transcript:

Grundlæggende teoretisk statistik Regressionsanalyse - del 2 Multipel regression

Multipel regressionsanalyse Multiple regressionsmodeller beskriver sammenhængen mellem en Responsvariabel (den forklarede/ afhængige variabel) og Flere forklarende variable (uafhængige variable) Med K forklarende variable er den lineære regressionsmodel:

Udskrift fra Bewistat på opgave 74 Estimation af regressionskoefficienter KOEFFICIENTER OG KONFIDENSINTERVALLER 95%-konfidensintervaller Koefficienter Standardafv. n. grænse ø. grænse Skæring -237,95 176,62 -619,51 143,60 M/K 547,48 121,84 284,26 810,70 Løn 0,0550 0,0059 0,0422 0,0678

Den justerede determinationskoefficient, R2just Bruges i multipel regression, idet den sikrer mod forøgelse af determinationskoefficienten, når der tilføjes yderligere forklarende variable, der reelt ingen betydning har for forklaringen.

Estimation af fejlleddets varians Variansen på restleddet, σe2 estimeres med Bemærk antal frihedsgrader = n–K-1, hvor K er antal uafhængige variable se kaldes ”Standard error of the estimate”, eller på dansk standardfejlen på estimatet på σe.

Udskrift fra Bewistat Responsvariabel: Tøjudgift R-kvadreret 0,884 (Determinationskoefficient) Justeret R-kvadreret 0,867 Standardafvigelse 242,7 Varians = 58.880,4 Observationer 16 KVADRATSUMMER OG F-TEST Frihedsgrader Kvadratsum F-værdi p-værdi(ss) Regression 2 5.855.701 49,725 ~ 0 Residual 13 765.446 I alt (SAKy) 15 6.621.146

Test på modellens parametre Teststatistikken er t-fordelt med (n-K-1) frihedsgrader

Eensidet t-test på βj

Eensidet t-test på βj

To-sidet t-test på βj

Konfidensintervaller på regressionskoefficienterne

Udskrift fra Bewistat KOEFFICIENTER OG KONFIDENSINTERVALLER 95%-konfidensintervaller Koefficienter Standardafv. n. grænse ø. grænse Skæring -237,95 176,62 -619,51 143,60 M/K 547,48 121,84 284,26 810,70 Løn 0,0550 0,0059 0,0422 0,0678 Udskriften giver input til test på om regressionskoefficienterne er 0, og direkte et 95% konfidensinterval Det ses, at p-værdierne på de 2 forklarende variable (M/K og Løn) begge er meget lave, hvorfor de begge er signifikant forskellige fra 0, d.v.s. de begge har signifikant forklarende betydning Konfidensintervallerne på de forklarende variable indeholder tilsvarende ikke værdien 0 Omkring skæringen ses, at det ikke kan udelukkes at denne er 0. P-værdien er høj (større end signifikansniveau) og konfidensintervallet indeholder 0.

Kvadratsummer og F-test - Test på alle regressionskoefficienter Teststatistikken, F er F-fordelt med K frihedsgrader i tælleren og (n-K-1) i nævneren

Forudsigelses- / konfidensintervaller Konfidensintervaller på middelværdien af Y Prædiktionsintervaller på en enkelt Y-værdi Konfidens- og prædiktionsintervaller er svære at beregne i multiple regressionsmodeller (det kan dog ske i nogle statistikpakker, f.eks.PHStat, men ikke Bewistat) Inter- vs. ekstrapolation – er vanskelig/umuligt (grafisk) at vurdere i modeller med mange variable Pas på med extrapolation –Der er ikke datagrundlag for modellens anvendelse!

Transformationer Kvadratiske forløb - Logaritmiske forløb logaritme-transformer på x Eksponentielle forløb logaritme-transformer på y Potens forløb (Log-lineære forløb) logaritme-transformer på både x og y

Anvendelse af dummy-variable Også kaldet indikator-variable eller blot 0/1 variable Bruges Til kodning af kvalitative forklarende variable Ved skift i regressionslinien (f.eks. springvist voksende omkostninger) Sammenligninger af hældninger på 2 regressionslinier

Kodning af dummy variable Variable med 2 værdier kodes 0 hhv. 1 Dummykodning eller effektkodning ved variable med flere værdier (se Kap. 14) Dummykodning af variabel med 3 værdier (f.eks. Ja, Nej og Ved ikke) opdeles i 2 variable, der kodes så-ledes: X1=1 hvis svaret er Ja, ellers 0 X2=1 hvis svaret er Nej, ellers 0 Det betyder, at Ja og Nej svarenes effekt måles i hhv. X1 og X2, ”Ved ikke” svaret måles i konstantleddet.

Opgave 74 X-Y-diagram over Mænd og Kvinders månedlige tøjudgift og deres månedsløn viser: Forskel i skæringspunkt på de 2 regressionslinier Forskel i hældningskoefficient på de 2 regressionslinier Alm. Multipel regressionsmodel tager kun højde for forskel i skæring men ikke hældningskoefficient:

Opgave 74, fortsat Forskellen i hældningskoefficient løses ved at tilføje en tredje forklarende variabel, der er de 2 andre ganget sammen, altså X3=X1·X2

Metode til modellering Modelspecifikation Hvilken teori skal modellen basere sig på Data-analyse og korrellationsanalyse Gennemsnit, std.afvigelse, symmetri/skævhed Korrellationskoefficienter Mellem afhængig og hver enkelt uafhængig variabel Mellem de uafhængige variable - multikollinaritèt Opstilling af den første multiple regr. model Effekt af at droppe statistisk sign. variable Residual-analyse

Multipel regressionsanalyse - Opgaver Opgavesamling i Statistik 2009 fra Statistica: AØT: Opgave 74