Grundlæggende teoretisk statistik Regressionsanalyse - del 2 Multipel regression
Multipel regressionsanalyse Multiple regressionsmodeller beskriver sammenhængen mellem en Responsvariabel (den forklarede/ afhængige variabel) og Flere forklarende variable (uafhængige variable) Med K forklarende variable er den lineære regressionsmodel:
Udskrift fra Bewistat på opgave 74 Estimation af regressionskoefficienter KOEFFICIENTER OG KONFIDENSINTERVALLER 95%-konfidensintervaller Koefficienter Standardafv. n. grænse ø. grænse Skæring -237,95 176,62 -619,51 143,60 M/K 547,48 121,84 284,26 810,70 Løn 0,0550 0,0059 0,0422 0,0678
Den justerede determinationskoefficient, R2just Bruges i multipel regression, idet den sikrer mod forøgelse af determinationskoefficienten, når der tilføjes yderligere forklarende variable, der reelt ingen betydning har for forklaringen.
Estimation af fejlleddets varians Variansen på restleddet, σe2 estimeres med Bemærk antal frihedsgrader = n–K-1, hvor K er antal uafhængige variable se kaldes ”Standard error of the estimate”, eller på dansk standardfejlen på estimatet på σe.
Udskrift fra Bewistat Responsvariabel: Tøjudgift R-kvadreret 0,884 (Determinationskoefficient) Justeret R-kvadreret 0,867 Standardafvigelse 242,7 Varians = 58.880,4 Observationer 16 KVADRATSUMMER OG F-TEST Frihedsgrader Kvadratsum F-værdi p-værdi(ss) Regression 2 5.855.701 49,725 ~ 0 Residual 13 765.446 I alt (SAKy) 15 6.621.146
Test på modellens parametre Teststatistikken er t-fordelt med (n-K-1) frihedsgrader
Eensidet t-test på βj
Eensidet t-test på βj
To-sidet t-test på βj
Konfidensintervaller på regressionskoefficienterne
Udskrift fra Bewistat KOEFFICIENTER OG KONFIDENSINTERVALLER 95%-konfidensintervaller Koefficienter Standardafv. n. grænse ø. grænse Skæring -237,95 176,62 -619,51 143,60 M/K 547,48 121,84 284,26 810,70 Løn 0,0550 0,0059 0,0422 0,0678 Udskriften giver input til test på om regressionskoefficienterne er 0, og direkte et 95% konfidensinterval Det ses, at p-værdierne på de 2 forklarende variable (M/K og Løn) begge er meget lave, hvorfor de begge er signifikant forskellige fra 0, d.v.s. de begge har signifikant forklarende betydning Konfidensintervallerne på de forklarende variable indeholder tilsvarende ikke værdien 0 Omkring skæringen ses, at det ikke kan udelukkes at denne er 0. P-værdien er høj (større end signifikansniveau) og konfidensintervallet indeholder 0.
Kvadratsummer og F-test - Test på alle regressionskoefficienter Teststatistikken, F er F-fordelt med K frihedsgrader i tælleren og (n-K-1) i nævneren
Forudsigelses- / konfidensintervaller Konfidensintervaller på middelværdien af Y Prædiktionsintervaller på en enkelt Y-værdi Konfidens- og prædiktionsintervaller er svære at beregne i multiple regressionsmodeller (det kan dog ske i nogle statistikpakker, f.eks.PHStat, men ikke Bewistat) Inter- vs. ekstrapolation – er vanskelig/umuligt (grafisk) at vurdere i modeller med mange variable Pas på med extrapolation –Der er ikke datagrundlag for modellens anvendelse!
Transformationer Kvadratiske forløb - Logaritmiske forløb logaritme-transformer på x Eksponentielle forløb logaritme-transformer på y Potens forløb (Log-lineære forløb) logaritme-transformer på både x og y
Anvendelse af dummy-variable Også kaldet indikator-variable eller blot 0/1 variable Bruges Til kodning af kvalitative forklarende variable Ved skift i regressionslinien (f.eks. springvist voksende omkostninger) Sammenligninger af hældninger på 2 regressionslinier
Kodning af dummy variable Variable med 2 værdier kodes 0 hhv. 1 Dummykodning eller effektkodning ved variable med flere værdier (se Kap. 14) Dummykodning af variabel med 3 værdier (f.eks. Ja, Nej og Ved ikke) opdeles i 2 variable, der kodes så-ledes: X1=1 hvis svaret er Ja, ellers 0 X2=1 hvis svaret er Nej, ellers 0 Det betyder, at Ja og Nej svarenes effekt måles i hhv. X1 og X2, ”Ved ikke” svaret måles i konstantleddet.
Opgave 74 X-Y-diagram over Mænd og Kvinders månedlige tøjudgift og deres månedsløn viser: Forskel i skæringspunkt på de 2 regressionslinier Forskel i hældningskoefficient på de 2 regressionslinier Alm. Multipel regressionsmodel tager kun højde for forskel i skæring men ikke hældningskoefficient:
Opgave 74, fortsat Forskellen i hældningskoefficient løses ved at tilføje en tredje forklarende variabel, der er de 2 andre ganget sammen, altså X3=X1·X2
Metode til modellering Modelspecifikation Hvilken teori skal modellen basere sig på Data-analyse og korrellationsanalyse Gennemsnit, std.afvigelse, symmetri/skævhed Korrellationskoefficienter Mellem afhængig og hver enkelt uafhængig variabel Mellem de uafhængige variable - multikollinaritèt Opstilling af den første multiple regr. model Effekt af at droppe statistisk sign. variable Residual-analyse
Multipel regressionsanalyse - Opgaver Opgavesamling i Statistik 2009 fra Statistica: AØT: Opgave 74