Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Grundlæggende teoretisk statistik

Lignende præsentationer


Præsentationer af emnet: "Grundlæggende teoretisk statistik"— Præsentationens transcript:

1 Grundlæggende teoretisk statistik
Regressionsanalyse - del 2 Multipel regression

2 Multipel regressionsanalyse
Multiple regressionsmodeller beskriver sammenhængen mellem en Responsvariabel (den forklarede/ afhængige variabel) og Flere forklarende variable (uafhængige variable) Med K forklarende variable er den lineære regressionsmodel:

3 Udskrift fra Bewistat på opgave 74 Estimation af regressionskoefficienter
KOEFFICIENTER OG KONFIDENSINTERVALLER 95%-konfidensintervaller Koefficienter Standardafv. n. grænse ø. grænse Skæring -237,95 176,62 -619,51 143,60 M/K 547,48 121,84 284,26 810,70 Løn 0,0550 0,0059 0,0422 0,0678

4 Den justerede determinationskoefficient, R2just
Bruges i multipel regression, idet den sikrer mod forøgelse af determinationskoefficienten, når der tilføjes yderligere forklarende variable, der reelt ingen betydning har for forklaringen.

5 Estimation af fejlleddets varians
Variansen på restleddet, σe2 estimeres med Bemærk antal frihedsgrader = n–K-1, hvor K er antal uafhængige variable se kaldes ”Standard error of the estimate”, eller på dansk standardfejlen på estimatet på σe.

6 Udskrift fra Bewistat Responsvariabel: Tøjudgift R-kvadreret 0,884
(Determinationskoefficient) Justeret R-kvadreret 0,867 Standardafvigelse 242,7 Varians = ,4 Observationer 16 KVADRATSUMMER OG F-TEST Frihedsgrader Kvadratsum F-værdi p-værdi(ss) Regression 2 49,725 ~ 0 Residual 13 I alt (SAKy) 15

7 Test på modellens parametre
Teststatistikken er t-fordelt med (n-K-1) frihedsgrader

8 Eensidet t-test på βj

9 Eensidet t-test på βj

10 To-sidet t-test på βj

11 Konfidensintervaller på regressionskoefficienterne

12 Udskrift fra Bewistat KOEFFICIENTER OG KONFIDENSINTERVALLER 95%-konfidensintervaller Koefficienter Standardafv. n. grænse ø. grænse Skæring -237,95 176,62 -619,51 143,60 M/K 547,48 121,84 284,26 810,70 Løn 0,0550 0,0059 0,0422 0,0678 Udskriften giver input til test på om regressionskoefficienterne er 0, og direkte et 95% konfidensinterval Det ses, at p-værdierne på de 2 forklarende variable (M/K og Løn) begge er meget lave, hvorfor de begge er signifikant forskellige fra 0, d.v.s. de begge har signifikant forklarende betydning Konfidensintervallerne på de forklarende variable indeholder tilsvarende ikke værdien 0 Omkring skæringen ses, at det ikke kan udelukkes at denne er 0. P-værdien er høj (større end signifikansniveau) og konfidensintervallet indeholder 0.

13 Kvadratsummer og F-test - Test på alle regressionskoefficienter
Teststatistikken, F er F-fordelt med K frihedsgrader i tælleren og (n-K-1) i nævneren

14 Forudsigelses- / konfidensintervaller
Konfidensintervaller på middelværdien af Y Prædiktionsintervaller på en enkelt Y-værdi Konfidens- og prædiktionsintervaller er svære at beregne i multiple regressionsmodeller (det kan dog ske i nogle statistikpakker, f.eks.PHStat, men ikke Bewistat) Inter- vs. ekstrapolation – er vanskelig/umuligt (grafisk) at vurdere i modeller med mange variable Pas på med extrapolation –Der er ikke datagrundlag for modellens anvendelse!

15 Transformationer Kvadratiske forløb - Logaritmiske forløb
logaritme-transformer på x Eksponentielle forløb logaritme-transformer på y Potens forløb (Log-lineære forløb) logaritme-transformer på både x og y

16 Anvendelse af dummy-variable
Også kaldet indikator-variable eller blot 0/1 variable Bruges Til kodning af kvalitative forklarende variable Ved skift i regressionslinien (f.eks. springvist voksende omkostninger) Sammenligninger af hældninger på 2 regressionslinier

17 Kodning af dummy variable
Variable med 2 værdier kodes 0 hhv. 1 Dummykodning eller effektkodning ved variable med flere værdier (se Kap. 14) Dummykodning af variabel med 3 værdier (f.eks. Ja, Nej og Ved ikke) opdeles i 2 variable, der kodes så-ledes: X1=1 hvis svaret er Ja, ellers 0 X2=1 hvis svaret er Nej, ellers 0 Det betyder, at Ja og Nej svarenes effekt måles i hhv. X1 og X2, ”Ved ikke” svaret måles i konstantleddet.

18 Opgave 74 X-Y-diagram over Mænd og Kvinders månedlige tøjudgift og deres månedsløn viser: Forskel i skæringspunkt på de 2 regressionslinier Forskel i hældningskoefficient på de 2 regressionslinier Alm. Multipel regressionsmodel tager kun højde for forskel i skæring men ikke hældningskoefficient:

19 Opgave 74, fortsat Forskellen i hældningskoefficient løses ved at tilføje en tredje forklarende variabel, der er de 2 andre ganget sammen, altså X3=X1·X2

20 Metode til modellering
Modelspecifikation Hvilken teori skal modellen basere sig på Data-analyse og korrellationsanalyse Gennemsnit, std.afvigelse, symmetri/skævhed Korrellationskoefficienter Mellem afhængig og hver enkelt uafhængig variabel Mellem de uafhængige variable - multikollinaritèt Opstilling af den første multiple regr. model Effekt af at droppe statistisk sign. variable Residual-analyse

21 Multipel regressionsanalyse - Opgaver
Opgavesamling i Statistik 2009 fra Statistica: AØT: Opgave 74


Download ppt "Grundlæggende teoretisk statistik"

Lignende præsentationer


Annoncer fra Google