Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Multipel Lineær Regression

Lignende præsentationer


Præsentationer af emnet: "Multipel Lineær Regression"— Præsentationens transcript:

1 Multipel Lineær Regression
Statistik II 2. Lektion Multipel Lineær Regression

2 Middelværdi og Varians
Antag at X er en kontinuert stokastisk variabel Antag at X har tæthedsfunktion f(x). Middelværdien (eller den forventede værdi) for X er Variansen for X er Variansen er altså den forventede kvadrerede afstand fra middelværdien kaldes standardafvigelsen.

3 Normalfordelingen Normal fordelingen har tæthedsfunktionen hvor
m er middelværdien og s er standardafvigelsen 95% 2.5% 2.5% m m-1.96s m+1.96s

4 Regneregler Antag X er en stokastisk variabel.
Antag a og b er konstanter Regneregel for middelværdi: Regneregel for varians: Eksempel: Håndboldspiller tjener 10,000kr/md + 250kr/mål. Lad X være det (tilfældige) antal mål/md. E[X] = 12 og V[X] = 4 Hvad er middelværdi og varians for indkomst?

5 Sammen gennemsnit og standardafv. (ca.)

6 Middelværdi og Varians for en Stikprøve
Middelværdi for en stikprøve: Varians for en stikprøve: Interessante fakta:

7 Multipel Lineær Regression
Y afhængig skala variabel X1,…,Xk k forklarende variable, skala eller binære Multipel Lineær Regressionsmodel: xj,i er j’te forklarende variabel for i’te observation. Fejlleddet ei ”opsamler” den uforklarede del af modellen. Antagelser: e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) Konsekvens:

8 Simpel lineær regression
MLR med én skala forklarende variabel (k = 1) Y E[Y | X] = a + β1X Modellen er Yi { b1 ei 1 Modellen siger: E(Y | X) = a +b1 X V(Y | X) = s2 Y | X ~ N(a +b1X , s2) a X Xi

9 Endnu en tegning… Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled

10 Estimation Model: yi = a + b1 xi + ei εi er i.i.d. N(0,σ2) a, β1 og σ2 er modellens parametre – ukendte! Estimation af a og b1 svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje a er estimat for a og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi a og b1?

11 Residual led er den lodrette afstanden fra den estimerede linje til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi

12 Mindste kvadraters metode
Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable (a og b1).

13 Minimering SSE er en funktion af a og b1.
Vi vil finde a og b1 så SSE er mindst mulig. SSE a b1

14 Hypotestest af hældning (β1)
Spørgsmål: Har den forklarende variabel xj virkelig en betydning for y? Test for om hældningen, β1 er forskellig fra nul: Teststørrelse: Intuition: Værdier af t langt fra nul er ufordelagtige for H0. SE(b1) er standardfejlen for estimatet b1. Hvis H0 er sand er stikprøvefordelingen af t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

15 Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05.
Udregn teststørrelsen Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < a afvises H0. t-fordeling med n-2 frihedsgrader . 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 . Orange område = p-værdi

16 Fortolkning/Eksempler på H0
Er der en lineær sammenhæng mellem X og Y? H0: b1 = 0 ingen lineær sammenhæng H1: b1  0 lineær sammenhæng Følgende er eksempler, hvor H0 ikke kan afvises. Konstant Y Usystematisk variation Ikke-lineær sammenhæng Y Y Y X X X

17 SPSS Analyze → General Linear Models → Univariate…
Kategoriske forklarende variable Skala forklarende variable

18 Eksempel Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot → SPSS: Estimerede model: Både skæring (a) og hældning (b1) er signifikante! Fortolkning?

19 Forklaret og uforklaret afvigelse
Lad være gennemsnittet af alle yi’er yi’s afvigelse fra kan opdeles i to. Y . Uforklaret afvigelse Totale afvigelse Forklaret afvigelse X

20 Den Totale Variation Den totale variation i y’erne er givet ved
Sum of Squares Total (SST):

21 Den Uforklarede Variation
Den uforklarede variation i y’erne er givet ved Sum of Squares Errors (SSE):

22 Den Forklarede Variation
Den forklarede variation er betegnes Sum of Squares Regression (SSR) Man kan vise: Dvs. Total variation = Forklaret variation + Uforklaret variation

23 Determinations koeffcienten R2
Determinations Koefficienten: Andelen af den totale variation, der er forklaret. Pr definition: 0 ≤ R2 ≤ 1. Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen. R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

24 Eksempler på R2 Y Y Y X X X SST SST SST SSE SSE SSR SSR R2 = 0

25 Er modellen besværet værd?
Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable H0: b1 = b2 = … = bk = 0 H1: Mindst et bi ≠ 0 Teststørrelse: Store værdier af F er ufordelagtige for H0. Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable Mean Squared Regression Mean Squared Error

26 Eksempel: R2 og F-test SSR MSR SSE p-værdi SST F=MSR/MSE MSE

27 F-fordelingen F F-fordeling Areal = p-værdi ) F ( f F . 7 . 6 . 5 . 4
. 7 . 6 . 5 . 4 ) F f ( . 3 Areal = p-værdi . 2 . 1 . F 1 2 3 4 5 F

28 Eksempel - fortsat Model: Y : Forbrug af gas, skala (gas)
XTemp : Udetemperatur, skala (temp) XIsolering: {Før, Efter}, kategorisk (insulate) Omkod XIsolering til binær dummy variabel XFør XFør = 1 hvis XIsolering = Før XFør = 0 hvis XIsolering = Efter Model:

29 Fortolkning af model Når XIsolering = Før Når XIsolering = Efter
To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.

30 To regressionslinjer med forskellige skæringer, men samme hældning
Y Linje for XFør=1 a + bFør Linje for XFør=0 a X1

31 Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!

32 Eksempel og SPSS Estimater Estimeret model:
Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

33 Vekselvirkning / Interaktion
Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, XTemp og XFør er som før. Introducer: XTemp,Før = XTemp∙XFør Model

34 Fortolkning Når XIsolering = Før: Når XIsolering = Efter:
bTemp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.

35 SPSS Hoved-effekt: ”Ensom” variabel
Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. Indsæt altid hoved-effekter først!

36 Scatterplot → Estimater Estimeret model:


Download ppt "Multipel Lineær Regression"

Lignende præsentationer


Annoncer fra Google