Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Statistik II Lektion 4 Generelle Lineære Modeller

Lignende præsentationer


Præsentationer af emnet: "Statistik II Lektion 4 Generelle Lineære Modeller"— Præsentationens transcript:

1 Statistik II Lektion 4 Generelle Lineære Modeller
Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

2 Logistisk regression Y afhængig binær variabel
X1,…,Xk forklarende variable, skala eller binære Model: Sandsynlighed:

3 Generel Lineær Model Y afhængig skala variabel
X1,…,Xk forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i’te observation ud af n er givet ved xj,i er j’te forklarende variabel for i’te observation. e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) IID

4 Simpel lineær regression
GLM med én skala forklarende variabel (k=1) Y E[Y|X] = a + β1X Modellen er Yi { β1 εi 1 Modellen siger: E(Y|X) = a + b1X V(Y|X) = σ2 Y|X ~ N(a + β1X, σ2) a0 X Xi

5 Endnu en tegning… Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled

6 Estimation Model: yi = a + b1 xi + ei εi er i.i.d. N(0,σ2) a, β1 og σ2 er modellens parametre – ukendte! Estimation af β0 og β1 svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje a er estimat for a og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi a og β1?

7 Residual led er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi

8 Mindste kvadraters metode
Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable (a og b1).

9 Minimering SSE er en funktion af a og b1.
Vi vil finde a og b1 så SSE er mindst mulig. SSE a b1

10 Test af hældning (β1) Test for om hældningen, β1 er forskellig fra nul: Teststørrelse: Numerisk store værdier af t er ufordelagtige for H0. SE(b1) er standardfejlen for estimatet b1. Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

11 Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05.
Udregn teststørrelsen Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H0. t-fordeling med n-2 frihedsgrader . 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 . Orange område = p-værdi

12 Fortolkning/Eksempler på H0
Er der en lineær sammenhæng mellem X og Y? H0: β1=0 ingen lineær sammenhæng H1: β1≠0 lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineær sammenhæng Y Y Y X X X

13 Eksempel Y : Forbrug af gas (gas) X : Udetemperatur (temp)
Scatterplot → SPSS: Estimerede model: Både skæring (a) og hældning (b1) er signifikante!

14 SPSS Analyze → General Linear Models → Univariate…
Kategoriske forklarende variable Skala forklarende variable

15 Forklaret og uforklaret afvigelse
Lad være gennemsnittet af alle yi’er yi’s afvigelse fra kan opdeles i to. Y . Uforklaret afvigelse Totale afvigelse Forklaret afvigelse X

16 Total og forklaret variation - illustration
Y X Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinjen

17 Den totale variation Lad være gennemsnittet af alle yi’er
Den totale variation for data er ”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total

18 Opslitning af den totale variation
Den totale variation kan opslittes: er den uforklarede variation. er den forklarede variation. SSR = Sum of Squares Regression

19 Total og forklaret variation
Opsplitning af variationen

20 Determinations koeffcienten R2
Determinations Koeffcienten: Andelen af den totale variation, der er forklaret. Pr definition: 0 ≤ R2 ≤ 1. Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen. R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

21 Eksempler på R2 Y Y Y X X X SST SST SST SSE SSE SSR SSR R2 = 0

22 Er modellen besværet værd?
Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable H0: b1 = b2 = … = bk = 0 H1: Mindst et bi ≠ 0 Teststørrelse: Store værdier af F er ufordelagtige for H0. Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable Mean Squared Regression Mean Squared Error

23 F-test detaljer Husk at Det medfører at og Hvilket giver
Dvs. jo mere modellen kan forklare, større F, og jo mindre tror vi på H0-hypotesen om ingen sammenhæng.

24 Eksempel: R2 og F-test SSR MSR SSE p-værdi SST F MSE

25 F-fordelingen F F-fordeling Areal = p-værdi ) F ( f F . 7 . 6 . 5 . 4
. 7 . 6 . 5 . 4 ) F f ( . 3 Areal = p-værdi . 2 . 1 . F 1 2 3 4 5 F

26 Eksempel - fortsat Model: Y : Forbrug af gas, skala (gas)
XTemp : Udetemperatur, skala (temp) XIsolering: {Før, Efter}, kategorisk (insulate) Omkod XIsolering til binær variabel XFør XFør = 1 hvis XIsolering = Før XFør = 0 hvis XIsolering = Efter Model:

27 Fortolkning af model Når XIsolering = Før Når XIsolering = Efter
To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.

28 To regressionslinjer med forskellige skæringer, men samme hældning
Y Linje for XFør=1 a + bFør Linje for XFør=0 a X1

29 Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!

30 Eksempel og SPSS Estimater Estimeret model:
Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

31 Vekselvirkning / Interaktion
Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, XTemp og XFør er som før. Introducer: XTemp,Før = XTemp∙XFør Model

32 Fortolkning Når XIsolering = Før: Når XIsolering = Efter:
bTemp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.

33 SPSS Hoved-effekt: ”Ensom” variabel
Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. Indsæt altid hoved-effekter først!

34 Scatterplot → Estimater Estimeret model:

35 Variansanalyse (ANOVA)
En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse. På engelsk: Analysis of Variance (ANOVA) Eksempel: Y: Månedlige forbrug Shopping: Hver 2. uge, Ugentligt, Oftere Køn: Mand, Kvinde

36 Dummy-variable To kategoriske variable: Omkodning til dummy variable.
Referencekategorier: ”Kvinde” og ”Ofte” (SPSS vælger altid sidste kategori som reference) Køn XMand Mand 1 Kvinde Stil XH2U XUge Hver 2. uge 1 Ugentlig Ofte

37 Model Den generelle lineære model er:
E(Y|x) = a + bKvindeXKvinde + bH2UXH2U + bUgeXUge Fortolkning E(Y|Køn=Mand,Stil) - E(Y|Køn=Kvinde, Stil) = (a + bMand∙1 + bH2U XH2A + bUge XUge ) – (a + bMand∙0 + bH2A XH2A + bUge XUge) = bKvinde Dvs. bMand angiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).

38 Mere fortolkning bH2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte. bUge angiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.

39 Hypotesetest Hypoteser H0: bH2A = bUge = 0
H1: bH2A ≠ 0 og/eller bUge ≠ 0 Teststørrelse: Store værdier af F er ufordelagtige for H0. Intuition: Jo mere af den totale variation ”Stil” forklarer, jo større er SSStil og dermed F. SSStil : Sum of Squares for ’Stil’ q : Antal parametre forbundet med ’Stil’ (2)

40 SPSS Analyze → General Linear Model → Univarite
’amtspend’ som ’dependent’ ’style’ og ’gender’ som ’fixed factor’ Bemærk at ’style’ ikke er signifikant! Bemærk: R2 = 0.118, dvs. kun 11,8% af den totale variation er forklaret af modellen!

41 Estimerede model Den estimerede model:
E(Y|x) = 374, ,183 XMand -27,703 XH2U -4,271 XUge Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: E(Y|Køn = Mand, Shopping = Ugentligt ) = 374, ,183 ∙1 -27,703 ∙0 -4,271∙1 = 431,045

42 Vekselvirkning Mand Kvinde (ref.kat.) Hver 2. uge XMand,H2U ٪ Ugentlig
Introducer vekselvirkning: Køn*Stil Nye dummy variable: XKøn,Stil = Xkøn*XStil. Bemærk: Dummy-variable XKøn,Stil = 0 hvis reference-kategori er indblandet. Mand Kvinde (ref.kat.) Hver 2. uge XMand,H2U ٪ Ugentlig XMand,Uge Ofte (ref.kat.)

43 Model Den generelle lineære model er:
E(Y|x) = a + bMand XMand + bH2U XH2U + bUge XUge + bMand,H2U XMand,H2U + bMand,Uge XMand,Uge

44 SPSS Bemærk: Hoved-effekter før interaktioner!

45 SPSS R2 er nu 0,138. Bemærk: Interaktionen ’Køn*Stil’ er signifikant, mens hovedeffekten ’Stil’ ikke er! ”Normalt”: Fjerne led med højest p-værdi, dvs. mindst signifikante led. Hierarkiske princip: Vi fjerner ikke en hoved-effekt, hvis den indgår i en interaktion.

46 Estimerede model Estimerede model er: = 405,727 + 2,048 XMand
-61,751 XH2U -44,006 XUge + 67,042 XMand,H2U + 77,196 XMand,Uge


Download ppt "Statistik II Lektion 4 Generelle Lineære Modeller"

Lignende præsentationer


Annoncer fra Google