Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.

Lignende præsentationer


Præsentationer af emnet: "Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller."— Præsentationens transcript:

1 Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller

2 Definitioner: Repetition Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

3 Hvis ingen afhængighed… Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende: Odds-ratio Logit-forskel

4 Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser NejJaTotal Sætnings- læsning Hurtig80 6.3% 1199 93.7% 1279 100.0% Langsom80 28.1% 205 71.9% 285 100.0% Usikker11 35.5% 20 64.5% 31 100.0% Total171 11.2% 1424 88.8% 1595 100.0% Odds for ”Ja” givet hastighed 1199/80 = 14.99 205/80 = 2.56 20/11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = 2.707 ln(2.56) = 0.94 ln(1.81) = 0.59

5 Logistisk Regressionsmodel Model: Logit(Ja|Hastighed) =  +  Hastighed  Logit(Ja|Hurtig) =  +  Hurtig  Logit(Ja|Langsom) =  +  Langsom  Logit(Ja|Usikker)=  +  Usikker For reference-kategorien sæt  Hurtig = 0.

6 Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) =  +  Langsom ) -  =  Langsom Logit(Ja|Usikker) - Logit(Ja|Hurtig) =  +  Usikker ) -  =  Usikker Dvs.  Langsom og  Usikker er de to logit-forskelle af interesse. Hypotesetest  H 0 :  Langsom =  Usikker = 0  H 1 :  Langsom ≠ 0 og/eller  Usikker ≠ 0

7 For hver kategori introducer en binær variabel:  x Hurtig, x Langsom og x Usikker. x Hurtig = 0 altid nul (reference-kategori) x Langsom = 1 hvis Hastighed = Langsom x Langsom = 0 hvis Hastighed ≠ Langsom x Usikker = 1 hvis Hastighed = Usikker x Usikker = 0 hvis Hastighed ≠ Usikker Alternativ: Dummy-variable

8 Dummy-variable: Nu Som Tabel Hastighedx Langsom x Usikker Hurtig00 Langsom10 Usikker01

9 Dummy-variable Model: Eksempel: Bemærk struktur:

10 Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: Og som sandsynlighed:

11 Skala forklarende variabel Eksempel:  Afhængig variabel:Er du en god læser(Ja/Nej)  Forklarende variable:Antal rigtige i test(0…20) Plot: Andel Ja’er for hver score.

12 Model: Logit(Ja|Score = x) =  +  x Sandsynlighed: Plot: Logit(Ja|Score=x) Logistisk Regressionsmodel

13 Logistiske funktion

14 Fortolkning af  Logit-forskel: Så hver gang ’score’ stiger med 1 stiger logit med . Odds-ratio: Så hver gang score stiger med 1 ændres Odds’et med en faktor e .

15 Hypotesetest H 0 :  = 0 H 1 :  ≠ 0 Teststørrelse: Jo større ”Wald” jo mindre tror vi på H 0. Hvor langt ude ”Wald” er måles af p-værdien. Hvis vi afviser H 0 siger vi at  er signifikant. Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

16 SPSS Output Estimerede model: Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(  ) = 1,208, hver gang scoren stiger med 1. Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger. Sandsynligheder

17 Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) =  +   x +   x 2 Hvis    ikke er signifikant, så er en logit-lineær model passende.

18 Modelkontrol: Hosmer-Lemeshows   -test Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. O x =observerede antal personer med score x, der svarer ”Ja”. N x = antal personer med score x. E x = forventede antal personer med score x, der svarer ”Ja”.

19 Modelkontrol: Hosmer-Lemeshows   -test Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis  2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

20 SPSS Output Da p-værdien = 0.246 > 0.05 kan vi ikke afvise H 0. Dvs. vi kan ikke afvise at modellen er korrekt. Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.

21 Multipel Logistisk Regression Ide: Mere end en forklarende variabel. Model: Reference-kategorier: Dreng og Hurtig  Dvs:  Dreng = 0 og  Hurtig = 0 Eksempler Logit(Ja|Dreng,Hurtig) =  +  Dreng +  Hurtig =  + 0 + 0 =  Logit(Ja|Pige,Langsom) =  +  Pige +  Langsom

22 Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed: Logit(Ja|Køn,Langsom)  Logit(Ja|Køn,Hurtig) = (  +  Køn +  Langsom )  (  +  Køn +  Hurtig ) =  Langsom Dvs.  Langsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit-forskelle

23 Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed: Logit(Ja|Pige,Hastighed)  Logit(Ja|Dreng,Hastighed) = (  +  Pige +  Hastighed )  (  +  Dreng +  Hastighed ) =  Pige. Dvs.  Pige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden. Logit-forskelle

24 Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? Indfør interaktionsled  Køn,Hastighed. Model: Logit(Ja|Køn,Hastighed) =  Køn    Hastighed  Køn,Hastighed

25 Parametere der refererer til en eller flere reference- kategorier sættes lig nul:   Dreng,Hurtig = 0   Dreng, Langsom = 0   Dreng, Usikker = 0   Pige, Hurtig = 0   Pige, Langsom ≠ 0   Pige, Usikker ≠ 0 Interaktion / Vekselvirkning

26 Logit Tabel Tabel over Logit(Ja|Køn, Hastighed) Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model. Køn DrengPige LæsehastighedHurtig  Pige Langsom  Langsom  Pige  Langsom  Pige,Langsom Usikker  Usikker  Pige  Usikker  Pige,Usikker

27 Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) =  Pige logit(ja|pige,usikker) – logit(ja|dreng,usikker) =  Pige +  Pige,Usikker. Dvs.  Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) =  Usikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) =  Usikker +  Pige,Usikker. Dvs.  Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.

28 Hypotse H 0 :  Pige,Langsom =  Pige,Usikker = 0  Dvs. der er ingen interaktion mellem Køn og Hastighed. H 1 :  Pige,Langsom ≠ 0 og/eller  Pige,Usikker ≠ 0  Dvs. der er interaktion mellem Køn og Hastighed.

29 SPSS SPSS: Analyze → Regression → Binary Logstic Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på ’>a*b>’ Husk at angive kategoriske variable under ’Categorical’ *Klik*

30 SPSS: Output Vores model er for Logit for ’Ja’ ’Hurtig’ og ’Dreng’ er reference-kategorierne Det interessante input står efter ’Block 1: Method = Enter’ H-L Test: p-værdi = 1, da modellen er mættet. Hverken ’køn’ eller ’hastighed*køn’ er signifikante.

31 Generel Lineær Model Yafhængig skala variabel X 1,…,X k forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i’te observation ud af n er givet ved x j,i er j’te forklarende variabel for i’te observation.  1,…,  n er uafhængige og identisk fordelt  i ~ N(0,  2 ) IID

32 Simpel lineær regression X Y XiXi YiYi { β1β1 1 00 εiεi E[Y|X] =  + β 1 X GLM med én skala forklarende variabel (k=1) Modellen er  Modellen siger:  E(Y|X) =  +  1 X  V(Y|X) = σ 2  Y|X ~ N(  + β 1 X, σ 2 )

33 Endnu en tegning… X Y i.i.d. normalfordelte fejlled Y i |x i ~N(  + β 1 x i,σ 2 ) i=1 x1x1 x1x1 x3x3 x2x2 x4x4 x5x5

34 Estimation Model:  y i =  +  1 x i +  i  ε i er i.i.d. N(0,σ 2 )  , β 1 og σ 2 er modellens parametre – ukendte! Estimation af  og   svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje a er estimat for  og b 1 er estimat for β 1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi  og   ?

35 er den lodrette afstanden fra den estimerede linie til datapunktet (x i,y i ). Residual led Y X XiXiXiXi Den estimerede regressionslinje

36 Mindste kvadraters metode Vi vil finde a og b 1 så summen af de kvadrerede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable ( a og b 1 ).

37 SSE er en funktion af a og b 1. Vi vil finde a og b 1 så SSE er mindst mulig. Minimering a SSE b1b1

38 Test af hældning (β 1 ) Test for om hældningen, β 1 er forskellig fra nul: Teststørrelse: Numerisk store værdier af t er ufordelagtige for H 0. SE(b 1 ) er standardfejlen for estimatet b 1. Hvis H 0 er sand følger t en såkaldt t-fordeling med n-k- 1 frihedsgrader, hvor n er antal observationer.

39 Test af hældning (β 1 ) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H 0. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Orange område = p-værdi t-fordeling med n-2 frihedsgrader

40 Fortolkning/Eksempler på H 0 Er der en lineær sammenhæng mellem X og Y? H 0 :  1 = 0 ingen lineær sammenhæng H 1 :      lineær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Y X Y X Y X Konstant Y Usystematisk variationIkke-lineær sammenhæng

41 SPSS Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable

42 Eksempel Y :Forbrug af gas (gas) X :Udetemperatur (temp) Scatterplot → SPSS: Estimerede model: Både skæring (  ) og hældning (  1 ) er signifikante!


Download ppt "Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller."

Lignende præsentationer


Annoncer fra Google