Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.

Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller

Definitioner: Repetition Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

Hvis ingen afhængighed… Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende: Odds-ratio Logit-forskel

Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser NejJaTotal Sætnings- læsning Hurtig80 6.3% 1199 93.7% 1279 100.0% Langsom80 28.1% 205 71.9% 285 100.0% Usikker11 35.5% 20 64.5% 31 100.0% Total171 11.2% 1424 88.8% 1595 100.0% Odds for ”Ja” givet hastighed 1199/80 = 14.99 205/80 = 2.56 20/11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = 2.707 ln(2.56) = 0.94 ln(1.81) = 0.59

Logistisk Regressionsmodel Model: Logit(Ja|Hastighed) =  +  Hastighed  Logit(Ja|Hurtig) =  +  Hurtig  Logit(Ja|Langsom) =  +  Langsom  Logit(Ja|Usikker)=  +  Usikker For reference-kategorien sæt  Hurtig = 0.

Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) =  +  Langsom ) -  =  Langsom Logit(Ja|Usikker) - Logit(Ja|Hurtig) =  +  Usikker ) -  =  Usikker Dvs.  Langsom og  Usikker er de to logit-forskelle af interesse. Hypotesetest  H 0 :  Langsom =  Usikker = 0  H 1 :  Langsom ≠ 0 og/eller  Usikker ≠ 0

For hver kategori introducer en binær variabel:  x Hurtig, x Langsom og x Usikker. x Hurtig = 0 altid nul (reference-kategori) x Langsom = 1 hvis Hastighed = Langsom x Langsom = 0 hvis Hastighed ≠ Langsom x Usikker = 1 hvis Hastighed = Usikker x Usikker = 0 hvis Hastighed ≠ Usikker Alternativ: Dummy-variable

Dummy-variable: Nu Som Tabel Hastighedx Langsom x Usikker Hurtig00 Langsom10 Usikker01

Dummy-variable Model: Eksempel: Bemærk struktur:

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: Og som sandsynlighed:

Skala forklarende variabel Eksempel:  Afhængig variabel:Er du en god læser(Ja/Nej)  Forklarende variable:Antal rigtige i test(0…20) Plot: Andel Ja’er for hver score.

Model: Logit(Ja|Score = x) =  +  x Sandsynlighed: Plot: Logit(Ja|Score=x) Logistisk Regressionsmodel

Logistiske funktion

Fortolkning af  Logit-forskel: Så hver gang ’score’ stiger med 1 stiger logit med . Odds-ratio: Så hver gang score stiger med 1 ændres Odds’et med en faktor e .

Hypotesetest H 0 :  = 0 H 1 :  ≠ 0 Teststørrelse: Jo større ”Wald” jo mindre tror vi på H 0. Hvor langt ude ”Wald” er måles af p-værdien. Hvis vi afviser H 0 siger vi at  er signifikant. Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

SPSS Output Estimerede model: Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(  ) = 1,208, hver gang scoren stiger med 1. Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger. Sandsynligheder

Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) =  +   x +   x 2 Hvis    ikke er signifikant, så er en logit-lineær model passende.

Modelkontrol: Hosmer-Lemeshows   -test Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. O x =observerede antal personer med score x, der svarer ”Ja”. N x = antal personer med score x. E x = forventede antal personer med score x, der svarer ”Ja”.

Modelkontrol: Hosmer-Lemeshows   -test Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis  2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

SPSS Output Da p-værdien = 0.246 > 0.05 kan vi ikke afvise H 0. Dvs. vi kan ikke afvise at modellen er korrekt. Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.

Multipel Logistisk Regression Ide: Mere end en forklarende variabel. Model: Reference-kategorier: Dreng og Hurtig  Dvs:  Dreng = 0 og  Hurtig = 0 Eksempler Logit(Ja|Dreng,Hurtig) =  +  Dreng +  Hurtig =  + 0 + 0 =  Logit(Ja|Pige,Langsom) =  +  Pige +  Langsom

Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed: Logit(Ja|Køn,Langsom)  Logit(Ja|Køn,Hurtig) = (  +  Køn +  Langsom )  (  +  Køn +  Hurtig ) =  Langsom Dvs.  Langsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit-forskelle

Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed: Logit(Ja|Pige,Hastighed)  Logit(Ja|Dreng,Hastighed) = (  +  Pige +  Hastighed )  (  +  Dreng +  Hastighed ) =  Pige. Dvs.  Pige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden. Logit-forskelle

Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? Indfør interaktionsled  Køn,Hastighed. Model: Logit(Ja|Køn,Hastighed) =  Køn    Hastighed  Køn,Hastighed

Parametere der refererer til en eller flere reference- kategorier sættes lig nul:   Dreng,Hurtig = 0   Dreng, Langsom = 0   Dreng, Usikker = 0   Pige, Hurtig = 0   Pige, Langsom ≠ 0   Pige, Usikker ≠ 0 Interaktion / Vekselvirkning

Logit Tabel Tabel over Logit(Ja|Køn, Hastighed) Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model. Køn DrengPige LæsehastighedHurtig  Pige Langsom  Langsom  Pige  Langsom  Pige,Langsom Usikker  Usikker  Pige  Usikker  Pige,Usikker

Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) =  Pige logit(ja|pige,usikker) – logit(ja|dreng,usikker) =  Pige +  Pige,Usikker. Dvs.  Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) =  Usikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) =  Usikker +  Pige,Usikker. Dvs.  Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.

Hypotse H 0 :  Pige,Langsom =  Pige,Usikker = 0  Dvs. der er ingen interaktion mellem Køn og Hastighed. H 1 :  Pige,Langsom ≠ 0 og/eller  Pige,Usikker ≠ 0  Dvs. der er interaktion mellem Køn og Hastighed.

SPSS SPSS: Analyze → Regression → Binary Logstic Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på ’>a*b>’ Husk at angive kategoriske variable under ’Categorical’ *Klik*

SPSS: Output Vores model er for Logit for ’Ja’ ’Hurtig’ og ’Dreng’ er reference-kategorierne Det interessante input står efter ’Block 1: Method = Enter’ H-L Test: p-værdi = 1, da modellen er mættet. Hverken ’køn’ eller ’hastighed*køn’ er signifikante.

Generel Lineær Model Yafhængig skala variabel X 1,…,X k forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i’te observation ud af n er givet ved x j,i er j’te forklarende variabel for i’te observation.  1,…,  n er uafhængige og identisk fordelt  i ~ N(0,  2 ) IID

Simpel lineær regression X Y XiXi YiYi { β1β1 1 00 εiεi E[Y|X] =  + β 1 X GLM med én skala forklarende variabel (k=1) Modellen er  Modellen siger:  E(Y|X) =  +  1 X  V(Y|X) = σ 2  Y|X ~ N(  + β 1 X, σ 2 )

Endnu en tegning… X Y i.i.d. normalfordelte fejlled Y i |x i ~N(  + β 1 x i,σ 2 ) i=1 x1x1 x1x1 x3x3 x2x2 x4x4 x5x5

Estimation Model:  y i =  +  1 x i +  i  ε i er i.i.d. N(0,σ 2 )  , β 1 og σ 2 er modellens parametre – ukendte! Estimation af  og   svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje a er estimat for  og b 1 er estimat for β 1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi  og   ?

er den lodrette afstanden fra den estimerede linie til datapunktet (x i,y i ). Residual led Y X XiXiXiXi Den estimerede regressionslinje

Mindste kvadraters metode Vi vil finde a og b 1 så summen af de kvadrerede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable ( a og b 1 ).

SSE er en funktion af a og b 1. Vi vil finde a og b 1 så SSE er mindst mulig. Minimering a SSE b1b1

Test af hældning (β 1 ) Test for om hældningen, β 1 er forskellig fra nul: Teststørrelse: Numerisk store værdier af t er ufordelagtige for H 0. SE(b 1 ) er standardfejlen for estimatet b 1. Hvis H 0 er sand følger t en såkaldt t-fordeling med n-k- 1 frihedsgrader, hvor n er antal observationer.

Test af hældning (β 1 ) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H 0. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Orange område = p-værdi t-fordeling med n-2 frihedsgrader

Fortolkning/Eksempler på H 0 Er der en lineær sammenhæng mellem X og Y? H 0 :  1 = 0 ingen lineær sammenhæng H 1 :      lineær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Y X Y X Y X Konstant Y Usystematisk variationIkke-lineær sammenhæng

SPSS Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable

Eksempel Y :Forbrug af gas (gas) X :Udetemperatur (temp) Scatterplot → SPSS: Estimerede model: Både skæring (  ) og hældning (  1 ) er signifikante!

Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.

Lignende præsentationer

Præsentationer af emnet: "Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.

Lignende præsentationer

Præsentationer af emnet: "Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback