Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller
Definitioner: Repetition Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)
Hvis ingen afhængighed… Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende: Odds-ratio Logit-forskel
Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser NejJaTotal Sætnings- læsning Hurtig80 6.3% % % Langsom % % % Usikker % % % Total % % % Odds for ”Ja” givet hastighed 1199/80 = /80 = /11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = ln(2.56) = 0.94 ln(1.81) = 0.59
Logistisk Regressionsmodel Model: Logit(Ja|Hastighed) = + Hastighed Logit(Ja|Hurtig) = + Hurtig Logit(Ja|Langsom) = + Langsom Logit(Ja|Usikker)= + Usikker For reference-kategorien sæt Hurtig = 0.
Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) = + Langsom ) - = Langsom Logit(Ja|Usikker) - Logit(Ja|Hurtig) = + Usikker ) - = Usikker Dvs. Langsom og Usikker er de to logit-forskelle af interesse. Hypotesetest H 0 : Langsom = Usikker = 0 H 1 : Langsom ≠ 0 og/eller Usikker ≠ 0
For hver kategori introducer en binær variabel: x Hurtig, x Langsom og x Usikker. x Hurtig = 0 altid nul (reference-kategori) x Langsom = 1 hvis Hastighed = Langsom x Langsom = 0 hvis Hastighed ≠ Langsom x Usikker = 1 hvis Hastighed = Usikker x Usikker = 0 hvis Hastighed ≠ Usikker Alternativ: Dummy-variable
Dummy-variable: Nu Som Tabel Hastighedx Langsom x Usikker Hurtig00 Langsom10 Usikker01
Dummy-variable Model: Eksempel: Bemærk struktur:
Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: Og som sandsynlighed:
Skala forklarende variabel Eksempel: Afhængig variabel:Er du en god læser(Ja/Nej) Forklarende variable:Antal rigtige i test(0…20) Plot: Andel Ja’er for hver score.
Model: Logit(Ja|Score = x) = + x Sandsynlighed: Plot: Logit(Ja|Score=x) Logistisk Regressionsmodel
Logistiske funktion
Fortolkning af Logit-forskel: Så hver gang ’score’ stiger med 1 stiger logit med . Odds-ratio: Så hver gang score stiger med 1 ændres Odds’et med en faktor e .
Hypotesetest H 0 : = 0 H 1 : ≠ 0 Teststørrelse: Jo større ”Wald” jo mindre tror vi på H 0. Hvor langt ude ”Wald” er måles af p-værdien. Hvis vi afviser H 0 siger vi at er signifikant. Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.
SPSS Output Estimerede model: Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp( ) = 1,208, hver gang scoren stiger med 1. Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger. Sandsynligheder
Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = + x + x 2 Hvis ikke er signifikant, så er en logit-lineær model passende.
Modelkontrol: Hosmer-Lemeshows -test Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. O x =observerede antal personer med score x, der svarer ”Ja”. N x = antal personer med score x. E x = forventede antal personer med score x, der svarer ”Ja”.
Modelkontrol: Hosmer-Lemeshows -test Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis 2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.
SPSS Output Da p-værdien = > 0.05 kan vi ikke afvise H 0. Dvs. vi kan ikke afvise at modellen er korrekt. Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = = 8.
Multipel Logistisk Regression Ide: Mere end en forklarende variabel. Model: Reference-kategorier: Dreng og Hurtig Dvs: Dreng = 0 og Hurtig = 0 Eksempler Logit(Ja|Dreng,Hurtig) = + Dreng + Hurtig = = Logit(Ja|Pige,Langsom) = + Pige + Langsom
Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed: Logit(Ja|Køn,Langsom) Logit(Ja|Køn,Hurtig) = ( + Køn + Langsom ) ( + Køn + Hurtig ) = Langsom Dvs. Langsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit-forskelle
Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed: Logit(Ja|Pige,Hastighed) Logit(Ja|Dreng,Hastighed) = ( + Pige + Hastighed ) ( + Dreng + Hastighed ) = Pige. Dvs. Pige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden. Logit-forskelle
Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? Indfør interaktionsled Køn,Hastighed. Model: Logit(Ja|Køn,Hastighed) = Køn Hastighed Køn,Hastighed
Parametere der refererer til en eller flere reference- kategorier sættes lig nul: Dreng,Hurtig = 0 Dreng, Langsom = 0 Dreng, Usikker = 0 Pige, Hurtig = 0 Pige, Langsom ≠ 0 Pige, Usikker ≠ 0 Interaktion / Vekselvirkning
Logit Tabel Tabel over Logit(Ja|Køn, Hastighed) Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model. Køn DrengPige LæsehastighedHurtig Pige Langsom Langsom Pige Langsom Pige,Langsom Usikker Usikker Pige Usikker Pige,Usikker
Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = Pige logit(ja|pige,usikker) – logit(ja|dreng,usikker) = Pige + Pige,Usikker. Dvs. Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = Usikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = Usikker + Pige,Usikker. Dvs. Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.
Hypotse H 0 : Pige,Langsom = Pige,Usikker = 0 Dvs. der er ingen interaktion mellem Køn og Hastighed. H 1 : Pige,Langsom ≠ 0 og/eller Pige,Usikker ≠ 0 Dvs. der er interaktion mellem Køn og Hastighed.
SPSS SPSS: Analyze → Regression → Binary Logstic Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på ’>a*b>’ Husk at angive kategoriske variable under ’Categorical’ *Klik*
SPSS: Output Vores model er for Logit for ’Ja’ ’Hurtig’ og ’Dreng’ er reference-kategorierne Det interessante input står efter ’Block 1: Method = Enter’ H-L Test: p-værdi = 1, da modellen er mættet. Hverken ’køn’ eller ’hastighed*køn’ er signifikante.
Generel Lineær Model Yafhængig skala variabel X 1,…,X k forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i’te observation ud af n er givet ved x j,i er j’te forklarende variabel for i’te observation. 1,…, n er uafhængige og identisk fordelt i ~ N(0, 2 ) IID
Simpel lineær regression X Y XiXi YiYi { β1β1 1 00 εiεi E[Y|X] = + β 1 X GLM med én skala forklarende variabel (k=1) Modellen er Modellen siger: E(Y|X) = + 1 X V(Y|X) = σ 2 Y|X ~ N( + β 1 X, σ 2 )
Endnu en tegning… X Y i.i.d. normalfordelte fejlled Y i |x i ~N( + β 1 x i,σ 2 ) i=1 x1x1 x1x1 x3x3 x2x2 x4x4 x5x5
Estimation Model: y i = + 1 x i + i ε i er i.i.d. N(0,σ 2 ) , β 1 og σ 2 er modellens parametre – ukendte! Estimation af og svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje a er estimat for og b 1 er estimat for β 1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi og ?
er den lodrette afstanden fra den estimerede linie til datapunktet (x i,y i ). Residual led Y X XiXiXiXi Den estimerede regressionslinje
Mindste kvadraters metode Vi vil finde a og b 1 så summen af de kvadrerede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable ( a og b 1 ).
SSE er en funktion af a og b 1. Vi vil finde a og b 1 så SSE er mindst mulig. Minimering a SSE b1b1
Test af hældning (β 1 ) Test for om hældningen, β 1 er forskellig fra nul: Teststørrelse: Numerisk store værdier af t er ufordelagtige for H 0. SE(b 1 ) er standardfejlen for estimatet b 1. Hvis H 0 er sand følger t en såkaldt t-fordeling med n-k- 1 frihedsgrader, hvor n er antal observationer.
Test af hældning (β 1 ) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H Orange område = p-værdi t-fordeling med n-2 frihedsgrader
Fortolkning/Eksempler på H 0 Er der en lineær sammenhæng mellem X og Y? H 0 : 1 = 0 ingen lineær sammenhæng H 1 : lineær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Y X Y X Y X Konstant Y Usystematisk variationIkke-lineær sammenhæng
SPSS Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable
Eksempel Y :Forbrug af gas (gas) X :Udetemperatur (temp) Scatterplot → SPSS: Estimerede model: Både skæring ( ) og hældning ( 1 ) er signifikante!