Statistik II 4. Lektion Logistisk regression
Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel: Afhængig: Er du en god læser? (Ja/Nej) Forklarende: Antal point i test (0..20) Spørgsmål: Hvordan afhænger sandsynligheden for ’Ja’ af ’Point’? Point 1 2 3 4 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Ja’er 27 24 46 72 98 120 135 136 173 174 142 93 29 Nej’er 21 6
How not to do it… Plot af andel ja’er mod antal point. Hvorfor ikke bare gøre lidt som vi plejer? Model: Dåååårlig ide!!!
Why not to do it… Plot af andel ja’er mod antal point. Linjen er fundet ved mindste kvadraters metode Listen over problemer er lang….
Sandsynlighed og Odds Antag at Svar kan være ’Ja’ og ’Nej’. Sandsynligheden for at Svar = Ja skrives Sandsynligheden for at Svar = Nej Odds’et for at Svar = Ja er Fortolkning: Odds(Ja) = 4 betyder 4 gange så mange ja’er som nej’er.
Logit Logit for Svar = Ja : Bemærk: Når P(Ja) stiger, så stiger Logit(Ja) – og omvendt. Logit kan tage alle værdier på den reelle akse.
Hen til Logit og tilbage igen… Antag Y er en binær variabel, dvs. Y=0 eller Y=1. Antag hvad er da Odds’et og sandsynligheden? Vi har dvs.: Vi har omskrives til Bemærk: Når logit vokser, vokser ssh’en.
Odds og odds-ratio De to betingede odds: Odds-ratio: Hvis X og Y uafhængige har vi og
Logit og logit-forskelle De to betingede logits: Logit-forskel: Hvis X og Y uafhængige har vi og
Logistisk regression Antag at Y er en binær afhængig variabel og X er en kontinuert forklarende variabel. Da er en logistisk regressionsmodel givet ved Hvad betyder det sandsynligheden? Udregninger som før giver
Logistiske funktion
Estimation Lad og betegne estimaterne af de sande, men ukendte parametre a og b. Parametrene a og b estimeres ved maximum-likelihood metoden: Vi vælger og som de værdier af a og b, der gør data mest ”sandsynlig” (likely). Vi kalder og maximum-likelihood (ML) estimater.
SPSS Output Estimerede model: NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). Estimerede model: Fortolkning: Da 0.189>0 stiger sandsynligheden for at svare ja, når antal point stiger.
Logit og Sandsynlighed
Estimaternes fordeling. Antag b er den sande værdi og er et ML estimat. Hvis vi har indsamlet data nok, så er stikprøveforselingen af ca. normalfordelt: Dvs. i gennemsnit estimerer korrekt (central). Standard fejlen SE( ) afhænger af mængden af data. Normal-fordeling med middelværdi b og varians (SE( ))2
Konfidensinterval for b Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten b ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.
Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β: Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). Et 95% konfidens-interval for odds-ratio:
SPSS Output Estimerede model: Z2 b SE(b) p-værdi a eb 95% konf-int. for exp(b) Estimerede model: 95% konfidensintervallet for b er: [1.159 ; 1.260 ]
Signifikanstest Hypoteser Teststørrelse: (Wald teststør.) H0: β = 0 (uafhængighed) H1: β = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.
Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H0: b = K H1: b ≠ K Lad [a,b] være et 95% konfidens-interval for b. Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.
SPSS Output Estimerede model: Fortolkning: Da p-værdien er mindre end 0.0005 kan vi afvise hypotesen om at b = 0. Dvs. at antal point har en effekt på selvvurderingen.
Fortolkning: Odds Odds: Dvs. Dvs. en stigning på et point giver et Odds-ratio: Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.
SPSS Output Estimerede model: Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1. Dvs. for hvert ekstra point bliver der 1,208 gange flere Ja’er for hvert Nej.
Modelkontrol: Hosmer-Lemeshows c2-test Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. Ox = observerede antal personer med score x, der svarer ”Ja”. Nx = antal personer med score x. Ex = forventede antal personer med score x, der svarer ”Ja”.
Modelkontrol: Hosmer-Lemeshows c2-test Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.
SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.
Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:
Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser Nej Ja Total Sætnings-læsning Hurtig 80 6.3% 1199 93.7% 1279 100.0% Langsom 80 28.1% 205 71.9% 285 100.0% Usikker 11 35.5% 20 64.5% 31 100.0% 171 11.2% 1424 88.8% 1595 100.0% Odds for ”Ja” givet hastighed 1199/80 = 14.99 205/80 = 2.56 20/11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = 2.707 ln(2.56) = 0.94 ln(1.81) = 0.59
Sammenligning af mange Odds Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle = 0.
Hypotesetest Model: Logit(Ja|Hastighed) = a + bHastighed Uinteressant hypotse (hvorfor?) H0: bLangsom = 0 H1: bLangsom ≠ 0 Interessant hypotese (hvorfor?) H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 Teststørrelse: Wald ~ c2(df ) df = antal parametre involveret i H0.
SPSS *Klik* ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.
SPSS Output To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker = 0 bLansom bUsikker H0: bUsikker = 0 Konklusion: Vi kan afvise H0, dvs. der er en effekt af hastighed på selvvurdering.