Statistik II 4. Lektion Logistisk regression.

Statistik II 4. Lektion Logistisk regression

Logistisk regression: Motivation
Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel: Afhængig: Er du en god læser? (Ja/Nej) Forklarende: Antal point i test (0..20) Spørgsmål: Hvordan afhænger sandsynligheden for ’Ja’ af ’Point’? Point 1 2 3 4 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Ja’er 27 24 46 72 98 120 135 136 173 174 142 93 29 Nej’er 21 6

How not to do it… Plot af andel ja’er mod antal point.
Hvorfor ikke bare gøre lidt som vi plejer? Model: Dåååårlig ide!!!

Why not to do it… Plot af andel ja’er mod antal point.
Linjen er fundet ved mindste kvadraters metode Listen over problemer er lang….

Sandsynlighed og Odds Antag at Svar kan være ’Ja’ og ’Nej’. Sandsynligheden for at Svar = Ja skrives Sandsynligheden for at Svar = Nej Odds’et for at Svar = Ja er Fortolkning: Odds(Ja) = 4 betyder 4 gange så mange ja’er som nej’er.

Logit Logit for Svar = Ja : Bemærk:
Når P(Ja) stiger, så stiger Logit(Ja) – og omvendt. Logit kan tage alle værdier på den reelle akse.

Hen til Logit og tilbage igen…
Antag Y er en binær variabel, dvs. Y=0 eller Y=1. Antag hvad er da Odds’et og sandsynligheden? Vi har dvs.: Vi har omskrives til Bemærk: Når logit vokser, vokser ssh’en.

Odds og odds-ratio De to betingede odds: Odds-ratio:
Hvis X og Y uafhængige har vi og

Logit og logit-forskelle
De to betingede logits: Logit-forskel: Hvis X og Y uafhængige har vi og

Logistisk regression Antag at Y er en binær afhængig variabel og X er en kontinuert forklarende variabel. Da er en logistisk regressionsmodel givet ved Hvad betyder det sandsynligheden? Udregninger som før giver

Logistiske funktion

Estimation Lad og betegne estimaterne af de sande, men ukendte parametre a og b. Parametrene a og b estimeres ved maximum-likelihood metoden: Vi vælger og som de værdier af a og b, der gør data mest ”sandsynlig” (likely). Vi kalder og maximum-likelihood (ML) estimater.

SPSS Output Estimerede model:
NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). Estimerede model: Fortolkning: Da 0.189>0 stiger sandsynligheden for at svare ja, når antal point stiger.

Logit og Sandsynlighed

Estimaternes fordeling.
Antag b er den sande værdi og er et ML estimat. Hvis vi har indsamlet data nok, så er stikprøveforselingen af ca. normalfordelt: Dvs. i gennemsnit estimerer korrekt (central). Standard fejlen SE( ) afhænger af mængden af data. Normal-fordeling med middelværdi b og varians (SE( ))2

Konfidensinterval for b
Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten b ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

Konfidens-interval for logit-forskel
Et 95% konfidens-interval for logit-forskel β: Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). Et 95% konfidens-interval for odds-ratio:

Z2 b SE(b) p-værdi a eb 95% konf-int. for exp(b) Estimerede model: 95% konfidensintervallet for b er: [1.159 ; ]

Signifikanstest Hypoteser Teststørrelse: (Wald teststør.)
H0: β = 0 (uafhængighed) H1: β = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.

Hypotesetest og Konfidensintervaller
Betragt følgende hypoteser H0: b = K H1: b ≠ K Lad [a,b] være et 95% konfidens-interval for b. Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.

Fortolkning: Da p-værdien er mindre end kan vi afvise hypotesen om at b = 0. Dvs. at antal point har en effekt på selvvurderingen.

Fortolkning: Odds Odds: Dvs.
Dvs. en stigning på et point giver et Odds-ratio: Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.

Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1. Dvs. for hvert ekstra point bliver der 1,208 gange flere Ja’er for hvert Nej.

Modelkontrol: Hosmer-Lemeshows c2-test
Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. Ox = observerede antal personer med score x, der svarer ”Ja”. Nx = antal personer med score x. Ex = forventede antal personer med score x, der svarer ”Ja”.

Modelkontrol: Hosmer-Lemeshows c2-test
Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = = 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

Logistisk Regression: Generel Form
Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:

Kategorisk forklarende variabel
Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser Nej Ja Total Sætnings-læsning Hurtig 80 6.3% % % Langsom % % % Usikker % % % % % % Odds for ”Ja” givet hastighed 1199/80 = 14.99 205/80 = 2.56 20/11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = 2.707 ln(2.56) = 0.94 ln(1.81) = 0.59

Sammenligning af mange Odds
Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle = 0.

Hypotesetest Model: Logit(Ja|Hastighed) = a + bHastighed
Uinteressant hypotse (hvorfor?) H0: bLangsom = 0 H1: bLangsom ≠ 0 Interessant hypotese (hvorfor?) H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 Teststørrelse: Wald ~ c2(df ) df = antal parametre involveret i H0.

SPSS *Klik* ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

SPSS Output To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker = 0 bLansom bUsikker H0: bUsikker = 0 Konklusion: Vi kan afvise H0, dvs. der er en effekt af hastighed på selvvurdering.

Statistik II 4. Lektion Logistisk regression.

Lignende præsentationer

Præsentationer af emnet: "Statistik II 4. Lektion Logistisk regression."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Statistik II 4. Lektion Logistisk regression.

Lignende præsentationer

Præsentationer af emnet: "Statistik II 4. Lektion Logistisk regression."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback