Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Lignende præsentationer


Præsentationer af emnet: "Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable"— Præsentationens transcript:

1 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

2 Logistisk regression: 2 binære var.
Setup: To binære variable X og Y. Statistisk model: Konsekvens:

3 Logit-forskelle og Odds-ratio

4 Likelihood-funktionen
Definer Likelihood funktionen L( a, b ; data). L(a, b ; data) siger, hvor ”troelig” (likely) data under vores model for givne a og b.

5 Estimation Lad og betegne estimaterne af de sande, men ukendte parametre a og b. Parametrene a og b estimeres ved maximum-likelihood metoden: Vi vælger og så L ( , ; data) er størst mulig (ordnes af SPSS). Vi kalder og maximum-likelihood (ML) estimater.

6 Estimaternes fordeling.
Antag b er den sande værdi og er et ML estimat. For hver data-indsamling får vi lidt forskellige estimater af b pga. af tilfældig variation i data. Hvis vi har indsamlet data nok, så gælder der Dvs i gennemsnit estimerer korrekt (central). Standard fejlen SE(b) afhænger af mængden af data.

7 Konfidensinterval for b
Da gælder følgende:

8 Konfidensinterval for b
Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten b ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

9 Konfidens-interval for logit-forskel
Et 95% konfidens-interval for logit-forskel β: Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). Et 95% konfidens-interval for odds-ratio:

10 Signifikanstest Hypoteser Teststørrelse: (Wald teststør.)
H0: β = 0 (uafhængighed) H1: β = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.

11 Hypotesetest og Konfidensintervaller
Betragt følgende hypoteser H0: b = K H1: b ≠ K Lad [a,b] være et 95% konfidens-interval for b. Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.

12 SPSS Output Model: Model: b SE(b) Z2 p-værdi a eb
95% konf-int. for exp(b)

13 Kategorisk forklarende variabel
Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser Nej Ja Total Sætnings-læsning Hurtig 80 6.3% % % Langsom % % % Usikker % % % % % % Odds for ”Ja” givet hastighed 1199/80 = 14.99 205/80 = 2.56 20/11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = 2.707 ln(2.56) = 0.94 ln(1.81) = 0.59

14 Uafhængighed I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens: Odds(God = Ja|Hastighed = Hurtig) Odds(God = Ja|Hastighed = Langsom) Odds(God = Ja|Hastighed = Usikker) Vi sammenligner par af Odds vha et Odds-ratio. Her er der k∙(k-1) = 3∙2=6 mulige Odds-ratios!

15 Sammenligning af mange Odds
Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle = 0.

16 Logistisk Regressionsmodel
Model: Logit(Ja|Hastighed) = a + bHastighed Logit(Ja|Hurtig) = a + bHurtig Logit(Ja|Langsom) = a + bLangsom Logit(Ja|Usikker) = a + bUsikker Overparametriseret! (hvorfor?) For reference-kategorien sæt bHurtig = 0.

17 Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) =
(a + bLangsom) - a = bLangsom Logit(Ja|Usikker) - Logit(Ja|Hurtig) = (a + bUsikker) - a = bUsikker Dvs. bLangsom og bUsikker er de to logit-forskelle af interesse.

18 Hypotesetest Uinteressant hypotse (hvorfor?)
H0: bLangsom = 0 H1: bLangsom ≠ 0 Interessant hypotese (hvorfor?) H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 Teststørrelse: Wald ~ c2(df ) df = antal parametre ivolveret i H0.

19 SPSS ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

20 SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker = 0 bLansom bUsikker H0: bUsikker = 0

21 Alternativ: Dummy-variable
For hver kategori introducer en binær variabel: xHurtig xLangsom og xUsikker. xHurtig = 0 altid xLangsom = 1 hvis Hastighed = Langsom xLangsom = 0 hvis Hastighed ≠ Langsom xUsikker = 1 hvis Hastighed = Usikker xUsikker = 0 hvis Hastighed ≠ Usikker

22 Dummy-variable: Nu Som Tabel
Hastighed xLangsom xUsikker Hurtig Langsom 1 Usikker

23 Dummy-variable Model: Eksempel:

24 Logistisk Regression: Generel Form
Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:

25 Skala forklarende variabel
Eksempel: Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20) Plot: Andel Ja’er for hver score.

26 Logistisk Regressionsmodel
Model: Logit(Ja|Score=x) = a + bx Sandsynlighed: Plot: Logit(Ja|Score=x)

27 Logistiske funktion

28 Fortolkning Logit-forskel:
Så hver gang score stiger med en stiger logit med b. Odds-ratio: Så hver gang score stiger med en ændres Odds’et med en faktor eb.

29 Hypotesetest H0: b = 0 H1: b ≠ 0 Teststørrelse:
Hvis vi afviser H0 siger vi at b er signifikant. Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

30 SPSS Output Estimerede model:
Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1.

31 Modelkontrol: Ikke logit-lineær
Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = a + b1x + b2x2 Hvis b2 ikke er signifikant, så er en logit-lineær model passende.

32 Modelkontrol: Hosmer-Lemeshows c2-test
Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. Ox = observerede antal personer med score x, der svarer ”Ja”. Nx = antal personer med score x. Ex = forventede antal personer med score x, der svarer ”Ja”.

33 Modelkontrol: Hosmer-Lemeshows c2-test
Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

34 SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = = 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

35 Multipel Logistisk Regression
Ide: Mere end en forklarende variabel. Model: Reference-kategorier: Dreng og Hurtig Dvs: bDreng = 0 og bHurtig = 0 Logit(Ja|Dreng,Hurtig) = a+bDreng+bHurtig = a+0+0 = a Logit(Ja|Pige,Langsom) = a+bPige+bLangsom

36 Logit-forskelle Logit(Ja|Køn,Langsom) - Logit(Ja|Dreng,Hurtig) = (a+bKøn+bLangsom) - (a+bKøn+bHurtig) = bLangsom. Dvs. bLangsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit(Ja|Pige,Hastighed) - Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) - (a+bDreng+bHastighed) = bPige. Dvs. bPige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.

37 Interaktion / Vekselvirkning
Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? Indfør interaktionsled bKøn,Hastighed. Model: Logit(Ja|Køn,Hastighed) = a + bKøn + bHastighed + bKøn,Hastighed

38 Interaktion / Vekselvirkning
Parametere der refererer til en eller flere reference- kategorier sættes lig nul: bDreng,Hurtig = 0 bDreng, Langsom = 0 bDreng, Usikker = 0 bPige, Hurtig = 0 bPige, Langsom ≠ 0 bPige, Usikker ≠ 0

39 Logit Tabel Tabel over Logit(Ja|Køn, Hastighed)
Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model. Køn Dreng Pige Læsehastighed Hurtig a a+bPige Langsom a+bLangsom a+bPige+bLangsom +bPige,Langsom Usikker a+bUsikker a+bPige+bUsikker +bPige,Usikker

40 Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige
logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige + bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker + bPige,Usikker.

41 Hypotse H0: bPige,Langsom = bPige,Usikker = 0
Dvs. der er ingen interaktion mellem Køn og Hastighed. H1: bPige,Langsom ≠0 og/eller bPige,Usikker ≠0 Dvs. der er interaktion mellem Køn og Hastighed.


Download ppt "Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable"

Lignende præsentationer


Annoncer fra Google