Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Hypotese test – kapitel 6 (Signifikans test)
Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Repetition: likelihood ratio test Test af hvorvidt faktorer med flere end 2 niveauer (mere end 1 parameter) kan udelades fra model: likelihood ratio test.
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Variansanalyse Modelkontrol
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Statistik Lektion 6 Konfidensinterval for andele og varians
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Logistisk regression –Odds/Odds ratio Probit model Fortolkning udfra latent variabel.
Den multiple regressionsmodel 21. september 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Præsentationens transcript:

Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Logistisk regression: 2 binære var. Setup: To binære variable X og Y. Statistisk model: Konsekvens:

Logit-forskelle og Odds-ratio

Likelihood-funktionen Definer Likelihood funktionen L( a, b ; data). L(a, b ; data) siger, hvor ”troelig” (likely) data under vores model for givne a og b.

Estimation Lad og betegne estimaterne af de sande, men ukendte parametre a og b. Parametrene a og b estimeres ved maximum-likelihood metoden: Vi vælger og så L ( , ; data) er størst mulig (ordnes af SPSS). Vi kalder og maximum-likelihood (ML) estimater.

Estimaternes fordeling. Antag b er den sande værdi og er et ML estimat. For hver data-indsamling får vi lidt forskellige estimater af b pga. af tilfældig variation i data. Hvis vi har indsamlet data nok, så gælder der Dvs. i gennemsnit estimerer korrekt (central). Standard fejlen SE(b) afhænger af mængden af data.

Konfidensinterval for b Da gælder følgende:

Konfidensinterval for b Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten b ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β: Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). Et 95% konfidens-interval for odds-ratio:

Signifikanstest Hypoteser Teststørrelse: (Wald teststør.) H0: β = 0 (uafhængighed) H1: β = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.

Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H0: b = K H1: b ≠ K Lad [a,b] være et 95% konfidens-interval for b. Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.

SPSS Output Model: Model: b SE(b) Z2 p-værdi a eb 95% konf-int. for exp(b)

Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser Nej Ja Total Sætnings-læsning Hurtig 80 6.3% 1199 93.7% 1279 100.0% Langsom 80 28.1% 205 71.9% 285 100.0% Usikker 11 35.5% 20 64.5% 31 100.0% 171 11.2% 1424 88.8% 1595 100.0% Odds for ”Ja” givet hastighed 1199/80 = 14.99 205/80 = 2.56 20/11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = 2.707 ln(2.56) = 0.94 ln(1.81) = 0.59

Uafhængighed I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens: Odds(God = Ja|Hastighed = Hurtig) Odds(God = Ja|Hastighed = Langsom) Odds(God = Ja|Hastighed = Usikker) Vi sammenligner par af Odds vha et Odds-ratio. Her er der k∙(k-1) = 3∙2=6 mulige Odds-ratios!

Sammenligning af mange Odds Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle = 0.

Logistisk Regressionsmodel Model: Logit(Ja|Hastighed) = a + bHastighed Logit(Ja|Hurtig) = a + bHurtig Logit(Ja|Langsom) = a + bLangsom Logit(Ja|Usikker) = a + bUsikker Overparametriseret! (hvorfor?) For reference-kategorien sæt bHurtig = 0.

Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) = (a + bLangsom) - a = bLangsom Logit(Ja|Usikker) - Logit(Ja|Hurtig) = (a + bUsikker) - a = bUsikker Dvs. bLangsom og bUsikker er de to logit-forskelle af interesse.

Hypotesetest Uinteressant hypotse (hvorfor?) H0: bLangsom = 0 H1: bLangsom ≠ 0 Interessant hypotese (hvorfor?) H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 Teststørrelse: Wald ~ c2(df ) df = antal parametre ivolveret i H0.

SPSS ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker = 0 bLansom bUsikker H0: bUsikker = 0

Alternativ: Dummy-variable For hver kategori introducer en binær variabel: xHurtig xLangsom og xUsikker. xHurtig = 0 altid xLangsom = 1 hvis Hastighed = Langsom xLangsom = 0 hvis Hastighed ≠ Langsom xUsikker = 1 hvis Hastighed = Usikker xUsikker = 0 hvis Hastighed ≠ Usikker

Dummy-variable: Nu Som Tabel Hastighed xLangsom xUsikker Hurtig Langsom 1 Usikker

Dummy-variable Model: Eksempel:

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:

Skala forklarende variabel Eksempel: Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20) Plot: Andel Ja’er for hver score.

Logistisk Regressionsmodel Model: Logit(Ja|Score=x) = a + bx Sandsynlighed: Plot: Logit(Ja|Score=x)

Logistiske funktion

Fortolkning Logit-forskel: Så hver gang score stiger med en stiger logit med b. Odds-ratio: Så hver gang score stiger med en ændres Odds’et med en faktor eb.

Hypotesetest H0: b = 0 H1: b ≠ 0 Teststørrelse: Hvis vi afviser H0 siger vi at b er signifikant. Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

SPSS Output Estimerede model: Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1.

Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = a + b1x + b2x2 Hvis b2 ikke er signifikant, så er en logit-lineær model passende.

Modelkontrol: Hosmer-Lemeshows c2-test Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. Ox = observerede antal personer med score x, der svarer ”Ja”. Nx = antal personer med score x. Ex = forventede antal personer med score x, der svarer ”Ja”.

Modelkontrol: Hosmer-Lemeshows c2-test Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

Multipel Logistisk Regression Ide: Mere end en forklarende variabel. Model: Reference-kategorier: Dreng og Hurtig Dvs: bDreng = 0 og bHurtig = 0 Logit(Ja|Dreng,Hurtig) = a+bDreng+bHurtig = a+0+0 = a Logit(Ja|Pige,Langsom) = a+bPige+bLangsom

Logit-forskelle Logit(Ja|Køn,Langsom) - Logit(Ja|Dreng,Hurtig) = (a+bKøn+bLangsom) - (a+bKøn+bHurtig) = bLangsom. Dvs. bLangsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit(Ja|Pige,Hastighed) - Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) - (a+bDreng+bHastighed) = bPige. Dvs. bPige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.

Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? Indfør interaktionsled bKøn,Hastighed. Model: Logit(Ja|Køn,Hastighed) = a + bKøn + bHastighed + bKøn,Hastighed

Interaktion / Vekselvirkning Parametere der refererer til en eller flere reference- kategorier sættes lig nul: bDreng,Hurtig = 0 bDreng, Langsom = 0 bDreng, Usikker = 0 bPige, Hurtig = 0 bPige, Langsom ≠ 0 bPige, Usikker ≠ 0

Logit Tabel Tabel over Logit(Ja|Køn, Hastighed) Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model. Køn Dreng Pige Læsehastighed Hurtig a a+bPige Langsom a+bLangsom a+bPige+bLangsom +bPige,Langsom Usikker a+bUsikker a+bPige+bUsikker +bPige,Usikker

Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige + bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker + bPige,Usikker.

Hypotse H0: bPige,Langsom = bPige,Usikker = 0 Dvs. der er ingen interaktion mellem Køn og Hastighed. H1: bPige,Langsom ≠0 og/eller bPige,Usikker ≠0 Dvs. der er interaktion mellem Køn og Hastighed.