Statistik II 4. Lektion Logistisk regression.

Slides:



Advertisements
Lignende præsentationer
Hypotese test – kapitel 6 (Signifikans test)
Advertisements

Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 2
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Variansanalyse Modelkontrol
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Statistik Lektion 8 Test for ens varians.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Logistisk regression –Odds/Odds ratio Probit model Fortolkning udfra latent variabel.
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 3
Præsentationens transcript:

Statistik II 4. Lektion Logistisk regression

Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel: Afhængig: Er du en god læser? (Ja/Nej) Forklarende: Antal point i test (0..20) Spørgsmål: Hvordan afhænger sandsynligheden for ’Ja’ af ’Point’? Point 1 2 3 4 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Ja’er 27 24 46 72 98 120 135 136 173 174 142 93 29 Nej’er 21 6

How not to do it… Plot af andel ja’er mod antal point. Hvorfor ikke bare gøre lidt som vi plejer? Model: Dåååårlig ide!!!

Why not to do it… Plot af andel ja’er mod antal point. Linjen er fundet ved mindste kvadraters metode Listen over problemer er lang….

Sandsynlighed og Odds Antag at Svar kan være ’Ja’ og ’Nej’. Sandsynligheden for at Svar = Ja skrives Sandsynligheden for at Svar = Nej Odds’et for at Svar = Ja er Fortolkning: Odds(Ja) = 4 betyder 4 gange så mange ja’er som nej’er.

Logit Logit for Svar = Ja : Bemærk: Når P(Ja) stiger, så stiger Logit(Ja) – og omvendt. Logit kan tage alle værdier på den reelle akse.

Hen til Logit og tilbage igen… Antag Y er en binær variabel, dvs. Y=0 eller Y=1. Antag hvad er da Odds’et og sandsynligheden? Vi har dvs.: Vi har omskrives til Bemærk: Når logit vokser, vokser ssh’en.

Odds og odds-ratio De to betingede odds: Odds-ratio: Hvis X og Y uafhængige har vi og

Logit og logit-forskelle De to betingede logits: Logit-forskel: Hvis X og Y uafhængige har vi og

Logistisk regression Antag at Y er en binær afhængig variabel og X er en kontinuert forklarende variabel. Da er en logistisk regressionsmodel givet ved Hvad betyder det sandsynligheden? Udregninger som før giver

Logistiske funktion

Estimation Lad og betegne estimaterne af de sande, men ukendte parametre a og b. Parametrene a og b estimeres ved maximum-likelihood metoden: Vi vælger og som de værdier af a og b, der gør data mest ”sandsynlig” (likely). Vi kalder og maximum-likelihood (ML) estimater.

SPSS Output Estimerede model: NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). Estimerede model: Fortolkning: Da 0.189>0 stiger sandsynligheden for at svare ja, når antal point stiger.

Logit og Sandsynlighed

Estimaternes fordeling. Antag b er den sande værdi og er et ML estimat. Hvis vi har indsamlet data nok, så er stikprøveforselingen af ca. normalfordelt: Dvs. i gennemsnit estimerer korrekt (central). Standard fejlen SE( ) afhænger af mængden af data. Normal-fordeling med middelværdi b og varians (SE( ))2

Konfidensinterval for b Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten b ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β: Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). Et 95% konfidens-interval for odds-ratio:

SPSS Output Estimerede model: Z2 b SE(b) p-værdi a eb 95% konf-int. for exp(b) Estimerede model: 95% konfidensintervallet for b er: [1.159 ; 1.260 ]

Signifikanstest Hypoteser Teststørrelse: (Wald teststør.) H0: β = 0 (uafhængighed) H1: β = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.

Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H0: b = K H1: b ≠ K Lad [a,b] være et 95% konfidens-interval for b. Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.

SPSS Output Estimerede model: Fortolkning: Da p-værdien er mindre end 0.0005 kan vi afvise hypotesen om at b = 0. Dvs. at antal point har en effekt på selvvurderingen.

Fortolkning: Odds Odds: Dvs. Dvs. en stigning på et point giver et Odds-ratio: Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.

SPSS Output Estimerede model: Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1. Dvs. for hvert ekstra point bliver der 1,208 gange flere Ja’er for hvert Nej.

Modelkontrol: Hosmer-Lemeshows c2-test Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. Ox = observerede antal personer med score x, der svarer ”Ja”. Nx = antal personer med score x. Ex = forventede antal personer med score x, der svarer ”Ja”.

Modelkontrol: Hosmer-Lemeshows c2-test Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:

Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser Nej Ja Total Sætnings-læsning Hurtig 80 6.3% 1199 93.7% 1279 100.0% Langsom 80 28.1% 205 71.9% 285 100.0% Usikker 11 35.5% 20 64.5% 31 100.0% 171 11.2% 1424 88.8% 1595 100.0% Odds for ”Ja” givet hastighed 1199/80 = 14.99 205/80 = 2.56 20/11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = 2.707 ln(2.56) = 0.94 ln(1.81) = 0.59

Sammenligning af mange Odds Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle = 0.

Hypotesetest Model: Logit(Ja|Hastighed) = a + bHastighed Uinteressant hypotse (hvorfor?) H0: bLangsom = 0 H1: bLangsom ≠ 0 Interessant hypotese (hvorfor?) H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 Teststørrelse: Wald ~ c2(df ) df = antal parametre involveret i H0.

SPSS *Klik* ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

SPSS Output To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker = 0 bLansom bUsikker H0: bUsikker = 0 Konklusion: Vi kan afvise H0, dvs. der er en effekt af hastighed på selvvurdering.