Statikstik II 2. Lektion Lidt sandsynlighedsregning

Slides:



Advertisements
Lignende præsentationer
Hypotese test – kapitel 6 (Signifikans test)
Advertisements

Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 6
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Variansanalyse Modelkontrol
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik II Lektion 4 Generelle Lineære Modeller
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Anvendt Statistik Lektion 9
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Logistisk regression –Odds/Odds ratio Probit model Fortolkning udfra latent variabel.
Den multiple regressionsmodel 21. september 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Sandsynlighedsregningsrepetition Antag at Svar kan være ’Ja’ og ’Nej’. Sandsynligheden for at Svar = Ja skrives Sandsynligheden for at Svar = Nej Odds’et for at Svar = Ja er Logit for Svar = Ja

Logistisk regression: Motivation Sammenhængen ml. køn og selvvurdering Afhænger selvvurdering af kønnet? Er de 13.6% signifikant forskellige fra de 9.0%? Er du en god læser Nej Ja Total Køn Dreng 106 13.6% 672 86.4% 778 100.0% Pige 77 9.0% 776 91.0% 853 100.0% 183 11.2% 1448 88.8% 1631 100.0%

Lidt mere sandynlighedsregning Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

Hvis ingen afhængighed… Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende: Odds-ratio Logit-forskel

Omkodning Vi omkoder de dikotome variable til binære variable: Køn = Dreng => X = 0 Køn = Pige => X = 1 God læser = Nej => Y = 0 God læser = Ja => Y = 1

Generel 2x2 tabel Generel tabel: To binære variable X og Y: Er der en sammenhæng? Hvis p0 = p1 er X og Y uafhængige. Y 1 X 1-p0 = P(Y=0|X=0) p0 = P(Y=1|X=0) 1-p1 = P(Y=0|X=0) p1 = P(Y=1|X=0)

Odds og logit Lad X være binær variabel med P(X=1)=p. Definition odds: Hvor Fortolkning: Odds(X=1)=2 betyder at X=1 er dobbelt så sandsynligt som X=0 Definition logit:

Hen til Logit og tilbage igen Antag Så er Odds’et Og sandsynligheden er

Odds og odds-ratio De to betingede odds: Odds-ratio: Hvis X og Y uafhængige har vi og

Logit og logit-forskelle De to betingede logits: Logit-forskel: Hvis X og Y uafhængige har vi og

Logistisk regression: 2 binære var. Statistisk model: Antag Bemærk hvordan højresiden ligner lineær regression Vores modelantagelse giver: Dermed er logit-forskellen: Vi er altså interesseret i undersøge om b = 0.

Odds og Odds-ratio Hvis Så er Odds’er Odds-ratio’et er Da e0 = 1 passer b = 0 stadig med ”ingen sammenhæng”.

Estimation: Likelihood-funktionen Definer Likelihood funktionen L( a, b ; data). L(a, b ; data) siger, hvor ”troelig” (likely) data er under vores model for givne valg af a og b.

Estimation Lad og betegne estimaterne af de sande, men ukendte parametre a og b. Parametrene a og b estimeres ved maximum-likelihood metoden: Vi vælger og så L ( , ; data) er størst mulig (ordnes af SPSS). Vi kalder og maximum-likelihood (ML) estimater.

Estimaternes fordeling. Antag b er den sande værdi og er et ML estimat. For hver data-indsamling får vi lidt forskellige estimater af b pga. af tilfældig variation i data. Hvis vi har indsamlet data nok, så gælder der Dvs. i gennemsnit estimerer korrekt (central). Standard fejlen SE( ) afhænger af mængden af data. Normal-fordeling med middelværdi b og varians (SE( ))2

Konfidensinterval for b Da gælder følgende:

Konfidensinterval for b Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten b ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β: Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). Et 95% konfidens-interval for odds-ratio:

Signifikanstest Hypoteser Teststørrelse: (Wald teststør.) H0: β = 0 (uafhængighed) H1: β = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.

Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H0: b = K H1: b ≠ K Lad [a,b] være et 95% konfidens-interval for b. Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.

SPSS Output Model: Model: b SE(b) Z2 p-værdi a eb 95% konf-int. for exp(b)

Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser Nej Ja Total Sætnings-læsning Hurtig 80 6.3% 1199 93.7% 1279 100.0% Langsom 80 28.1% 205 71.9% 285 100.0% Usikker 11 35.5% 20 64.5% 31 100.0% 171 11.2% 1424 88.8% 1595 100.0% Odds for ”Ja” givet hastighed 1199/80 = 14.99 205/80 = 2.56 20/11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = 2.707 ln(2.56) = 0.94 ln(1.81) = 0.59

Uafhængighed I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens: Odds(God = Ja|Hastighed = Hurtig) Odds(God = Ja|Hastighed = Langsom) Odds(God = Ja|Hastighed = Usikker) Vi sammenligner par af Odds vha et Odds-ratio. Her er der k∙(k-1) = 3∙2=6 mulige Odds-ratios!

Sammenligning af mange Odds Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle = 0.

Logistisk Regressionsmodel Model: Logit(Ja|Hastighed) = a + bHastighed Logit(Ja|Hurtig) = a + bHurtig Logit(Ja|Langsom) = a + bLangsom Logit(Ja|Usikker) = a + bUsikker Overparametriseret! (hvorfor?) For reference-kategorien sæt bHurtig = 0.

Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) = (a + bLangsom) - a = bLangsom Logit(Ja|Usikker) - Logit(Ja|Hurtig) = (a + bUsikker) - a = bUsikker Dvs. bLangsom og bUsikker er de to logit-forskelle af interesse.

Hypotesetest Uinteressant hypotse (hvorfor?) H0: bLangsom = 0 H1: bLangsom ≠ 0 Interessant hypotese (hvorfor?) H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 Teststørrelse: Wald ~ c2(df ) df = antal parametre involveret i H0.

SPSS *Klik* ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker = 0 bLansom bUsikker H0: bUsikker = 0

Alternativ: Dummy-variable For hver kategori introducer en binær variabel: xHurtig xLangsom og xUsikker. xHurtig = 0 altid xLangsom = 1 hvis Hastighed = Langsom xLangsom = 0 hvis Hastighed ≠ Langsom xUsikker = 1 hvis Hastighed = Usikker xUsikker = 0 hvis Hastighed ≠ Usikker

Dummy-variable: Nu Som Tabel Hastighed xLangsom xUsikker Hurtig Langsom 1 Usikker

Dummy-variable Model: Eksempel:

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:

Skala forklarende variabel Eksempel: Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20) Plot: Andel Ja’er for hver score.

Logistisk Regressionsmodel Model: Logit(Ja|Score=x) = a + bx Sandsynlighed: Plot: Logit(Ja|Score=x)

Logistiske funktion

Fortolkning Logit-forskel: Så hver gang score stiger med 1 stiger logit med b. Odds-ratio: Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.

Hypotesetest H0: b = 0 H1: b ≠ 0 Teststørrelse: Hvis vi afviser H0 siger vi at b er signifikant. Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

SPSS Output Estimerede model: Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1.

Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = a + b1x + b2x2 Hvis b2 ikke er signifikant, så er en logit-lineær model passende.

Modelkontrol: Hosmer-Lemeshows c2-test Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. Ox = observerede antal personer med score x, der svarer ”Ja”. Nx = antal personer med score x. Ex = forventede antal personer med score x, der svarer ”Ja”.

Modelkontrol: Hosmer-Lemeshows c2-test Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

Multipel Logistisk Regression Ide: Mere end en forklarende variabel. Model: Reference-kategorier: Dreng og Hurtig Dvs: bDreng = 0 og bHurtig = 0 Logit(Ja|Dreng,Hurtig) = a+bDreng+bHurtig = a+0+0 = a Logit(Ja|Pige,Langsom) = a+bPige+bLangsom

Logit-forskelle Logit(Ja|Køn,Langsom) - Logit(Ja|Dreng,Hurtig) = (a+bKøn+bLangsom) - (a+bKøn+bHurtig) = bLangsom. Dvs. bLangsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit(Ja|Pige,Hastighed) - Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) - (a+bDreng+bHastighed) = bPige. Dvs. bPige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.

Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? Indfør interaktionsled bKøn,Hastighed. Model: Logit(Ja|Køn,Hastighed) = a + bKøn + bHastighed + bKøn,Hastighed

Interaktion / Vekselvirkning Parametere der refererer til en eller flere reference- kategorier sættes lig nul: bDreng,Hurtig = 0 bDreng, Langsom = 0 bDreng, Usikker = 0 bPige, Hurtig = 0 bPige, Langsom ≠ 0 bPige, Usikker ≠ 0

Logit Tabel Tabel over Logit(Ja|Køn, Hastighed) Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model. Køn Dreng Pige Læsehastighed Hurtig a a+bPige Langsom a+bLangsom a+bPige+bLangsom +bPige,Langsom Usikker a+bUsikker a+bPige+bUsikker +bPige,Usikker

Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige + bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker + bPige,Usikker.

Hypotse H0: bPige,Langsom = bPige,Usikker = 0 Dvs. der er ingen interaktion mellem Køn og Hastighed. H1: bPige,Langsom ≠0 og/eller bPige,Usikker ≠0 Dvs. der er interaktion mellem Køn og Hastighed.