Statikstik II 2. Lektion Lidt sandsynlighedsregning

Statikstik II 2. Lektion Lidt sandsynlighedsregning
Lidt mere om signifikanstest Logistisk regression

Sandsynlighedsregningsrepetition
Antag at Svar kan være ’Ja’ og ’Nej’. Sandsynligheden for at Svar = Ja skrives Sandsynligheden for at Svar = Nej Odds’et for at Svar = Ja er Logit for Svar = Ja

Logistisk regression: Motivation
Sammenhængen ml. køn og selvvurdering Afhænger selvvurdering af kønnet? Er de 13.6% signifikant forskellige fra de 9.0%? Er du en god læser Nej Ja Total Køn Dreng % % % Pige 77 9.0% % % % % %

Lidt mere sandynlighedsregning
Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

Hvis ingen afhængighed…
Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende: Odds-ratio Logit-forskel

Omkodning Vi omkoder de dikotome variable til binære variable:
Køn = Dreng => X = 0 Køn = Pige => X = 1 God læser = Nej => Y = 0 God læser = Ja => Y = 1

Generel 2x2 tabel Generel tabel: To binære variable X og Y:
Er der en sammenhæng? Hvis p0 = p1 er X og Y uafhængige. Y 1 X 1-p0 = P(Y=0|X=0) p0 = P(Y=1|X=0) 1-p1 = P(Y=0|X=0) p1 = P(Y=1|X=0)

Odds og logit Lad X være binær variabel med P(X=1)=p. Definition odds:
Hvor Fortolkning: Odds(X=1)=2 betyder at X=1 er dobbelt så sandsynligt som X=0 Definition logit:

Hen til Logit og tilbage igen
Antag Så er Odds’et Og sandsynligheden er

Odds og odds-ratio De to betingede odds: Odds-ratio:
Hvis X og Y uafhængige har vi og

Logit og logit-forskelle
De to betingede logits: Logit-forskel: Hvis X og Y uafhængige har vi og

Logistisk regression: 2 binære var.
Statistisk model: Antag Bemærk hvordan højresiden ligner lineær regression Vores modelantagelse giver: Dermed er logit-forskellen: Vi er altså interesseret i undersøge om b = 0.

Odds og Odds-ratio Hvis Så er Odds’er Odds-ratio’et er
Da e0 = 1 passer b = 0 stadig med ”ingen sammenhæng”.

Estimation: Likelihood-funktionen
Definer Likelihood funktionen L( a, b ; data). L(a, b ; data) siger, hvor ”troelig” (likely) data er under vores model for givne valg af a og b.

Estimation Lad og betegne estimaterne af de sande, men ukendte parametre a og b. Parametrene a og b estimeres ved maximum-likelihood metoden: Vi vælger og så L ( , ; data) er størst mulig (ordnes af SPSS). Vi kalder og maximum-likelihood (ML) estimater.

Estimaternes fordeling.
Antag b er den sande værdi og er et ML estimat. For hver data-indsamling får vi lidt forskellige estimater af b pga. af tilfældig variation i data. Hvis vi har indsamlet data nok, så gælder der Dvs i gennemsnit estimerer korrekt (central). Standard fejlen SE( ) afhænger af mængden af data. Normal-fordeling med middelværdi b og varians (SE( ))2

Konfidensinterval for b
Da gælder følgende:

Konfidensinterval for b
Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten b ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

Konfidens-interval for logit-forskel
Et 95% konfidens-interval for logit-forskel β: Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). Et 95% konfidens-interval for odds-ratio:

Signifikanstest Hypoteser Teststørrelse: (Wald teststør.)
H0: β = 0 (uafhængighed) H1: β = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.

Hypotesetest og Konfidensintervaller
Betragt følgende hypoteser H0: b = K H1: b ≠ K Lad [a,b] være et 95% konfidens-interval for b. Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.

SPSS Output Model: Model: b SE(b) Z2 p-værdi a eb
95% konf-int. for exp(b)

Kategorisk forklarende variabel
Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser Nej Ja Total Sætnings-læsning Hurtig 80 6.3% % % Langsom % % % Usikker % % % % % % Odds for ”Ja” givet hastighed 1199/80 = 14.99 205/80 = 2.56 20/11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = 2.707 ln(2.56) = 0.94 ln(1.81) = 0.59

Uafhængighed I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens: Odds(God = Ja|Hastighed = Hurtig) Odds(God = Ja|Hastighed = Langsom) Odds(God = Ja|Hastighed = Usikker) Vi sammenligner par af Odds vha et Odds-ratio. Her er der k∙(k-1) = 3∙2=6 mulige Odds-ratios!

Sammenligning af mange Odds
Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle = 0.

Logistisk Regressionsmodel
Model: Logit(Ja|Hastighed) = a + bHastighed Logit(Ja|Hurtig) = a + bHurtig Logit(Ja|Langsom) = a + bLangsom Logit(Ja|Usikker) = a + bUsikker Overparametriseret! (hvorfor?) For reference-kategorien sæt bHurtig = 0.

Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) =
(a + bLangsom) - a = bLangsom Logit(Ja|Usikker) - Logit(Ja|Hurtig) = (a + bUsikker) - a = bUsikker Dvs. bLangsom og bUsikker er de to logit-forskelle af interesse.

Hypotesetest Uinteressant hypotse (hvorfor?)
H0: bLangsom = 0 H1: bLangsom ≠ 0 Interessant hypotese (hvorfor?) H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 Teststørrelse: Wald ~ c2(df ) df = antal parametre involveret i H0.

SPSS *Klik* ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker = 0 bLansom bUsikker H0: bUsikker = 0

Alternativ: Dummy-variable
For hver kategori introducer en binær variabel: xHurtig xLangsom og xUsikker. xHurtig = 0 altid xLangsom = 1 hvis Hastighed = Langsom xLangsom = 0 hvis Hastighed ≠ Langsom xUsikker = 1 hvis Hastighed = Usikker xUsikker = 0 hvis Hastighed ≠ Usikker

Dummy-variable: Nu Som Tabel
Hastighed xLangsom xUsikker Hurtig Langsom 1 Usikker

Dummy-variable Model: Eksempel:

Logistisk Regression: Generel Form
Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:

Skala forklarende variabel
Eksempel: Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20) Plot: Andel Ja’er for hver score.

Logistisk Regressionsmodel
Model: Logit(Ja|Score=x) = a + bx Sandsynlighed: Plot: Logit(Ja|Score=x)

Logistiske funktion

Fortolkning Logit-forskel:
Så hver gang score stiger med 1 stiger logit med b. Odds-ratio: Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.

Hypotesetest H0: b = 0 H1: b ≠ 0 Teststørrelse:
Hvis vi afviser H0 siger vi at b er signifikant. Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

SPSS Output Estimerede model:
Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1.

Modelkontrol: Ikke logit-lineær
Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = a + b1x + b2x2 Hvis b2 ikke er signifikant, så er en logit-lineær model passende.

Modelkontrol: Hosmer-Lemeshows c2-test
Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. Ox = observerede antal personer med score x, der svarer ”Ja”. Nx = antal personer med score x. Ex = forventede antal personer med score x, der svarer ”Ja”.

Modelkontrol: Hosmer-Lemeshows c2-test
Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = = 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

Multipel Logistisk Regression
Ide: Mere end en forklarende variabel. Model: Reference-kategorier: Dreng og Hurtig Dvs: bDreng = 0 og bHurtig = 0 Logit(Ja|Dreng,Hurtig) = a+bDreng+bHurtig = a+0+0 = a Logit(Ja|Pige,Langsom) = a+bPige+bLangsom

Logit-forskelle Logit(Ja|Køn,Langsom) - Logit(Ja|Dreng,Hurtig) = (a+bKøn+bLangsom) - (a+bKøn+bHurtig) = bLangsom. Dvs. bLangsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit(Ja|Pige,Hastighed) - Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) - (a+bDreng+bHastighed) = bPige. Dvs. bPige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.

Interaktion / Vekselvirkning
Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? Indfør interaktionsled bKøn,Hastighed. Model: Logit(Ja|Køn,Hastighed) = a + bKøn + bHastighed + bKøn,Hastighed

Interaktion / Vekselvirkning
Parametere der refererer til en eller flere reference- kategorier sættes lig nul: bDreng,Hurtig = 0 bDreng, Langsom = 0 bDreng, Usikker = 0 bPige, Hurtig = 0 bPige, Langsom ≠ 0 bPige, Usikker ≠ 0

Logit Tabel Tabel over Logit(Ja|Køn, Hastighed)
Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model. Køn Dreng Pige Læsehastighed Hurtig a a+bPige Langsom a+bLangsom a+bPige+bLangsom +bPige,Langsom Usikker a+bUsikker a+bPige+bUsikker +bPige,Usikker

Hypotse H0: bPige,Langsom = bPige,Usikker = 0
Dvs. der er ingen interaktion mellem Køn og Hastighed. H1: bPige,Langsom ≠0 og/eller bPige,Usikker ≠0 Dvs. der er interaktion mellem Køn og Hastighed.

Statikstik II 2. Lektion Lidt sandsynlighedsregning

Lignende præsentationer

Præsentationer af emnet: "Statikstik II 2. Lektion Lidt sandsynlighedsregning"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Statikstik II 2. Lektion Lidt sandsynlighedsregning

Lignende præsentationer

Præsentationer af emnet: "Statikstik II 2. Lektion Lidt sandsynlighedsregning"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback