Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Statikstik II 2. Lektion Lidt sandsynlighedsregning

Lignende præsentationer


Præsentationer af emnet: "Statikstik II 2. Lektion Lidt sandsynlighedsregning"— Præsentationens transcript:

1 Statikstik II 2. Lektion Lidt sandsynlighedsregning
Lidt mere om signifikanstest Logistisk regression

2 Sandsynlighedsregningsrepetition
Antag at Svar kan være ’Ja’ og ’Nej’. Sandsynligheden for at Svar = Ja skrives Sandsynligheden for at Svar = Nej Odds’et for at Svar = Ja er Logit for Svar = Ja

3 Logistisk regression: Motivation
Sammenhængen ml. køn og selvvurdering Afhænger selvvurdering af kønnet? Er de 13.6% signifikant forskellige fra de 9.0%? Er du en god læser Nej Ja Total Køn Dreng % % % Pige 77 9.0% % % % % %

4 Lidt mere sandynlighedsregning
Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

5 Hvis ingen afhængighed…
Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende: Odds-ratio Logit-forskel

6 Omkodning Vi omkoder de dikotome variable til binære variable:
Køn = Dreng => X = 0 Køn = Pige => X = 1 God læser = Nej => Y = 0 God læser = Ja => Y = 1

7 Generel 2x2 tabel Generel tabel: To binære variable X og Y:
Er der en sammenhæng? Hvis p0 = p1 er X og Y uafhængige. Y 1 X 1-p0 = P(Y=0|X=0) p0 = P(Y=1|X=0) 1-p1 = P(Y=0|X=0) p1 = P(Y=1|X=0)

8 Odds og logit Lad X være binær variabel med P(X=1)=p. Definition odds:
Hvor Fortolkning: Odds(X=1)=2 betyder at X=1 er dobbelt så sandsynligt som X=0 Definition logit:

9 Hen til Logit og tilbage igen
Antag Så er Odds’et Og sandsynligheden er

10 Odds og odds-ratio De to betingede odds: Odds-ratio:
Hvis X og Y uafhængige har vi og

11 Logit og logit-forskelle
De to betingede logits: Logit-forskel: Hvis X og Y uafhængige har vi og

12 Logistisk regression: 2 binære var.
Statistisk model: Antag Bemærk hvordan højresiden ligner lineær regression Vores modelantagelse giver: Dermed er logit-forskellen: Vi er altså interesseret i undersøge om b = 0.

13 Odds og Odds-ratio Hvis Så er Odds’er Odds-ratio’et er
Da e0 = 1 passer b = 0 stadig med ”ingen sammenhæng”.

14 Estimation: Likelihood-funktionen
Definer Likelihood funktionen L( a, b ; data). L(a, b ; data) siger, hvor ”troelig” (likely) data er under vores model for givne valg af a og b.

15 Estimation Lad og betegne estimaterne af de sande, men ukendte parametre a og b. Parametrene a og b estimeres ved maximum-likelihood metoden: Vi vælger og så L ( , ; data) er størst mulig (ordnes af SPSS). Vi kalder og maximum-likelihood (ML) estimater.

16 Estimaternes fordeling.
Antag b er den sande værdi og er et ML estimat. For hver data-indsamling får vi lidt forskellige estimater af b pga. af tilfældig variation i data. Hvis vi har indsamlet data nok, så gælder der Dvs i gennemsnit estimerer korrekt (central). Standard fejlen SE( ) afhænger af mængden af data. Normal-fordeling med middelværdi b og varians (SE( ))2

17 Konfidensinterval for b
Da gælder følgende:

18 Konfidensinterval for b
Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten b ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

19 Konfidens-interval for logit-forskel
Et 95% konfidens-interval for logit-forskel β: Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). Et 95% konfidens-interval for odds-ratio:

20 Signifikanstest Hypoteser Teststørrelse: (Wald teststør.)
H0: β = 0 (uafhængighed) H1: β = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.

21 Hypotesetest og Konfidensintervaller
Betragt følgende hypoteser H0: b = K H1: b ≠ K Lad [a,b] være et 95% konfidens-interval for b. Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.

22 SPSS Output Model: Model: b SE(b) Z2 p-værdi a eb
95% konf-int. for exp(b)

23 Kategorisk forklarende variabel
Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser Nej Ja Total Sætnings-læsning Hurtig 80 6.3% % % Langsom % % % Usikker % % % % % % Odds for ”Ja” givet hastighed 1199/80 = 14.99 205/80 = 2.56 20/11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = 2.707 ln(2.56) = 0.94 ln(1.81) = 0.59

24 Uafhængighed I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens: Odds(God = Ja|Hastighed = Hurtig) Odds(God = Ja|Hastighed = Langsom) Odds(God = Ja|Hastighed = Usikker) Vi sammenligner par af Odds vha et Odds-ratio. Her er der k∙(k-1) = 3∙2=6 mulige Odds-ratios!

25 Sammenligning af mange Odds
Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle = 0.

26 Logistisk Regressionsmodel
Model: Logit(Ja|Hastighed) = a + bHastighed Logit(Ja|Hurtig) = a + bHurtig Logit(Ja|Langsom) = a + bLangsom Logit(Ja|Usikker) = a + bUsikker Overparametriseret! (hvorfor?) For reference-kategorien sæt bHurtig = 0.

27 Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) =
(a + bLangsom) - a = bLangsom Logit(Ja|Usikker) - Logit(Ja|Hurtig) = (a + bUsikker) - a = bUsikker Dvs. bLangsom og bUsikker er de to logit-forskelle af interesse.

28 Hypotesetest Uinteressant hypotse (hvorfor?)
H0: bLangsom = 0 H1: bLangsom ≠ 0 Interessant hypotese (hvorfor?) H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 Teststørrelse: Wald ~ c2(df ) df = antal parametre involveret i H0.

29 SPSS *Klik* ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

30 SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker = 0 bLansom bUsikker H0: bUsikker = 0

31 Alternativ: Dummy-variable
For hver kategori introducer en binær variabel: xHurtig xLangsom og xUsikker. xHurtig = 0 altid xLangsom = 1 hvis Hastighed = Langsom xLangsom = 0 hvis Hastighed ≠ Langsom xUsikker = 1 hvis Hastighed = Usikker xUsikker = 0 hvis Hastighed ≠ Usikker

32 Dummy-variable: Nu Som Tabel
Hastighed xLangsom xUsikker Hurtig Langsom 1 Usikker

33 Dummy-variable Model: Eksempel:

34 Logistisk Regression: Generel Form
Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:

35 Skala forklarende variabel
Eksempel: Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20) Plot: Andel Ja’er for hver score.

36 Logistisk Regressionsmodel
Model: Logit(Ja|Score=x) = a + bx Sandsynlighed: Plot: Logit(Ja|Score=x)

37 Logistiske funktion

38 Fortolkning Logit-forskel:
Så hver gang score stiger med 1 stiger logit med b. Odds-ratio: Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.

39 Hypotesetest H0: b = 0 H1: b ≠ 0 Teststørrelse:
Hvis vi afviser H0 siger vi at b er signifikant. Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

40 SPSS Output Estimerede model:
Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1.

41 Modelkontrol: Ikke logit-lineær
Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = a + b1x + b2x2 Hvis b2 ikke er signifikant, så er en logit-lineær model passende.

42 Modelkontrol: Hosmer-Lemeshows c2-test
Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. Ox = observerede antal personer med score x, der svarer ”Ja”. Nx = antal personer med score x. Ex = forventede antal personer med score x, der svarer ”Ja”.

43 Modelkontrol: Hosmer-Lemeshows c2-test
Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

44 SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = = 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

45 Multipel Logistisk Regression
Ide: Mere end en forklarende variabel. Model: Reference-kategorier: Dreng og Hurtig Dvs: bDreng = 0 og bHurtig = 0 Logit(Ja|Dreng,Hurtig) = a+bDreng+bHurtig = a+0+0 = a Logit(Ja|Pige,Langsom) = a+bPige+bLangsom

46 Logit-forskelle Logit(Ja|Køn,Langsom) - Logit(Ja|Dreng,Hurtig) = (a+bKøn+bLangsom) - (a+bKøn+bHurtig) = bLangsom. Dvs. bLangsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit(Ja|Pige,Hastighed) - Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) - (a+bDreng+bHastighed) = bPige. Dvs. bPige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.

47 Interaktion / Vekselvirkning
Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? Indfør interaktionsled bKøn,Hastighed. Model: Logit(Ja|Køn,Hastighed) = a + bKøn + bHastighed + bKøn,Hastighed

48 Interaktion / Vekselvirkning
Parametere der refererer til en eller flere reference- kategorier sættes lig nul: bDreng,Hurtig = 0 bDreng, Langsom = 0 bDreng, Usikker = 0 bPige, Hurtig = 0 bPige, Langsom ≠ 0 bPige, Usikker ≠ 0

49 Logit Tabel Tabel over Logit(Ja|Køn, Hastighed)
Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model. Køn Dreng Pige Læsehastighed Hurtig a a+bPige Langsom a+bLangsom a+bPige+bLangsom +bPige,Langsom Usikker a+bUsikker a+bPige+bUsikker +bPige,Usikker

50 Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige
logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige + bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker + bPige,Usikker.

51 Hypotse H0: bPige,Langsom = bPige,Usikker = 0
Dvs. der er ingen interaktion mellem Køn og Hastighed. H1: bPige,Langsom ≠0 og/eller bPige,Usikker ≠0 Dvs. der er interaktion mellem Køn og Hastighed.


Download ppt "Statikstik II 2. Lektion Lidt sandsynlighedsregning"

Lignende præsentationer


Annoncer fra Google