Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Statikstik II 2. Lektion Lidt sandsynlighedsregning

Lignende præsentationer


Præsentationer af emnet: "Statikstik II 2. Lektion Lidt sandsynlighedsregning"— Præsentationens transcript:

1 Statikstik II 2. Lektion Lidt sandsynlighedsregning
Lidt mere om signifikanstest Logistisk regression

2 Lidt sandsynlighedsregning
Lad A være en hændelse (et eller flere mulige udfald af et ”eksperiment”) Fx A = ”Det regner i morgen” P(A) = Sandsynligheden for hændelsen A. 0 ≤ P(A) ≤ 1 P(Det modsatte af A) = 1- P(A)

3 Stokastisk variabel X stokastisk variabel (SV) = ”tilfældigt tal”
X R (de reelle tal) X er en diskret SV, hvis X kan tage tælleligt mange værdier. Fx. X = antal spil på rouletten inden succes X er en kontinuert SV, hvis X kan tage alle værdier i et interval. Fx. X = Højden på en tilfældigt valgt person.

4 Tæthedsfunktion Antag X kontinuert SV.
Fordelingen af X kan angives ved sandsynlighedstæthedsfunktion (probability density function (PDF)) f(x). Egenskaber for PDF f(x) for SV X:

5 Tegning

6 Middelværdi og varians
Lad X være en kontinuert SV med PDF f. Middelværdien aka den forventede værdi af X er Variansen af X er

7 Eksempel: Normalfordelingen
Antag X er normalfordelt SV med middelværdi m = E[X] varians s2 Notation: X~N(m, s2) PDF:

8 Eksempel: Normalfordelingen
Antag X~N(m, s2) Da gælder P(-1.96s ≤ X ≤ +1.96s) = 0.95 s = = “Standard-afvigelsen” = “Standard error” = ”Standard fejl” Areal = 95% -1.96s +1.96s

9 Signifikanstest – side 1
0) Opstil statistisk model 1) Opstil Nul-hypotese (H0, arbejds-hypotese) - den ”simple” hypotese Alternativ-hypotesen (H1) – den modsatte hypotese af H0. 2) Vælg teststørrelse Talstørrelse, der beskriver hvordan data passer til nul-hypotesen. Noter hvilke værdier af teststørrelsen der er ufordelagtige for H0.

10 Signifikanstest – side 2
Bestemt fordelingen af teststørrelsen under antagelse af, at H0 er sand. Vælg signifikansniveau α – typisk α=0.05 eller α=0.01. Beregn P-værdien – sandsynligheden for at observere en mere ufordelagtig teststørrelse ved næste ”eksperiment”, under antagelse af, at H0 er sand. Beslutning: Hvis p-værdi < α : Afvis H0 og accepter H1. Hvis p-værid ≥ α : Vi kan ikke afvise H0.

11 Eksempel - repetition To kategoriske variable X og Y.
X har c kategorier Y har r kategorier Oij er antallet af observationer, hvor X er i i’te kategori Y er i j’te kategori Hypoteser: H0: X og Y er uafhængige H1: X og Y er afhængige

12 Eksempel - fortsat Teststørrelse Hvor
Ci = Antal observationer med X=i. Rj = Antal observationer med Y=j. N = Total antal observationer

13 Eksempel - fortsat Tegning: Jo større X2 jo mere ufordelagtig for H0.
Hvis H0 er sand gælder ”X2 følger en chi-i-anden fordeling med (r-1)(c-1) frihedsgrader”. Tegning:

14 Bemærkninger til c2-test
c2-testet kan generelt bruges i situationer, hvor man kan sammenligne observerede antal observationer med det forventede antal under en H0-hypotese. - det kan dog være tricky at finde det korrekte antal frihedsgrader For en 2x2 tabel (r = c = 2) Kontinuitets korrektion – så passer X2’s fordeling bedre med c2(1)-fordelingen. c2-testet er et ikke-parametrisk test.

15 Logistisk regression: Motivation
Sammenhængen ml. køn og selvvurdering Er der en sammenhæng? Er de 13.6% signifikant forskellige fra de 9.0%? Er du en god læser Nej Ja Total Køn Dreng % % % Pige 77 9.0% % % % % %

16 Omkodning Vi omkoder de dikotome variable til binære variable:
Køn = Dreng => X = 0 Køn = Pige => X = 1 God læser = Nej => Y = 0 God læser = Ja => Y = 1

17 Generel 2x2 tabel Generel tabel: To binære variable X og Y:
Er der en sammenhæng? Hvis p0 = p1 er X og Y uafhængige. Y 1 X 1-p0 = P(Y=0|X=0) p0 = P(Y=1|X=0) 1-p1 = P(Y=0|X=0) p1 = P(Y=1|X=0)

18 Odds og logit Lad X være binær variabel med P(X=1)=p. Definition odds:
Hvor Fortolkning: Odds(X=1)=2 betyder at X=1 er dobbelt så sandsynligt som X=0 Definition logit:

19 Odds og odds-ratio De to betingede odds: Odds-ratio:
Hvis X og Y uafhængige har vi og

20 Logit og logit-forskelle
De to betingede logits: Logit-forskel: Hvis X og Y uafhængige har vi og

21 Lidt regneri Lad og Logit-forskellen er da
De to betingede sandsynligheder er da Igen: Hvis β=0 har vi p0=p1, dvs. uafhængighed.

22 Fortolkning af ea og eb Vi har
Dvs. Oddset for Y=1 ændres med en faktor eb , når X går fra 0 til 1.

23 Statistisk model Definer βx for x=0,1: β0 = 0 β1 = β. Model:

24 Statistisk model – alternativ formulering
Bemærk: logit(Y=1|X=x) = α + βx.

25 Estimation Lad og betegne estimaterne af de sande, men ukendte parametere a og b. Parametrene a og b estimeres ved maximum-likelihood metoden: Definer funktion L( , ; data), der siger, hvor ”troelig” (likely) data under vores model for givne og . Vi vælger og så L er størst mulig (ordnes af SPSS)

26 Konfidens-interval for logit-forskel
Generelt har vi Et 95% konfidens-interval for logit-forskel β: Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = logit-forskel. Et 95% konfidens-interval for odds-ratio:

27 Signifikanstest Hypoteser Teststørrelse: (Wald teststør.)
H0: β = 0 (uafhængighed) H1: β = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.

28 SPSS Analyzy→ Regression → Binary Logistic

29 SPSS Output Model: Model: b SE(b) Z2 p-værdi a eb 95% konf-int. for b

30 Kategorisk forklarende variabel
Indtil nu har X fungeret som en binær forklarende variabel. Antag at den forklarende variabel er kategorisk med k kategorier. Som før kan en kategorisk variabel omkodes til heltal. Antag at X er en diskret variabel der kan tage værdierne 1,…,k. Hva’ nu?

31 Eksempel: k=3 Sammenhængen ml. læsehastighed og selvvurdering
Er der en sammenhæng? Er du en god læser Nej Ja Total Sætnings-læsning Hurtig 80 6.3% % % Langsom % % % Usikker % % % % % %

32 Uafhængighed Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens: Odds(God = Ja|Hastighed = Hurtig) Odds(God = Ja|Hastighed = Langsom) Odds(God = Ja|Hastighed = Usikker) Ved to Odds sammenligner vi de to Odds ved et Odds-ratio. Her?

33 Sammenligning af mange Odds
Vi vælger en reference kategori, fx. Læsehastighed = Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde får vi (k-1) Odds-ratios. Hvis alle (k-1) Odds-ratios er 1 er alle Odds ens og vi har uafhængighed. Tilsvarende er alle logit-forskelle = 0.


Download ppt "Statikstik II 2. Lektion Lidt sandsynlighedsregning"

Lignende præsentationer


Annoncer fra Google