Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Lignende præsentationer


Præsentationer af emnet: "Repetition Goodness of Fit Uafhængighed i Kontingenstabeller"— Præsentationens transcript:

1 Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

2 Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles i k kategorier. Lad Oi være antallet af observationer, der falder i den i’te kategori. Lad Ei være det forventede antal obser-vationer i’te kategori under antagelse af, at en given H0 hypotese er sand.

3 Chi-i-anden Teststørrelse
Oi er faktiske antal observationer i i’te kategori og Ei er det forventede antal observationer under H0. Chi-i-anden teststørrelsen er givet ved Når stikprøvestørrelsen vokser og k fastholder, så nærmer X2 sig en Chi-i-anden fordeling. Bemærk: For at chi-i-anden approksimationen er god skal alle Ei være mindst 5, dvs. vi forventer mindst 5 observationer i hver kategori.

4 Chi-i-anden Test for Goodness of Fit
Vi opstiller en hypotese om at data x1,…,xn er en stikprøve fra en bestemt fordeling, fx. multinomial- eller normalfordelingen. Vi bestemmer, hvordan hvert xi tilhører en af k kategorier. Under antagelse af at H0 er sand udregner vi hvor mange xi’er vi forventer falder i den j’te kategori, Ej. Via X2-teststørrelsen sammenligner vi dette med det faktiske observerede antal Oi.

5 Goodness of Fit: Multinomial fordelingen
Multinomial fordelingen er en udvidelse af binomial fordelingen. For multinomial fordelingen gælder at en observation kan falde i en af k forskellig kategorier. sandsynligheden for at en observation falder i den i’te kategori er pi. summen af pi’erne er 1. Konsekvens: Har vi n observationer, så er det forventede antal observationer i den i’te kategori Ei=npi.

6 Goodness of Fit: Multinomial
Nul-hypotesen og alternativ hypotesen: H0: Sandsynligheden for hændelserne H1, H2...,Hk er givet ved p1,p2,...,pk H1: Sandsynligheden for de k hændelser er ikke specificeret ved nul-hypotesen. H0: Antag ens sandsynligheder, p1= p2 = p3 = p4 =0.25 og n=80 Preference Tan Brown Maroon Black Total Observed Expected(np) (O-E) H0 afvises på signifikansniveau 0.01.

7 Goodness of Fit: Multinomial
SPSS: Analyze → Nonparametric Tests → Chi-square… Hvis de ’expected counts’ er forskellige, så kan de indsættrs her

8 Goodness of Fit: Multinomial
SPSS: Observede og forventede ’counts’ Teststørrelse og p-værdi

9 Goodness of Fit: Normalfordeling
Hypotese: Data x1,…,xn, følger en en standard normalfordeling (N(0,σ2) ). Ide: Vi inddeler normalfordelingen i k ”bidder”. Vi udregner sandsynligheden for at standard normalfordelt tal falder i den j’te ”bid”. Dernæst kan vi ”genbruge” multinomal eksemplet. 5 - . 4 3 2 1 z f ( ) P a r t i o n g h e S d N m l D s b u -1 -0.44 0.44 0.1700 0.1713 0.1587

10 Goodness of Fit: Normalfordeling
Vi anvender følgende inddeling: -1, -0.44, 0, 0.44 og 1. Vi har da 6 kategorier: 1. kategori: Z ≤ -1 2. kategori: -1 < Z ≤ -0.44 3. kategori: < Z ≤ 0 4. kategori: 0 < Z ≤ 0.44 5. kategori: 0.44 < Z ≤ 1 6. kategori: 1 < Z Hvad er sandsynligheden for at Z er i 5. kategori? Det samme som P[0.44 < Z ≤ 1] = ”Areal af 5. område i figuren” = 0,1713. (Kan findes vha. tabel) 5 - . 4 3 2 1 z f ( ) P a r t i o n g h e S d N m l D s b u -1 -0.44 0.44 0.1700 0.1713 0.1587

11 Goodness of Fit: Normalfordeling
Vi kan bestemme sandsynligheden pi for den i’te kategori. Vi har da 6 sandsynligheder 1. kategori: p1 = 0,1578 2. kategori: p2 = 0,1713 3. kategori: p3 = 0,1700 4. kategori: p4 = 0,1700 5. kategori: p5 = 0,1713 6. kategori: p6 = 0,1578 Har vi n observationer, forventer vi Ei=npi observationer i den i’te kategori. Vi kan nu udregne X2 teststørrelsen. 5 - . 4 3 2 1 z f ( ) P a r t i o n g h e S d N m l D s b u -1 -0.44 0.44 0.1700 0.1713 0.1587

12 Kontingenstabeller Hidtil: Følger en kategorisk variabel en given fordeling? Nu: Er to kategoriske variable uafhængige? Fx uafhængighed mellem følgende to kategoriske variable: Jobtype (4 kategorier, Uden, Lavt-, mellem og højtlønnet) Helbred (5 kategorier: meget dårligt til meget godt) Værktøj: Kontingenstabeller (cross-tabs) I en kontingenstabel er hver ”celle” et antal / frekvens.

13 Kontingenstabeller Kontingstabellen består af r rækker og c kolonner.
Første kategoriske variabel (Helbred) har c kategorier. Anden kategoriske variabel (Jobtype) har r kategorier. Celle (3,4) Oij er antallet af observationer (personer), hvor Helbred er tilhører i’te Helbreds-kategori og Jobtype j’te Jobtype.

14 Kontingenstabel Ri er rækketotalen, dvs. totale antal observationer af Jobtype = i. P( i ) = P( Jobtype = i ) = ”Sandsynlighed for at en tilfældig valgt person har Jobtype i” P( i ) = Ri / n = ”antal med Jobtype = i / total antal personer”.

15 Kontingenstabel Cj er kolonnetotalen, dvs. totale antal observationer af Helbred = j. P( j ) = P( Helbred = j ) = ”Sandsynlighed for at en tilfældig valgt person har Helbred=j” P( j ) = Cj / n = ”antal med Helbred = j / total antal personer”.

16 Test for uafhængighed X2 teststørrelsen er
dvs. en sum over alle rækker og søjler. X2 følger approksimativt en Χ2-fordeling med (r-1)(c-1) frihedsgrader. Eij er det forventede antal observationer i celle (i,j) under antagelse af, at H0 er sand (uafhængighed). Hvis P( i ∩ j ) er sandsynligheden for at en tilfældig valgt person er i celle (i,j), da er Eij = n P( i ∩ j ).

17 Kontingenstabel: Uafhængighed
Lad P( i ∩ j ) = P( Jobtype = i og Helbred = j ) Under H0 (uafhængighed) gælder (pr definition): P( i ∩ j ) = P( i )P( j ) Forventede frekvens er (som ved multinomial) Eij = n P( i ∩ j ) Fra før har vi: P( i ) = Ri / n og P( j ) = Cj / n . Dvs. Eij = n (Ri / n )( Cj / n ) = RiCj / n.

18 Kontingenstabel: Eksempel
To kategoriske variabel: Industry: Service eller Nonservice Result: Profit eller Loss SPSS: Analyze → Descriptive Statistics → Crosstabs Forventede frekvenser og række procenter tilvælges under ’Cells’.

19 Kontingenstabel: Eksempel
H0: Industry og Result er uafhængige H1: Der er en sammenhæng ml Industry og Result. For 2×2 tabeller anvendes en kontinuitets korrektion (såkaldt Yates korrektion) af teststørrelsen X2: c=2 kolonner og r=2 rækker: (c-1)(r-1)=1 frihedsgrader. Yates korrigeret X2 = 26,92. Kritisk værdi: Χ20.05(1) = 3,84 Da 29,92 > 3,84 forkaster vi H0 – dvs. vi accepterer hypotesen om, at Industry og Result er afhængige.

20 Kontingenstabel: Eksempel
I SPSS vælges ’Chi-square’ i ’Statistics’ menuen i ’Crosstabs’. Resultat i SPSS. Bemærk ’Continuity Correction’:

21 Chi-i-anden Test af Andele
Hidtil: Vi har spurgt n personer og analyseret sammenhængen mellem to kategoriske variable, fx helbred og jobtype. Nu: Er andelen af forskellige af bestemte kategorier ens for en række forskellige populationer? Eksempler: Er andelen der stemmer hhv, ”til venstre”, ”i midten”, ”til højre” den samme for årige, årige, årige og over 65 år? Er andelen af personer med grøn tandbørste den samme blandt hjemløse og ikke-hjemløse?

22 Chi-i-anden Test af Andele
Fremgangsmåde: Vi bestemmer hvor mange tilfældigt udvalgte vi vil spørge i hver population (fx i hver aldersgruppe). Dvs. vi fastlægger kolonne-totalerne. Meget nyttig, hvis en af populationerne naturligt er meget mindre end de andre, fx hjemløse.

23 Chi-i-anden Test af Andele
Selvom vi kolonne totalerne er fastlagte ændrer ikke ved udregning af teststørrelsen eller antal frihedsgrader!! Vi har stadig Hvor Eij er udregnet som før og X2 følger en Χ2 fordeling med (r-1)(c-1) frihedsgrader. Dvs. Eij = RiCj / n.

24 Test af andele: Eksempel
Er andelen af skades-anmeldelser den samme i tre aldersgrupper? 100 tilfældige kunder udvalgt i hver aldersgruppe. Forventede frekvenser: Eij = RiCj / n. Antal frihedsgrader: (c-1)(r-1) = (3-1)(2-1) = 2 Kritisk værdi: Χ20,05(2) = 5,99. Teststørrelse: X2 =

25 Uduelige piger… eller…?
Vi har spurgt 1000 kvinde og 1000 mandlige kandidater om de har gennemførte deres studie på normeret tid. Resultat: Mænd 72,5% Kvinder 57,5% Forskellen er statistisk signifikant!

26 Stratificeret Analyse
Vi har også spurgte om hvilket fakultet folk har studeret ved (INS eller Samf). Vi udfører nu analyses separat for hvert fakultet: (Vi siger vi stratificerer efter fakultet)

27 Simpsons Paradoks Internt på de to fakulteter er der ingen forskel mellem mænds og kvinders gennem-førsels procent! Bemærk: Kvinder vil hellere læse et studie, der er svært at gennemføre på tid. Mænd er lige modsat…

28 Flyskræk! Passer overskriften? Er du tryg ved at flyve?
Politiken 6/12-’07 Er du tryg ved at flyve? Ja: 86% i 2005 og 83% i 2007 Vi antager de har spurgt 1000 tilfældige personer begge år. Dvs. 860 svarede ja i 2005 og 830 i 2007. H0 hypotese: Andelen af utrygge er den samme de to år!

29 Flyskræk! Observerede frekvenser Oij Tryg? 2005 2007 Total Ja 830 860
1690 Nej 170 140 310 1000 2000 Da det er en 2×2 tabel bruger vi Yates korrektionen: Kritisk værdi: Χ20,05(1) = 3,84 Teststørrelse: X2 = Forventede frekvenser Eij Tryg? 2005 2007 Total Ja 845 1690 Nej 155 310 1000 2000


Download ppt "Repetition Goodness of Fit Uafhængighed i Kontingenstabeller"

Lignende præsentationer


Annoncer fra Google