Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Slides:



Advertisements
Lignende præsentationer
Case: Tekst på Call-To-Action link
Advertisements

Dagens program Resumé - Normalfordelingen χ2-test (chi-i-anden)
Dagens program Informationer χ2-test (chi-i-anden) Øvelser
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Hypotese test – kapitel 6 (Signifikans test)
Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)
Anvendt Statistik Lektion 3
Analyse af kontingenstabeller
Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 20 Ikke-parametriske metoder
Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Akademi Merkonomer Statistik Aften 5
Statistik og sandsynlighedsregning
Program Informationer χ2-test (chi-i-anden) Projekt 3
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Analyse af kontingenstabeller
Sandsynlighedsregning Analyse af kontingenstabeller
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Signifikanstest ved (en eller) to stikprøver
Sandsynlighedsregning Analyse af kontingenstabeller
Dagens program Test of Independence (chi-i-anden) Videre med projekt 3
Statistik II 5. Lektion Log-lineære modeller.
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Learning Objectives 5 Steps of a Significance Test Assumptions
Program 1.Påmindelser Pivottabeller og pivotgrafer Omkodning af data (sortering, søg-erstat) Bevar de originale data og lav kontroller 2.Hvem er målgruppen.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Grundlæggende teoretisk statistik
Statistik Lektion 8 Test for ens varians.
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.
Statistik II 4. Lektion Logistisk regression.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 4
Program – dag 2 (11. april 2011) Dag 2:
Anvendt Statistik Lektion 6
Præsentationens transcript:

Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles i k kategorier. Lad Oi være antallet af observationer, der falder i den i’te kategori. Lad Ei være det forventede antal obser-vationer i’te kategori under antagelse af, at en given H0 hypotese er sand.

Chi-i-anden Teststørrelse Oi er faktiske antal observationer i i’te kategori og Ei er det forventede antal observationer under H0. Chi-i-anden teststørrelsen er givet ved Når stikprøvestørrelsen vokser og k fastholder, så nærmer X2 sig en Chi-i-anden fordeling. Bemærk: For at chi-i-anden approksimationen er god skal alle Ei være mindst 5, dvs. vi forventer mindst 5 observationer i hver kategori.

Chi-i-anden Test for Goodness of Fit Vi opstiller en hypotese om at data x1,…,xn er en stikprøve fra en bestemt fordeling, fx. multinomial- eller normalfordelingen. Vi bestemmer, hvordan hvert xi tilhører en af k kategorier. Under antagelse af at H0 er sand udregner vi hvor mange xi’er vi forventer falder i den j’te kategori, Ej. Via X2-teststørrelsen sammenligner vi dette med det faktiske observerede antal Oi.

Goodness of Fit: Multinomial fordelingen Multinomial fordelingen er en udvidelse af binomial fordelingen. For multinomial fordelingen gælder at en observation kan falde i en af k forskellig kategorier. sandsynligheden for at en observation falder i den i’te kategori er pi. summen af pi’erne er 1. Konsekvens: Har vi n observationer, så er det forventede antal observationer i den i’te kategori Ei=npi.

Goodness of Fit: Multinomial Nul-hypotesen og alternativ hypotesen: H0: Sandsynligheden for hændelserne H1, H2...,Hk er givet ved p1,p2,...,pk H1: Sandsynligheden for de k hændelser er ikke specificeret ved nul-hypotesen. H0: Antag ens sandsynligheder, p1= p2 = p3 = p4 =0.25 og n=80 Preference Tan Brown Maroon Black Total Observed 12 40 8 20 80 Expected(np) 20 20 20 20 80 (O-E) -8 20 -12 0 0 H0 afvises på signifikansniveau 0.01.

Goodness of Fit: Multinomial SPSS: Analyze → Nonparametric Tests → Chi-square… Hvis de ’expected counts’ er forskellige, så kan de indsættrs her

Goodness of Fit: Multinomial SPSS: Observede og forventede ’counts’ Teststørrelse og p-værdi

Goodness of Fit: Normalfordeling Hypotese: Data x1,…,xn, følger en en standard normalfordeling (N(0,σ2) ). Ide: Vi inddeler normalfordelingen i k ”bidder”. Vi udregner sandsynligheden for at standard normalfordelt tal falder i den j’te ”bid”. Dernæst kan vi ”genbruge” multinomal eksemplet. 5 - . 4 3 2 1 z f ( ) P a r t i o n g h e S d N m l D s b u -1 -0.44 0.44 0.1700 0.1713 0.1587

Goodness of Fit: Normalfordeling Vi anvender følgende inddeling: -1, -0.44, 0, 0.44 og 1. Vi har da 6 kategorier: 1. kategori: Z ≤ -1 2. kategori: -1 < Z ≤ -0.44 3. kategori: -0.44 < Z ≤ 0 4. kategori: 0 < Z ≤ 0.44 5. kategori: 0.44 < Z ≤ 1 6. kategori: 1 < Z Hvad er sandsynligheden for at Z er i 5. kategori? Det samme som P[0.44 < Z ≤ 1] = ”Areal af 5. område i figuren” = 0,1713. (Kan findes vha. tabel) 5 - . 4 3 2 1 z f ( ) P a r t i o n g h e S d N m l D s b u -1 -0.44 0.44 0.1700 0.1713 0.1587

Goodness of Fit: Normalfordeling Vi kan bestemme sandsynligheden pi for den i’te kategori. Vi har da 6 sandsynligheder 1. kategori: p1 = 0,1578 2. kategori: p2 = 0,1713 3. kategori: p3 = 0,1700 4. kategori: p4 = 0,1700 5. kategori: p5 = 0,1713 6. kategori: p6 = 0,1578 Har vi n observationer, forventer vi Ei=npi observationer i den i’te kategori. Vi kan nu udregne X2 teststørrelsen. 5 - . 4 3 2 1 z f ( ) P a r t i o n g h e S d N m l D s b u -1 -0.44 0.44 0.1700 0.1713 0.1587

Kontingenstabeller Hidtil: Følger en kategorisk variabel en given fordeling? Nu: Er to kategoriske variable uafhængige? Fx uafhængighed mellem følgende to kategoriske variable: Jobtype (4 kategorier, Uden, Lavt-, mellem og højtlønnet) Helbred (5 kategorier: meget dårligt til meget godt) Værktøj: Kontingenstabeller (cross-tabs) I en kontingenstabel er hver ”celle” et antal / frekvens.

Kontingenstabeller Kontingstabellen består af r rækker og c kolonner. Første kategoriske variabel (Helbred) har c kategorier. Anden kategoriske variabel (Jobtype) har r kategorier. Celle (3,4) Oij er antallet af observationer (personer), hvor Helbred er tilhører i’te Helbreds-kategori og Jobtype j’te Jobtype.

Kontingenstabel Ri er rækketotalen, dvs. totale antal observationer af Jobtype = i. P( i ) = P( Jobtype = i ) = ”Sandsynlighed for at en tilfældig valgt person har Jobtype i” P( i ) = Ri / n = ”antal med Jobtype = i / total antal personer”.

Kontingenstabel Cj er kolonnetotalen, dvs. totale antal observationer af Helbred = j. P( j ) = P( Helbred = j ) = ”Sandsynlighed for at en tilfældig valgt person har Helbred=j” P( j ) = Cj / n = ”antal med Helbred = j / total antal personer”.

Test for uafhængighed X2 teststørrelsen er dvs. en sum over alle rækker og søjler. X2 følger approksimativt en Χ2-fordeling med (r-1)(c-1) frihedsgrader. Eij er det forventede antal observationer i celle (i,j) under antagelse af, at H0 er sand (uafhængighed). Hvis P( i ∩ j ) er sandsynligheden for at en tilfældig valgt person er i celle (i,j), da er Eij = n P( i ∩ j ).

Kontingenstabel: Uafhængighed Lad P( i ∩ j ) = P( Jobtype = i og Helbred = j ) Under H0 (uafhængighed) gælder (pr definition): P( i ∩ j ) = P( i )P( j ) Forventede frekvens er (som ved multinomial) Eij = n P( i ∩ j ) Fra før har vi: P( i ) = Ri / n og P( j ) = Cj / n . Dvs. Eij = n (Ri / n )( Cj / n ) = RiCj / n.

Kontingenstabel: Eksempel To kategoriske variabel: Industry: Service eller Nonservice Result: Profit eller Loss SPSS: Analyze → Descriptive Statistics → Crosstabs Forventede frekvenser og række procenter tilvælges under ’Cells’.

Kontingenstabel: Eksempel H0: Industry og Result er uafhængige H1: Der er en sammenhæng ml Industry og Result. For 2×2 tabeller anvendes en kontinuitets korrektion (såkaldt Yates korrektion) af teststørrelsen X2: c=2 kolonner og r=2 rækker: (c-1)(r-1)=1 frihedsgrader. Yates korrigeret X2 = 26,92. Kritisk værdi: Χ20.05(1) = 3,84 Da 29,92 > 3,84 forkaster vi H0 – dvs. vi accepterer hypotesen om, at Industry og Result er afhængige.

Kontingenstabel: Eksempel I SPSS vælges ’Chi-square’ i ’Statistics’ menuen i ’Crosstabs’. Resultat i SPSS. Bemærk ’Continuity Correction’:

Chi-i-anden Test af Andele Hidtil: Vi har spurgt n personer og analyseret sammenhængen mellem to kategoriske variable, fx helbred og jobtype. Nu: Er andelen af forskellige af bestemte kategorier ens for en række forskellige populationer? Eksempler: Er andelen der stemmer hhv, ”til venstre”, ”i midten”, ”til højre” den samme for 18-25 årige, 26-35 årige, 36-65 årige og over 65 år? Er andelen af personer med grøn tandbørste den samme blandt hjemløse og ikke-hjemløse?

Chi-i-anden Test af Andele Fremgangsmåde: Vi bestemmer hvor mange tilfældigt udvalgte vi vil spørge i hver population (fx i hver aldersgruppe). Dvs. vi fastlægger kolonne-totalerne. Meget nyttig, hvis en af populationerne naturligt er meget mindre end de andre, fx hjemløse.

Chi-i-anden Test af Andele Selvom vi kolonne totalerne er fastlagte ændrer ikke ved udregning af teststørrelsen eller antal frihedsgrader!! Vi har stadig Hvor Eij er udregnet som før og X2 følger en Χ2 fordeling med (r-1)(c-1) frihedsgrader. Dvs. Eij = RiCj / n.

Test af andele: Eksempel Er andelen af skades-anmeldelser den samme i tre aldersgrupper? 100 tilfældige kunder udvalgt i hver aldersgruppe. Forventede frekvenser: Eij = RiCj / n. Antal frihedsgrader: (c-1)(r-1) = (3-1)(2-1) = 2 Kritisk værdi: Χ20,05(2) = 5,99. Teststørrelse: X2 =

Uduelige piger… eller…? Vi har spurgt 1000 kvinde og 1000 mandlige kandidater om de har gennemførte deres studie på normeret tid. Resultat: Mænd 72,5% Kvinder 57,5% Forskellen er statistisk signifikant!

Stratificeret Analyse Vi har også spurgte om hvilket fakultet folk har studeret ved (INS eller Samf). Vi udfører nu analyses separat for hvert fakultet: (Vi siger vi stratificerer efter fakultet)

Simpsons Paradoks Internt på de to fakulteter er der ingen forskel mellem mænds og kvinders gennem-førsels procent! Bemærk: Kvinder vil hellere læse et studie, der er svært at gennemføre på tid. Mænd er lige modsat…

Flyskræk! Passer overskriften? Er du tryg ved at flyve? Politiken 6/12-’07 Er du tryg ved at flyve? Ja: 86% i 2005 og 83% i 2007 Vi antager de har spurgt 1000 tilfældige personer begge år. Dvs. 860 svarede ja i 2005 og 830 i 2007. H0 hypotese: Andelen af utrygge er den samme de to år!

Flyskræk! Observerede frekvenser Oij Tryg? 2005 2007 Total Ja 830 860 1690 Nej 170 140 310 1000 2000 Da det er en 2×2 tabel bruger vi Yates korrektionen: Kritisk værdi: Χ20,05(1) = 3,84 Teststørrelse: X2 = Forventede frekvenser Eij Tryg? 2005 2007 Total Ja 845 1690 Nej 155 310 1000 2000