Analyse af kontingenstabeller

Slides:



Advertisements
Lignende præsentationer
Den danske befolknings syn på handicappedes rettigheder
Advertisements

Atomer Et programmeret forløb. En måde at lære på.
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Hypotese test – kapitel 6 (Signifikans test)
Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)
Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
v/ Professor Lars Ehlers, Aalborg Universitet
Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Program Informationer χ2-test (chi-i-anden) Projekt 3
Bolig selskabernes Landsforening– Almene lejeboliger - Maj/Juni Almene lejeboliger - Danmarkspanelet - Maj/Juni 2010.
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Case.
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Statistik Lektion 6 Konfidensinterval for andele og varians
Analyse af kontingenstabeller
Sandsynlighedsregning Analyse af kontingenstabeller
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Signifikanstest ved (en eller) to stikprøver
Sandsynlighedsregning Analyse af kontingenstabeller
Dagens program Test of Independence (chi-i-anden) Videre med projekt 3
Statistik II 5. Lektion Log-lineære modeller.
Learning Objectives 5 Steps of a Significance Test Assumptions
Program 1.Påmindelser Pivottabeller og pivotgrafer Omkodning af data (sortering, søg-erstat) Bevar de originale data og lav kontroller 2.Hvem er målgruppen.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Grundlæggende teoretisk statistik
Statistik Lektion 8 Test for ens varians.
Økonometri 1: F141 Økonometri 1 Specifikation og dataproblemer 6. november 2006.
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Log lineære modeller for 3- og flervejskontingenstabeller
KM2: F211 Kvantitative metoder 2 Specifikation og dataproblemer 30. april 2007.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Samarbejde mellem matematik og samfundsfag. Disposition Indledning Hvorfor skal vi bruge 2 i samfundsfag? Hvordan kan matematikken bruges? Eksempel. Oplæg.
Anvendt Statistik Lektion 8
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Anvendt Statistik Lektion 4
Program – dag 2 (11. april 2011) Dag 2:
Anvendt Statistik Lektion 6
Præsentationens transcript:

Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller

Kursusbeskrivelse Omfang Emner Software: Masser af SPSS Eksamen 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression Generelle lineære modeller Log-lineære modeller Software: Masser af SPSS Eksamen Mundtlig, individuel, med udgangspunkt i mini-projekt Dato: Det skal vi have aftalt – mind mig lige om det!!

Variabeltyper Spørgeskemaundersøgelse (Survey) Svartyperne er Kategoriske – der er et antal svarmuligheder Nominel kategorisk, dvs. ordnede kategorier Fx. Indkomstgruppe: Lav, Mellem eller Høj Ordinale kategoriske, dvs. kategorier uden ordning. Fx. Favorit M&M: Rød, Grøn eller Blå.

Dikotome variable Dikotom variabel: Kategorisk variabel med kun to kategorier. Fx Ja/Nej, Mand/Kvinde, Sort/Hvid. Hvis de to kategori er hhv 0 og 1kaldes variablen binær. I SPSS omkoder dikotome variable til binære – hold øje med hvad omkodes til hvad. I dag: Analyse af sammenhæng mellem to ellere flere dikotome variable.

Kontingenstabel: Eksempel Sammenhængen mellem arbejdsløshed og eksponering for vold: Er der en sammenhæng? Udsat for vold/trusler Nej Ja Total Arbejdsløs 2483 96.9% 80 3.1% 2563 100.0% 386 94.6% 22 5.4% 408 100.0% 2869 96.6% 102 3.4% 2000 100.0%

Udsat for vold/trusler Sammenligne forhold Antagelser: Data repræsentativ for befolkningen Der er en kausalitet Ide: Sammenlign forholder mellem Nej’er og Ja’er blandt hhv. folk i og uden arbejde: I arbejde : 2483/80 = 31.03 Uden arbejde: 386/22 = 17.54 Delkonklusion: De ser ret forskellige ud! Udsat for vold/trusler Nej Ja Total Arbejdsløs 2483 96.9% 80 3.1% 2563 100.0% 386 94.6% 22 5.4% 408 100.0% 2869 96.6% 102 3.4% 2000 100.0% Kaldes også Odds

Forhold mellem forhold… Næste trin: Forholdet af forholdene: Hvis de to forhold er ens, så er forholdet mellem forholdene = 1.

Krydsprodukt-forholdet a b c d En 2x2 tabel: Krydsproduktforhold: Forholdet mellem række-forhold: Forholdet mellem søjle-forhold: Det samme!

g-koeffcienten Definition: Relation til k: ... og omvendt: Der er en en-til-en korrespondance mellem g og k. Dvs. g og k indeholder samme information om data.

Fortolkning af g a d b c g = 0 hvis X og Y er uafhængige. g = +1 hvis b eller c er lig nul, dvs. hvis stærkest mulige positive relation i data. g = -1 hvis a eller d er lig nul, dvs. hvis stærkest mulige negative relation i data. Minder om ”almindelig” korrelation. a d b c

Generel kontingenstabel I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. Spørgsmål: Er der sammenhæng mellem farvevalg og køn? Farve på foretrukne M&M Rød Grøn Blå Køn Mand 21 35.0% 13 21.7% 26 43.3% 60 100.0% Kvinde 34 53.2% 7 10.9% 23 35.9% 64 Total 55 44.4% 20 16.1% 49 39.5% 124 Celle: Antal personer, der er kvinde og som foretrækker rød

Spørgsmålet på hovedet Spørgsmål: Er der sammenhæng mellem farvevalg og køn? Vi vender spørgsmålet på hovedet: Spørgsmål: Kan vi afvise at der ingen sammenhæng er mellem køn og farvevalg? Antag at der ingen sammenhæng er mellem køn og farvevalg. Hvilket antal observationer ville vi så forvente i hver celle i vores kontingenstabel? Vi antager at de marginale antal ligger fast, dvs. det totale antal mænd, kvinder, røde, grønne og blå.

Farve på foretrukne M&M Forventede antal Hvis der ingen sammenhæng er mellem køn og farvevalg, så bør procentfordelingen være den samme blandt mænd og kvinder. Andel røde: 55/124 = 44.4% Forventede røde blandt mænd: 44.4% af 64 = 64*55/124 = 28.4 Farve på foretrukne M&M Rød Grøn Blå Køn Mand 60 100.0% Kvinde 64 Total 55 44.4% 20 16.1% 49 39.5% 124

Generel formel for det forventede I hver celle har vi Xij : observerede antal i celle (i,j) Eij : forventede antal i celle (i,j) Desuden har vi N: Totale antal observationer Ci : Antal observationer i ’te kolonne Rj: Antal observationer er j’te række Forventede antal for celle ( i,j ) er Eij = Ci Rj / N

Ombytning uden betydning Vi kan bytte rundt på farve og køn uden at det gør en forskel: Andelen af mænd: 60/124 = 48.4% Forventede antal mænd blandt røde: 48.4% af 55 = 55*60/124 = 28.4

Så langt så godt Vi har… Vi har arbejdshypotesen at der ikke er sammenhæng mellem køn og farvevalg Vi har fundet de forventede antal, hvis arbejdshypotesen er sand. Vi mangler… Vi mangler et mål for hvor meget de forventede antal afviger fra de forventede. Vi mangler en måde at afgøre, hvornår afvigelsen er så stor, at vi ikke længere kan acceptere arbejdshypotesen.

Mål for afvigelsen Vi bruger følgende mål Vi kalder c2 (”ki-i-anden”) en teststørrelse. c2 bruges til at teste arbejdshypotesen. Bemærk: c2 ≥ 0 c2 = 0 perfekt match Jo større c2 , jo mindre tror vi på arbejdshypotesen

c2 teststørrelse for eksemplet I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. Spørgsmål: 4.9 er ikke nul! Men er det så langt fra nul, at vi ikke kan acceptere arbejdshypotesen om ingen sammenhæng? Farve på foretrukne M&M Rød Grøn Blå Køn Mand 21 26.6 13 9.7 26 23.7 60 Kvinde 34 28.4 7 10.3 23 25.3 64 Total 55 20 49 124

Simuleret svar Antag at arbejdshypotesen er sand. Vi får en computer til at simulere nye tabeller, under antagelse af at arbejdshypotesen er sand at række- og søjletotaler er som de observerede. For hver tabel udregner vi c2. Resultat med 1000 nye tabeller: Hvis arbejds-hypotesen er sand vil 8.2% af tabellerne have en mere ”ekstrem” c2 værdi. Er c2 = 4.9 ekstremt?

Lidt mere teoretiske tilgang

Lidt mere teoretisk tilgang Vi har en teoretisk fordeling, der svarer til histogrammet: En såkaldt c2-fordeling med 2 frihedsgrader. Det røde areal svarer til sandsynligheden for at observere en mere ekstrem c2-værdi. Her er arealet 8.49%. Denne værdi kaldes også p-værdien. I en general tabel med r rækker og c kolonner, vil histogrammet svare til en c2-fordeling med (r-1)(c-1).

Beslutningen! Jo mere ekstrem c2 -værdi, jo mindre tror vi på arbejdshypotesen. Jo mere ekstrem c2 -værdi, jo mindre p-værdi. Hvis p-værdien er mindre end 5% så afviser vi arbejdshypotesen. Vi siger at testen (af arbejdshypotesen) er signifikant. Grænsen på de 5% kaldes signifikans-niveauet, og betegnes a. Signifikans-niveauet kan vælges frit, mer er typisk 10%, 5% eller 1%. Signifikans-niveauet vælges før teststørrelsen udregnes! I eksemplet kan vi ikke afvise arbejdshypotesen. Vi kan altså ikke afvise af der ingen sammenhæng er mellem køn og farvevalg.

Signifikanstest generelt Opstil statistisk model / statistiske antagelser Fx. at stikprøven er tilfældigt udvalgt. Opstil arbejds-hypotese Betegnes H0 , nul-hypotesen Fx. uafhængighed mellem køn og farvevalg Opstil alternativ-hypotese Den ”modsatte” hypotese af H0 Betegnes H1 Bemærk: Arbejdshypotesen er ikke nødvendigvis den hypotese vi tror på eller gerne vil ”bevise”. Arbejdshypotesen er generelt valgt, så den er mere ”præcis” end alternativ-hypotesen. Uafhængighed (ingen sammenhæng) er præcist, mens alternativet, afhængighed, kan være mange ting.

Signifikanstest generelt forts. Vælg signifikans niveau a Typisk 5%. Konstruer en test-størrelse Hvilke værdier er ekstreme for H0? Beregn teststørrelsen Beregning af test-størrelse ordnes af SPSS Beregn p-værdien p-værdien er sandsynligheden for at observere en mere ekstrem test-størrelse ”næste gang”, under antagelse af at modellen og dens antagelser er korrekte. Hvis p-værdien < a, så kan vi ikke afvise H0. Hvis p-værdien > a, så afviser vi H0 og accepterer H1 hypotesen. Fortolk resultatet.

Man begår fejl Når vi udfører en signifikanstest kan vi begå en af to fejl Type 1 fejl: Vi afviser H0 selvom den er sand Type 2 fejl: Vi accepterer H0 selvom den er falsk Antag modellen er korrekt, H0 er sand og at vi har valg et signifikans-niveau a. Hvad er da sandsynligheden for at begå en Type 1 fejl?

Lidt gode råd p-værdien er ikke sandsynligheden for at H0 er sand. p-værdien er ikke er udtryk for styrken af sammenhængen mellem to variable. p-værdien kan fortolkes som et udtryk for hvor meget vi tror på H0 hypotesen. HVER GANG i ser en p-værdi i SPSS (”sig.”), så gør jer hver gang klart, hvilken H0 hypotese den passer sammen med!!! Det er nemt nu, men det bliver mere indviklet senere…

Eksempel i SPSS Analyze → Descriptive Statistics → Crosstabs

SPSS output Opstiller hypoteser: H0 : Uafhængighed mellem arbejdsløs og vold/trusler H0 : Afhængighed Sig. niv. a = 5% c2-teststørrelse p-værdi Da p-værdien < 0.05 afviser vi at arbejdsløshed og vold/trusler er uafhængige.

Mere SPSS output

Mere end to variable Indtil nu: Afgøre om der er en (statistisk signifikant) sammenhæng mellem to kategoriske variable. Det næste: Kan andre katogoriske kontrolvariable hjælpe med at forstå sammenhængen? Ideen er at inddele det indsamlede data efter hvert svar i kontrolvariablen. Og derefter gentage tabelanalysen for hver delmængde af data. Vi siger vi stratificerer efter kontrolvariablen. Lad os se på nogle eksempler…

Sammenhæng mellem race og dom Dødsdom Anden dom Total Morder Sort 59 2.4% 2448 97.6% 2507 100.0% Hvid 72 3.2% 2185 96.8% 2257 100.0% 131 2.7% 4633 97.3% 4764 100.0% Test: H0: Ingen sammenhæng ml. race og dom. Teststørrelse: c2 = 3.1, df = 1, p = 0.078 ( > 0.05 ), g = -0.155 Konklusion: Vi kan ikke afvise H0. Dvs., vi kan ikke afvise, at der er uafhængighed mellem morders race og afsagt dom. (Simpelt: Ingen sammenhæng)

Kontrolvariabel: Offers race Dom Offer Dødsdom Anden dom Total Sort Morder 11 0.5% 2209 99.5% 2220 100.0% Hvid 111 100.0% 2320 99.5% 2331 100.0% 48 16.7% 239 83.3% 287 100.0% 72 3.4% 2074 96.6% 2146 100.0% 120 2.7% 2313 95.1% 2433 100.0% Χ2 = 0.55 df = 1 p = 0.59 g = 1.00 Χ2 = 96.5 df = 1 p = 0.000 g = 0.71

Opsummering Sammenhængen mellem race og dom var skjult Ikke-stratificeret analyse: Ikke-signifikant sammenhæng Stratificeret analyse: Signifikant sammenhæng Sammenhængen er muligvis lokal Kun signifikant sammenhæng når offer er hvid Simpsons paradoks – sammenhængen er ”vendt” Ikke-stratificeret analyse: Hvide straffes hårdest! Stratificeret analyse: Sorte straffes hårdest – uanset offers race.

Stratificering i SPSS Stratificering efter offers race.

Elaborering: Arbejde og boligforhold God Dårlig Total Tilknytning til arbjeds-markedet Fuldtid 83 69.7% 36 30.3% 119 100.0% Deltid 74 82.2% 16 17.8% 90 100.0% Pensioneret 736 82.5% 156 17.5% 892 100.0% Ingen 167 77.0% 50 23.0% 217 100.0% 1060 80.4% 258 19.6% 1318 100.0% Test: H0: Ingen sammenhæng mellem arbejde og boligforhold. Teststørrelse: Χ2 = 12.9, df = 3, p = 0.005 Konklusion: Signifikant sammenhæng

Bemærkninger Tabellen viser sammenhængen mellem arbejde og boligforhold blandt 70-årige i 1967 og 1984. Hvad mon forklarer denne sammenhæng? Lad os stratificere efter år, dvs. separate tabeller for 1967 og 1984.

Elaborering: Job-status og boligstandard God Dårlig Total 1967 Tilknytning til arbjeds-markedet Fuldtid 83 69.7% 36 30.3% 119 100.0% Deltid 74 82.2% 16 17.8% 90 100.0% Pensioneret 736 82.5% 156 17.5% 892 100.0% Ingen 167 77.0% 50 23.0% 217 100.0% 1060 80.4% 258 19.6% 1318 100.0% Test: H0: Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ2 = 0.0, df = 3, p = 0.998 Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

Elaborering: Job-status og boligstandard God Dårlig Total 1984 Tilknytning til arbjeds-markedet Fuldtid 83 69.7% 36 30.3% 119 100.0% Deltid 74 82.2% 16 17.8% 90 100.0% Pensioneret 736 82.5% 156 17.5% 892 100.0% Ingen 167 77.0% 50 23.0% 217 100.0% 1060 80.4% 258 19.6% 1318 100.0% Test: H0: Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ2 = 1.3, df = 3, p = 0.725 Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

Konklusioner Sammenhængen mellem arbejde og boligforhold forsvinder når vi stratificerer efter kohordeår. Vi siger at kohordeåret forklarer sammenhængen mellem arbejde og boligforhold. Statistiker: Betinget uafhængighed.