Analyse af kontingenstabeller

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Hypotese test – kapitel 6 (Signifikans test)
Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)
Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
Analyse af kontingenstabeller
Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 18 Multipel Linear Regression
Muligheder for et studieretningsprojekt i matematik og samfundsfag
Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Program Informationer χ2-test (chi-i-anden) Projekt 3
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik Lektion 6 Konfidensinterval for andele og varians
Sandsynlighedsregning Analyse af kontingenstabeller
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Signifikanstest ved (en eller) to stikprøver
Sandsynlighedsregning Analyse af kontingenstabeller
Dagens program Test of Independence (chi-i-anden) Videre med projekt 3
Statistik II 5. Lektion Log-lineære modeller.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.
Statistisk inferens Dagens program Grupper, opgave 1
Learning Objectives 5 Steps of a Significance Test Assumptions
Program 1.Påmindelser Pivottabeller og pivotgrafer Omkodning af data (sortering, søg-erstat) Bevar de originale data og lav kontroller 2.Hvem er målgruppen.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Grundlæggende teoretisk statistik
Statistik Lektion 8 Test for ens varians.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Log lineære modeller for 3- og flervejskontingenstabeller
Lineær og logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 4
Program – dag 2 (11. april 2011) Dag 2:
Anvendt Statistik Lektion 6
Præsentationens transcript:

Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller

Kursusbeskrivelse Omfang Emner Software: Masser af SPSS Eksamen 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression Generelle lineære modeller Log-lineære modeller Software: Masser af SPSS Eksamen Mundtlig, individuel, med udgangspunkt i mini-projekt Dato: Det skal vi have aftalt.

Kontingenstabeller Typisk: Spørgeskemaundersøgelse (Survey) Svartyperne er Kategoriske – der er et antal svarmuligheder Nominel kategorisk, dvs. ordnede kategorier Fx. Indkomstgruppe: Lav, Mellem eller Høj Ordinale kategoriske, dvs. kategorier uden ordning. Fx. Favoritfarve: Rød, Grøn, Blå eller Anden. Kontingenstabel Tabel over antal observationer, der falder i forskellige kombinationer af kategorier.

Dikotome variable Dikotom variabel: Kategorisk variabel med kun to kategorier. Fx Ja/Nej, Mand/Kvinde, Sort/Hvid. Hvis de to kategori er hhv 0 og 1kaldes variablen binær. I SPSS omkoder dikotome variable til binære – hold øje med hvad omkodes til hvad. I dag: Analyse af sammenhæng mellem to ellere flere dikotome variable.

Udsat for vold/trusler Eksempel Sammenhængen mellem arbejdsløshed og eksponering for vold: Er der en sammenhæng? Udsat for vold/trusler Nej Ja Total Arbejdsløs 2483 96.9% 80 3.1% 2563 100.0% 386 94.6% 22 5.4% 408 100.0% 2869 96.6% 102 3.4% 2000 100.0%

Sammenligne forhold Antagelser: Data repræsentativ for befolkningen Der er en kausalitet Ide: Sammenlign forholder mellem Nej’er og Ja’er blandt hhv. folk i og uden arbejde: I arbejde : 2483/80 = 31.03 Uden arbejde: 386/22 = 17.54 Delkonklusion: De ser ret forskellige ud!

Forhold mellem forhold… Næste trin: Forholdet af forholdene: Hvis de to forhold er ens, så er forholdet mellem forholdene = 1.

Krydsprodukt-forholdet a b c d En 2x2 tabel: Krydsproduktforhold: Forholdet mellem række-forhold: Forholdet mellem søjle-forhold: Det samme!

Samme sammenhæng Sammenhæng mellem A og B som mellem X og Y Samme rækkeforhold A B 2 4 X Y 8 16 32 U V 100 1000 2000 Sammenhæng mellem A og B som mellem X og Y Sammenhæng mellem A og B som mellem U og V Krydsprodukter: Samme søjleforhold

Mere krydsprodukt A B 2 6 X Y 15 5 S T 3 1 Forskellige rækkeforhold Forskellige søjleforhold Begge krydsprodukter = 3! Konstruer ny tabel S T 3 1 Samme rækkeforhold Samme søjleforhold

Krydsproduktet og odds X 1 Y a b c d Lad X og Y være binære variabel Da er odds’et for X: Betinget odds: Odds’et for X givet Y=1: Krydsproduktet er det samme om Odds-ratio:

g-koeffcienten Definition: Relation til k: ... og omvendt: Der er en en-til-en korrespondance mellem g og k. Dvs. g og k indeholder samme information om data.

Fortolkning af g a d b c g = 0 hvis X og Y er uafhængige. g = +1 hvis b eller c er lig nul, dvs. hvis stærkest mulige positive relation i data. g = -1 hvis a eller d er lig nul, dvs. hvis stærkest mulige negative relation i data. Minder om ”almindelig” korrelation. a d b c

Konfidensinterval for g Et 95% konfidensinterval for sande g : Hvor I begge formler er g estimeret fra data.

Konfidensinterval for g Eksemplet: 95% konfidensinterval 0.055 0.501

Signifikanstest og tabeller Mål: Afgøre om der er sammenhæng mellem to kategoriske variable Ide: Find de forventede antal, under antagelse af, at der ingen sammenhæng er. Sammenlign de faktisk observerede antal med de forventede. Beslutning: Hvis forskellen mellem forventede og observerede antal er for stor, tror vi på, at der er en sammenhæng.

Forventet vs Observeret Flyskræk igen! Hvilke antal forventes, hvis der ingen sammenhæng var mellem arbejdsløshed og vold/trusler? Udsat for vold/trusler Nej Ja Total Arbejdsløs 2483 80 2563 386 22 408 2869 102 2000

Plads til udregninger

Mål for forskellen mellem observeret og forventet antal Lad Oi og Ei være hhv. observerede og forventede antal i den i’te celle i tabellen. Forskellen mellem Oi’erne og Ei’erne opsummeres ved Hvis Χ2=0 passer observeret og forventet perfekt sammen. Jo større Χ2 er, jo dårligere passer de sammen… …og jo mindre tror vi på uafhængighed.

r x c Kontingenstabeller Kontingstabellen består af r rækker og c kolonner. Første kategoriske variabel (Helbred) har c kategorier. Anden kategoriske variabel (Jobtype) har r kategorier. Celle (3,4) Det forventede antal observationer i celle (i,j) er Eij = n (Ri / n )( Cj / n ) = RiCj / n

Signifikanstest generelt Opstil to hypoteser: Nul-hypotese (H0): Påstand om data, der er beskrevet ved en (simpel) statistisk model. Alternativ-hypotese (H1): Det modsatte af nul-hypotesen. Princip: Vi tror på H0 hypotesen indtil data giver os grund til andet. ”Enhver er uskyldig indtil hans skyld er bevist udover enhver rimelig tvivl”.

Signifikanstest i kontingenstabeller. Antag at X og Y er kategoriske stokastiske variable. Vi opstiller to hypoteser: H0: Uafhængighed mellem X og Y. H1: Afhængighed mellem X og Y.

Teststørrelse generelt Teststørrelse: Talstørrelse, der beskriver hvordan data passer til nul-hypotesen. Husk: Afgør hvilke værdier af teststørrelsen, der er ufordelagtige for H0. I kontingenstabel Teststørrelse: Store værdier af Χ2 er ufordelagtige for H0. Bemærk: Alle Ei’er skal helst være ≥ 5.

p-værdi P-værdi: Hvis H0 er sand, da er p-værdien sandsynligheden for at observere en mere ufordelagtig teststørrelse ”næste gang”. Fortolkning: Hvis p-værdien er meget lille har vi observeret data, der er meget ufordelagtig for H0. Med andre ord: Jo mindre p-værdi, jo mindre grund har vi til at tro på H0-hypotesen.

Beslutning Vælg signifikansniveau α. Typisk α=0.05. Beslutning: Hvis p-værdien < α afviser vi H0 og accepterer H1. Hvis p-værdien ≥ α kan vi ikke afvise H0. P-værdien kan typisk kun udregnes vha. SPSS. I SPSS betegnes p-værdien betegnes ’sig.’ (signifikans-sandsynlighed).

Eksempel i SPSS Analyze → Descriptive Statistics → Crosstabs

SPSS output Χ2-teststørrelse p-værdi Da p-værdien < 0.05 afviser vi at arbejdsløshed og vold/trusler er uaghængige.

Mere SPSS output

Mere end to variable Indtil nu: Afgøre om der er en (statistisk signifikant) sammenhæng mellem to kategoriske variable. Det næste: Kan andre kontrolvariable hjælpe med at forstå sammenhængen? Lad os se på nogle eksempler…

Sammenhæng mellem race og dom Dødsdom Anden dom Total Morder Sort 59 2.4% 2448 97.6% 2507 100.0% Hvid 72 3.2% 2185 96.8% 2257 100.0% 131 2.7% 4633 97.3% 4764 100.0% Test: H0: Ingen sammenhæng ml. race og dom. Teststørrelse: Χ2 = 3.1, df = 1, p = 0.078 ( > 0.05 ), g = -0.155 Konklusion: Vi kan ikke afvise H0. Dvs, vi kan ikke afvise, at der er uafhængighed mellem morders race og afsagt dom. (Simpelt: Ingen sammenhæng)

Kontrolvariabel: Offers race Dom Offer Dødsdom Anden dom Total Sort Morder 11 0.5% 2209 99.5% 2220 100.0% Hvid 111 100.0% 2320 99.5% 2331 100.0% 48 16.7% 239 83.3% 287 100.0% 72 3.4% 2074 96.6% 2146 100.0% 120 2.7% 2313 95.1% 2433 100.0% Χ2 = 0.55 df = 1 p = 0.59 g = 1.00 Χ2 = 96.5 df = 1 p = 0.000 g = 0.71

Opsummering Sammenhængen mellem race og dom var skjult Ikke-stratificeret analyse: Ikke-signifikant sammenhæng Stratificeret analyse: Signifikant sammenhæng Sammenhængen er muligvis lokal Kun signifikant sammenhæng når offer er hvid Simpsons paradoks – sammenhængen er ”vendt” Ikke-stratificeret analyse: Hvide straffes hårdest! Stratificeret analyse: Sorte straffes hårdest – uanset offers race.

Stratificering i SPSS Stratificering efter offers race.

Elaborering: Arbejde og boligforhold God Dårlig Total Tilknytning til arbjeds-markedet Fuldtid 83 69.7% 36 30.3% 119 100.0% Deltid 74 82.2% 16 17.8% 90 100.0% Pensioneret 736 82.5% 156 17.5% 892 100.0% Ingen 167 77.0% 50 23.0% 217 100.0% 1060 80.4% 258 19.6% 1318 100.0% Test: H0: Ingen sammenhæng mellem arbejde og boligforhold. Teststørrelse: Χ2 = 12.9, df = 3, p = 0.005 Konklusion: Signifikant sammenhæng

Bemærkninger Tabellen viser sammenhængen mellem arbejde og boligforhold blandt 70-årige i 1967 og 1984. Hvad mon forklarer denne sammenhæng? Lad os stratificere efter år, dvs. separate tabeller for 1967 og 1984.

Elaborering: Job-status og boligstandard God Dårlig Total 1967 Tilknytning til arbjeds-markedet Fuldtid 83 69.7% 36 30.3% 119 100.0% Deltid 74 82.2% 16 17.8% 90 100.0% Pensioneret 736 82.5% 156 17.5% 892 100.0% Ingen 167 77.0% 50 23.0% 217 100.0% 1060 80.4% 258 19.6% 1318 100.0% Test: H0: Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ2 = 0.0, df = 3, p = 0.998 Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

Elaborering: Job-status og boligstandard God Dårlig Total 1984 Tilknytning til arbjeds-markedet Fuldtid 83 69.7% 36 30.3% 119 100.0% Deltid 74 82.2% 16 17.8% 90 100.0% Pensioneret 736 82.5% 156 17.5% 892 100.0% Ingen 167 77.0% 50 23.0% 217 100.0% 1060 80.4% 258 19.6% 1318 100.0% Test: H0: Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ2 = 1.3, df = 3, p = 0.725 Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

Konklusioner Sammenhængen mellem arbejde og boligforhold forsvinder når vi stratificerer efter kohordeår. Vi siger at kohordeåret forklarer sammenhængen mellem arbejde og boligforhold. Statistisker: Betinget uafhængighed.

SPSS