Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Analyse af kontingenstabeller

Lignende præsentationer


Præsentationer af emnet: "Analyse af kontingenstabeller"— Præsentationens transcript:

1 Analyse af kontingenstabeller
Statistik II 1. Lektion Analyse af kontingenstabeller

2 Kursusbeskrivelse Omfang Emner Software: Masser af SPSS Eksamen
5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression Generelle lineære modeller Log-lineære modeller Software: Masser af SPSS Eksamen Mundtlig, individuel, med udgangspunkt i mini-projekt Dato: Det skal vi have aftalt.

3 Kontingenstabeller Typisk: Spørgeskemaundersøgelse (Survey)
Svartyperne er Kategoriske – der er et antal svarmuligheder Nominel kategorisk, dvs. ordnede kategorier Fx. Indkomstgruppe: Lav, Mellem eller Høj Ordinale kategoriske, dvs. kategorier uden ordning. Fx. Favoritfarve: Rød, Grøn, Blå eller Anden. Kontingenstabel Tabel over antal observationer, der falder i forskellige kombinationer af kategorier.

4 Dikotome variable Dikotom variabel: Kategorisk variabel med kun to kategorier. Fx Ja/Nej, Mand/Kvinde, Sort/Hvid. Hvis de to kategori er hhv 0 og 1kaldes variablen binær. I SPSS omkoder dikotome variable til binære – hold øje med hvad omkodes til hvad. I dag: Analyse af sammenhæng mellem to ellere flere dikotome variable.

5 Udsat for vold/trusler
Eksempel Sammenhængen mellem arbejdsløshed og eksponering for vold: Er der en sammenhæng? Udsat for vold/trusler Nej Ja Total Arbejdsløs % 80 3.1% % % 22 5.4% % % % %

6 Sammenligne forhold Antagelser:
Data repræsentativ for befolkningen Der er en kausalitet Ide: Sammenlign forholder mellem Nej’er og Ja’er blandt hhv. folk i og uden arbejde: I arbejde : 2483/80 = 31.03 Uden arbejde: 386/22 = 17.54 Delkonklusion: De ser ret forskellige ud!

7 Forhold mellem forhold…
Næste trin: Forholdet af forholdene: Hvis de to forhold er ens, så er forholdet mellem forholdene = 1.

8 Krydsprodukt-forholdet
a b c d En 2x2 tabel: Krydsproduktforhold: Forholdet mellem række-forhold: Forholdet mellem søjle-forhold: Det samme!

9 Samme sammenhæng Sammenhæng mellem A og B som mellem X og Y
Samme rækkeforhold A B 2 4 X Y 8 16 32 U V 100 1000 2000 Sammenhæng mellem A og B som mellem X og Y Sammenhæng mellem A og B som mellem U og V Krydsprodukter: Samme søjleforhold

10 Mere krydsprodukt A B 2 6 X Y 15 5 S T 3 1 Forskellige rækkeforhold
Forskellige søjleforhold Begge krydsprodukter = 3! Konstruer ny tabel S T 3 1 Samme rækkeforhold Samme søjleforhold

11 Krydsproduktet og odds
X 1 Y a b c d Lad X og Y være binære variabel Da er odds’et for X: Betinget odds: Odds’et for X givet Y=1: Krydsproduktet er det samme om Odds-ratio:

12 g-koeffcienten Definition: Relation til k: ... og omvendt:
Der er en en-til-en korrespondance mellem g og k. Dvs. g og k indeholder samme information om data.

13 Fortolkning af g a d b c g = 0 hvis X og Y er uafhængige.
g = +1 hvis b eller c er lig nul, dvs. hvis stærkest mulige positive relation i data. g = -1 hvis a eller d er lig nul, dvs. hvis stærkest mulige negative relation i data. Minder om ”almindelig” korrelation. a d b c

14 Konfidensinterval for g
Et 95% konfidensinterval for sande g : Hvor I begge formler er g estimeret fra data.

15 Konfidensinterval for g
Eksemplet: 95% konfidensinterval 0.055 0.501

16 Signifikanstest og tabeller
Mål: Afgøre om der er sammenhæng mellem to kategoriske variable Ide: Find de forventede antal, under antagelse af, at der ingen sammenhæng er. Sammenlign de faktisk observerede antal med de forventede. Beslutning: Hvis forskellen mellem forventede og observerede antal er for stor, tror vi på, at der er en sammenhæng.

17 Forventet vs Observeret
Flyskræk igen! Hvilke antal forventes, hvis der ingen sammenhæng var mellem arbejdsløshed og vold/trusler? Udsat for vold/trusler Nej Ja Total Arbejdsløs 2483 80 2563 386 22 408 2869 102 2000

18 Plads til udregninger

19 Mål for forskellen mellem observeret og forventet antal
Lad Oi og Ei være hhv. observerede og forventede antal i den i’te celle i tabellen. Forskellen mellem Oi’erne og Ei’erne opsummeres ved Hvis Χ2=0 passer observeret og forventet perfekt sammen. Jo større Χ2 er, jo dårligere passer de sammen… …og jo mindre tror vi på uafhængighed.

20 r x c Kontingenstabeller
Kontingstabellen består af r rækker og c kolonner. Første kategoriske variabel (Helbred) har c kategorier. Anden kategoriske variabel (Jobtype) har r kategorier. Celle (3,4) Det forventede antal observationer i celle (i,j) er Eij = n (Ri / n )( Cj / n ) = RiCj / n

21 Signifikanstest generelt
Opstil to hypoteser: Nul-hypotese (H0): Påstand om data, der er beskrevet ved en (simpel) statistisk model. Alternativ-hypotese (H1): Det modsatte af nul-hypotesen. Princip: Vi tror på H0 hypotesen indtil data giver os grund til andet. ”Enhver er uskyldig indtil hans skyld er bevist udover enhver rimelig tvivl”.

22 Signifikanstest i kontingenstabeller.
Antag at X og Y er kategoriske stokastiske variable. Vi opstiller to hypoteser: H0: Uafhængighed mellem X og Y. H1: Afhængighed mellem X og Y.

23 Teststørrelse generelt
Teststørrelse: Talstørrelse, der beskriver hvordan data passer til nul-hypotesen. Husk: Afgør hvilke værdier af teststørrelsen, der er ufordelagtige for H0. I kontingenstabel Teststørrelse: Store værdier af Χ2 er ufordelagtige for H0. Bemærk: Alle Ei’er skal helst være ≥ 5.

24 p-værdi P-værdi: Hvis H0 er sand, da er p-værdien sandsynligheden for at observere en mere ufordelagtig teststørrelse ”næste gang”. Fortolkning: Hvis p-værdien er meget lille har vi observeret data, der er meget ufordelagtig for H0. Med andre ord: Jo mindre p-værdi, jo mindre grund har vi til at tro på H0-hypotesen.

25 Beslutning Vælg signifikansniveau α. Typisk α=0.05. Beslutning:
Hvis p-værdien < α afviser vi H0 og accepterer H1. Hvis p-værdien ≥ α kan vi ikke afvise H0. P-værdien kan typisk kun udregnes vha. SPSS. I SPSS betegnes p-værdien betegnes ’sig.’ (signifikans-sandsynlighed).

26 Eksempel i SPSS Analyze → Descriptive Statistics → Crosstabs

27 SPSS output Χ2-teststørrelse p-værdi Da p-værdien < 0.05 afviser vi at arbejdsløshed og vold/trusler er uaghængige.

28 Mere SPSS output

29 Mere end to variable Indtil nu: Afgøre om der er en (statistisk signifikant) sammenhæng mellem to kategoriske variable. Det næste: Kan andre kontrolvariable hjælpe med at forstå sammenhængen? Lad os se på nogle eksempler…

30 Sammenhæng mellem race og dom
Dødsdom Anden dom Total Morder Sort 59 2.4% % % Hvid 72 3.2% % % % % % Test: H0: Ingen sammenhæng ml. race og dom. Teststørrelse: Χ2 = 3.1, df = 1, p = ( > 0.05 ), g = Konklusion: Vi kan ikke afvise H0. Dvs, vi kan ikke afvise, at der er uafhængighed mellem morders race og afsagt dom. (Simpelt: Ingen sammenhæng)

31 Kontrolvariabel: Offers race
Dom Offer Dødsdom Anden dom Total Sort Morder 11 0.5% % % Hvid % % % % % % 72 3.4% % % % % % Χ2 = df = 1 p = 0.59 g = 1.00 Χ2 = df = 1 p = 0.000 g = 0.71

32 Opsummering Sammenhængen mellem race og dom var skjult
Ikke-stratificeret analyse: Ikke-signifikant sammenhæng Stratificeret analyse: Signifikant sammenhæng Sammenhængen er muligvis lokal Kun signifikant sammenhæng når offer er hvid Simpsons paradoks – sammenhængen er ”vendt” Ikke-stratificeret analyse: Hvide straffes hårdest! Stratificeret analyse: Sorte straffes hårdest – uanset offers race.

33 Stratificering i SPSS Stratificering efter offers race.

34

35 Elaborering: Arbejde og boligforhold
God Dårlig Total Tilknytning til arbjeds-markedet Fuldtid % % % Deltid % % % Pensioneret % % % Ingen % % % % % % Test: H0: Ingen sammenhæng mellem arbejde og boligforhold. Teststørrelse: Χ2 = 12.9, df = 3, p = 0.005 Konklusion: Signifikant sammenhæng

36 Bemærkninger Tabellen viser sammenhængen mellem arbejde og boligforhold blandt 70-årige i 1967 og 1984. Hvad mon forklarer denne sammenhæng? Lad os stratificere efter år, dvs. separate tabeller for 1967 og 1984.

37 Elaborering: Job-status og boligstandard
God Dårlig Total 1967 Tilknytning til arbjeds-markedet Fuldtid % % % Deltid % % % Pensioneret % % % Ingen % % % % % % Test: H0: Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ2 = 0.0, df = 3, p = 0.998 Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

38 Elaborering: Job-status og boligstandard
God Dårlig Total 1984 Tilknytning til arbjeds-markedet Fuldtid % % % Deltid % % % Pensioneret % % % Ingen % % % % % % Test: H0: Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ2 = 1.3, df = 3, p = 0.725 Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

39 Konklusioner Sammenhængen mellem arbejde og boligforhold forsvinder når vi stratificerer efter kohordeår. Vi siger at kohordeåret forklarer sammenhængen mellem arbejde og boligforhold. Statistisker: Betinget uafhængighed.

40 SPSS


Download ppt "Analyse af kontingenstabeller"

Lignende præsentationer


Annoncer fra Google