Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Dagens program Informationer χ2-test (chi-i-anden) Øvelser

Lignende præsentationer


Præsentationer af emnet: "Dagens program Informationer χ2-test (chi-i-anden) Øvelser"— Præsentationens transcript:

1 Dagens program Informationer χ2-test (chi-i-anden) Øvelser
Vejledning i fb.m. projekt 3 26/11 eller 3/11 χ2-test (chi-i-anden) Goodness-of-Fit test Test of Independence Øvelser Forbered forsvar og kritik af projekt 2. I gang med projekt 3 (projektplan, problem-stilling, dataindsamling, ...) 1

2 Goodness-of-Fit (GOF) test
Forsikring  Population, N N i % Stikprøve, n Auto 2.880 52% 48 Indbo 1.540 28% 30 Ulykke 1.100 20% 22 Total 5.520 100% 100

3 Goodness-of-Fit (GOF) test
Eksempel på problemstilling Der er gennemført en brugerundersøgelse med bl.a. nedenstående spørgsmål. Undersøg først om stikprøven er repræsentativ. 3

4 Goodness-of-Fit test Forudsætninger Hypoteser
Simpel tilfældig udvælgelse. Mindst fem forventede observationer i cellerne Hypoteser H0: Observerede = Faktiske Ha: Observerede ≠ Faktiske Beregning af teststørrelse Vi kender det faktisk observerede antal observationer i hver celle Vi beregner det forventede antal observationer i hver celle (= det antal, der vil forekomme, hvis nul hypotesen er sand). Produkt Forventet Observeret Difference Diff. ^ 2 (Diff. ^ 2) / Forventet Auto 52 48 4 16 0,31 Indbo 28 30 -2 0,14 Ulykke 20 22 0,2 Sum 0,65 4

5 Omregning af Chi-i-anden til en P-værdi
4. Omregning af teststørrelsen til en P-værdi kræver at vi kender antallet af frihedsgrader, df, (degrees of freedom), i tabellen. Antallet af frihedsgrader i en tabel med 1 række (eller 1 kolonne) er lig antal celler minus 1, dvs. df = antal rækker – 1. Ved opslag i Excel benyttes CHIDIST, der returnerer arealet til højre for den observerede teststørrelse. 5 5

6 Trin 5: Konklusion Konklusion: Store værdier af χ2 giver små P-værdier. Små P-værdier er beviser mod nul-hypotesen H0. Med en χ2 på 0,65 og 2 frihedsgrader bliver P-værdien 72%. Vi afviser H0, når P er mindre end 5%. I dette tilfælde opretholder vi derfor H0. Forskellene i fordelingerne (de faktiske og de observerede) kan skyldes tilfældigheder som følge af stikprøven. 6 6

7 Opgave i Godness-of-Fit test
ITU studerende, som kommer med en bachelor fra et andet universitet, fordeler sig som følger mht. baggrund: 20% kommer fra naturvidenskabelige uddannelser 40% fra samfundsvidenskabelige uddannelser 40% fra humanistiske uddannelser Der er gennemført en undersøgelse blandt ITU studerende. Stikprøven på 42 studerende har følgende sammensætning: 7 fra naturvidenskabelige uddannelser (17%) 19 fra samfundsvidenskabelige uddannelser (45%) 16 fra humanistiske uddannelser (38%) Er stikprøven repræsentativ for populationen? 7 7

8 Test of Independence Afhænger brugervenligheden, BV, af antal billeder på en hjemmeside? Billeder \ BV Lav BV Middel Høj BV Antal Mange billeder 46% 43% 11% 131 Få billeder 59% 35% 6% 49 Total 49% 41% 10% 180 Tabelopstilling Responsvariablen (den afhængige) sættes i kolonnerne. Den forklarende variabel (den uafhængige) sættes i rækkerne. Beregn betingede procentfordelinger. Vis antallet som procenterne er beregnet på. 8 8

9 Test of Independence Afhænger brugervenligheden, BV, af antal billeder på en hjemmeside? Definition To variable er uafhængige, hvis de betingede fordelinger er ens (statistisk set) i populationen. To variable er afhængige, hvis de betingede fordelinger afviger betydeligt fra hinanden (statistisk set) i populationen. Tabellen viser resultater fra en stikprøve og de afviger mere eller mindre fra populationens. Billeder \ BV Lav BV Middel Høj BV Antal Mange billeder 46% 43% 11% 131 Få billeder 59% 35% 6% 49 Total 49% 41% 10% 180 9 9

10 Test of Independence Forudsætninger Hypoteser
Simpel tilfældig udvælgelse. Mindst fem forventede observationer i cellerne Hypoteser H0: De to variable er uafhængige Ha: De to variable er afhængige Beregning af teststørrelse Vi kender det faktisk observerede antal observationer i hver celle Vi beregner det forventede antal observationer i hver celle for det tilfælde, at de to variable er uafhængige. Billeder \ BV Lav BV Middel Høj BV Total Mange billeder 60 56 15 131 Få billeder 29 17 3 49 89 73 18 180 10 10

11 Det forventede antal observationer
Sandsynligheder P(Mange billeder) = 131/180, P(Få billeder) = 49/180 P(Lav BV) = 89/180, P(Middel) = 73/180, P(Høj BV) = 18/180 Forventede antal observationer P(Mange) x P(Lav BV) x 180 = (131/180) x (89/180) x 180 = (131 x 89) / 180 = 64,77 Hvis de to variable er uafhængige, forventer vi at finde 64,77 ≈ 65 observationer i celle 1 (hvor vi faktisk observerer 60). Generel skivemåde: Billeder \ BV Lav BV Middel Høj BV Total Mange billeder 60 56 15 131 Få billeder 29 17 3 49 89 73 18 180 11 11

12 Test of Independence 3. Beregning af Chi-i-anden teststørrelsen
Chi-i-anden beregnes for hver celle. Chi-i-anden teststørrelsen er summen heraf. Den sammenfatter, hvor langt de faktiske antal ligger fra de forventede antal (nul-hypotesens ”forventning”). χ2 for den første celle: (60 – 64,8) = -4,8 (-4,8)2 = 23,04 23,04 / 64,8 = 0,35 Sum (0, ,74) = 2,87 Observeret Lav Middel Høj Total Mange billeder 60 56 15 131 Få billeder 29 17 3 49 89 73 18 180 Chi-i-anden Lav Middel Høj Mange 0,35 0,16 0,28 Få billeder 0,94 0,42 0,74 Forventet Lav Middel Høj Total Mange 64,8 53,1 13,1 131 24,2 19,9 4,9 49 89 73 18 180 12

13 Test of Independence 4. Omregning af teststørrelsen til en P-værdi kræver at vi kender antallet af frihedsgrader, df, (degrees of freedom), i tabellen. Antallet beregnes efter formlen: df = (r-1) x (k-1)=(2-1) x (3-1) = 2. P findes ved opslag i Excel. På dansk hedder funktionen CHI2.FORD.RT. Denne returnerer sandsynligheden i den højre hale (RT=right tail). Dvs. P(X2>obs.værdi), ssh. for den observerede værdi af teststørrelse eller større. Billeder \ BV Lav Middel Høj Antal Mange billeder 46% 43% 11% 131 Få billeder 59% 35% 6% 49 Total 49% 41% 10% 180 13 13

14 Test of Independence Konklusion: Med P værdi på 24% opretholdes H0. Det vil sige, at brugervenligheden ikke kan formodes at afhænge af billed-brugen. Forskellene i fordelingerne kan skyldes tilfældigheder som følge af stikprøven Store værdier af χ2 giver små P-værdier. Små P-værdier er beviser mod nul-hypotesen H0. Med en χ2 på 2,87 og 2 frihedsgrader bliver P-værdien 24%. Vi afviser H0, når P er mindre end 5%. I dette tilfælde opretholder vi derfor H0. Hvad sker der med chi-i-anden teststørrelsen, hvis to kolonner byttes om? Hvad forskellen på Goodness of Fit test og Test of Independence? Billeder \ BV Lav Middel Høj Antal Mange billeder 46% 43% 11% 131 Få billeder 59% 35% 6% 49 Total 49% 41% 10% 180 14 14

15 Opgave i Test of Independence
Har personer, der angrer, større risiko for at få hjertesygdomme end personer, der ikke angrer? En undersøgelse har belyst risikoen for en bestemt type hjertesygdom. Hjertesygdom Grad af anger Ja Nej Total Lav 31 3.079 3.110 Middel 63 4.668 4.731 Højt 18 615 633 Opgaver Beregn de betingede fordelinger og beskriv i ord, hvad du ser. Test (slavisk, dvs. i de fem trin) om der er sammenhæng (asso-ciation) mellem responsvariablen og den forklarende variabel. Skriv en konklusion Kilde: (opgave 10.11, løsning i bunden af siden) 15 15

16 Falgruber i fb.m. Chi-i-anden test
”Misbrug” af chi-i-anden testen Data skal være genereret ved simpel tilfældig udvælgelse. Testen forudsætter, at de forventede antal > 5. Rækker og kolonner skal være uafhængige stikprøver (Kategorisering af kvantitative data). Siden indeholder relevante informationer Der er tilstrækkelig med information på hjemmesiden Meget god(t) God(t) God-kendt Mindre god(t) Dårlig(t) 92% 8% 0% 15% 81% 4% Godkendt 3% 42% 54% 1% 2% 21% 50% 28% 6% 11% 17% 39% 16

17 Goodness of fit test df for én række = (antal celler – 1)
Datagrundlag Afvist + oversendt Afvist Realitets­ behandlet Total Udsendt i alt 357 33% 536 50% 185 17% 1.078 100% Modtaget i ordinær undersøgelse 122 34% 161 46% 68 19% 351 Modtaget i bortfaldsundersøgelse 16 29% 27 49% 12 22% 55 df for én række = (antal celler – 1) df = (3-1) = 2 P(X2>0,8) = 67 % Besvarelserne i bortfaldsundersøgelsen antages af være repræsentative. Observeret antal 16 27 12 Forventet antal 19,1 25,2 10,7 Sum (Obs-Forv.)^2 / Forv. 0,51 0,12 0,17 0,8 17 17

18 Opsamling: Test og teststørrelser


Download ppt "Dagens program Informationer χ2-test (chi-i-anden) Øvelser"

Lignende præsentationer


Annoncer fra Google