Dagens program Informationer Opsamling χ2-test (chi-i-anden)

Slides:



Advertisements
Lignende præsentationer
Analyse af rejsekortet for
Advertisements

Den danske befolknings syn på handicappedes rettigheder
VMS data Geografisk og tidsmæssig udvikling af indsatsen i tobisfiskeriet v/ dataspecialist Josefine Egekvist Sekretariat for myndighedsbetjening.
Case: Tekst på Call-To-Action link
Atomer Et programmeret forløb. En måde at lære på.
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Dagens program Resumé - Normalfordelingen χ2-test (chi-i-anden)
Dagens program Informationer χ2-test (chi-i-anden) Øvelser
Hypotese test – kapitel 6 (Signifikans test)
Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)
Dagens program Kursusevaluering Information Spørgsmål om eksamen
v/ Professor Lars Ehlers, Aalborg Universitet
Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Körper-koordinationstest für Kinder (KTK)
Anvendt Statistik Lektion 4
Program Informationer χ2-test (chi-i-anden) Projekt 3
Bolig selskabernes Landsforening– Almene lejeboliger - Maj/Juni Almene lejeboliger - Danmarkspanelet - Maj/Juni 2010.
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Anvendt Statistik Lektion 6
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Representations for Path Finding in Planar Environments.
Case.
HUSKESPIL – den lille tabel
Jobrådgivernes Brancheforening Brugertilfredshed hos ”anden aktør” København 30. november 2011.
Titel: Arial, fed, skriftstr. 20, mørkegrå. Tekst: Arial, normal, fed eller kursiv, skriftstr. 10, 12 og 14 til print – 16 og 18 til projektor – mørkegrå.
Relativ vigtighed for elektroniske ressourcer,24,22,20,18,16,14,12,10 Indeks FARM nem at bruge Info om anvendelse af elektroniske.
Dagens program Kursusevaluering Repetition One way hhv. two way anova
 2 3  3 =  83  43  53  63  73  93  10 4.
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Signifikanstest ved (en eller) to stikprøver
Pleje og Sundhed Gennemførte719 Inviterede895 Svarprocent80% FREDERICIA KOMMUNE MTU og Psykisk APV 2012 Rapportspecifikationer.
Region Midtjyllands tilbud 2013
Learning Objectives 5 Steps of a Significance Test Assumptions
1 Dagens program 1.Information –Klaus’ frokost: 11:45-12:30, går 13:15. –Winston Churchill –Sidste forelæsning (19/11): Eksamen, kursus- evaluering, eksperimentelt.
Dagens program Test of Independence (chi-i-anden) Videre med projekt 3
ETU 2008 | Elevtilfredshedsundersøgelse Erhvervsskolen Nordsjælland HTX (Teknisk Gymnasium) - Hillerød Baseret på 313 besvarelser.
Opgave 2 24 Opgave 23 Opgave 22 Opgave 21 Opgave 20 Opgave 19 Opgave 18 Opgave 17 Opgave 16 Opgave 15 Opgave 14 Opgave 13 Opgave 12 Opgave Opgave.
Dagens program 1.Information Alle projekter er godkendt Sumkurve 2.Opsamling T-test 3.Variansanalyse (one-way) ANOVA 4.Intro til projekt 3 (Excels LOPSLAG.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.
Statistisk inferens Dagens program Grupper, opgave 1
Learning Objectives 5 Steps of a Significance Test Assumptions
Program 1.Påmindelser Pivottabeller og pivotgrafer Omkodning af data (sortering, søg-erstat) Bevar de originale data og lav kontroller 2.Hvem er målgruppen.
D 3 5A A A 16 5D 15 5A 14 5D A B D D A B A A D
Nye genetiske parametre for ydelse Anders Fogh og Kevin Byskov.
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Matematik B 1.
Claus Brabrand, ITU, Denmark Mar 10, 2009EFFECTIVE JAVA Effective Java Presentation Workshop Claus Brabrand [ ] ( “FÅP”: First-year Project.
1 Tråde 2 Plan Trådbegrebet Synkronisering Koordinering Eksempel: et flertrådet spil.
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Grunde til at jeg elsker dig
Fundamentale datastrukturer
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 7 Hypotesetest og kritiske værdier
1 Fundamentale datastrukturer. 2 Definitioner: abstrakt datatype, datastruktur Elementære datastrukturer og abstrakte datatyper : arrays, stakke, køer,
1 Kap. 4, Jordens Tyngdefelt = Torge, 2001, Kap. 3. Tyngdekraftens retning og størrelse g (m/s 2 ) Acceleration Tyngdepotentialet (W): evene til at udføre.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Grundlæggende teoretisk statistik
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.
Videnskabeligt projekt
Anvendt Statistik Lektion 6
Præsentationens transcript:

Dagens program Informationer Opsamling χ2-test (chi-i-anden) Goodness-of-Fit test Test of Independence Forsvar og kritik af projekt 2 Igang med projekt 3 (problemformulering, analysemodel, operationalisering, ...) 1

Opsamling: Test og teststørrelser Giv eksempler på kategori-serede og kvantitative data. Hvad er ideen i et statistisk test? Hvad er forskellen på 2 afhængige og uafhængige stikprøver?

Goodness-of-Fit test Eksempel på problemstilling: Bortfald i en undersøgelse Svarprocenten i en undersøgelse er pænt under 100%. Der er rejst tvivl om troværdigheden af undersøgelsen. For at eliminere tvivlen gennemføres en bortfaldsundersøgelse. 3

Datagrundlag Forsikring Population, N N i % Svar- procent Stikprøve, n Bortfalds-data, n Auto 12.000 50% 24% 2.880 52% 48 Indbo 7.000 29% 22% 1.540 28% 30 Ulykke 5.000 21% 1.100 20% 22 Total 24.000 100% 23% 5.520 100

Goodnes-of-Fit test Forudsætninger Hypoteser Simpel tilfældig udvælgelse. Mindst fem forventede observationer i cellerne Hypoteser H0: Observerede = Faktiske Ha: Observerede ≠ Faktiske Beregning af teststørrelse Vi kender det faktisk observerede antal observationer i hver celle Vi beregner det forventede antal observationer i hver celle (der vil optræde, hvis nul hypotesen er sand). Produkt Forventet Observeret Difference Diff. ^ 2 (Diff. ^ 2) / Forventet Auto 52 48 4 16 0,31 Indbo 28 30 -2 0,14 Ulykke 20 22 0,2 Sum 0,65 5

Omregning af Chi-i-anden til en P-værdi 4. Omregning af teststørrelsen til en P-værdi kræver at vi kender antallet af frihedsgrader, df, (degrees of freedom), i tabellen. Antallet af frihedsgrader, df, i en tabel med 1 kolonne (eller 1 række) er lig antal celler minus 1, dvs. df = antal rækker – 1. Ved opslag i Excel benyttes CHIDIST, der returnerer arealet til højre for den observerede teststørrelse. 6 6

Trin 5: Konklusion Konklusion: Store værdier af χ2 giver små P-værdier. Små P-værdier er beviser mod nul-hypotesen H0. Med en χ2 på 0,65 og 1 frihedsgrad bliver P-værdien 72%.Vi afviser H0, når P er mindre end 5%. I dette tilfælde opretholder vi derfor H0. Forskellene i fordelingerne (de faktiske og de observerede) kan skyldes tilfældigheder som følge af stikprøven. Hvad sker der med chi-i-anden teststørrelsen, hvis stikprøvestørrelsen øges? Excel har også en funktion, CHITEST, der tager der tager de faktiske og forventede antal som input og returnerer P-værdien. 7 7

Opgave i Godness-of-Fit test Der er gennemført en undersøgelse blandt ITU studerende. De, som kommer med en bachelor fra et andet universitet, fordeler sig som følger mht. baggrund: 20% kommer fra naturvidenskabelige uddannelser 40% fra samfundsvidenskabelige uddannelser 40% fra humanistiske uddannelser Stikprøven på 42 studerende har følgende sammensætning: 7 fra naturvidenskabelige uddannelser (17%) 19 fra samfundsvidenskabelige uddannelser (45%) 16 fra humanistiske uddannelser (38%) Er stikprøven repræsentativ for populationen? 8 8

Goodness of fit test df for én række = (antal celler – 1) Datagrundlag Afvist + oversendt Afvist Realitets­ behandlet Total Udsendt i alt 357 33% 536 50% 185 17% 1.078 100% Modtaget i ordinær undersøgelse 122 34% 161 46% 68 19% 351 Modtaget i bortfaldsundersøgelse 16 29% 27 49% 12 22% 55 df for én række = (antal celler – 1) df = (3-1) = 2 P(X2>0,8) = 67 % Besvarelserne i bortfaldsundersøgelsen antages af være repræsentative. Observeret antal 16 27 12 Forventet antal 19,1 25,2 10,7 Sum (Obs-Forv.)^2 / Forv. 0,51 0,12 0,17 0,8 9 9

Test of Independence Afhænger valget af rejsemål af målgruppen? Et rejsebureau har introduceret oversøiske rejsemål, og vil vide, om de appellere til børnefamilier. Segment Malta Europa Oversøisk Antal Børnefamilier 46% 43% 11% 131 Andre 59% 35% 6% 49 Total 49% 41% 10% 180 Tabelopstilling Responsvariablen (den afhængige) sættes i kolonnerne. Den forklarende variabel (den uafhængige) sættes i rækkerne. Beregn betingede procentfordelinger. Vis antallet (stikprøvestørrelsen) som procenterne er beregnet på. 10 10

Test of Independence Afhænger rejsemålet af målgruppen? Definition To variable er uafhængige, hvis de betingede fordelinger er ens (statistisk set) To variable er afhængige, hvis de betingede fordelinger afviger betydeligt fra hinanden (statistisk set) Definitionen henviser til en population. Tabellen viser resultater fra en stikprøve og de afviger mere eller mindre fra populationens. Målgruppe Malta Europa Oversøisk Antal Børnefamilier 46% 43% 11% 131 Andre 59% 35% 6% 49 Total 49% 41% 10% 180 11 11

Test of Independence Forudsætninger Hypoteser Simpel tilfældig udvælgelse. Mindst fem forventede observationer i cellerne Hypoteser H0: De to variable er uafhængige Ha: De to variable er afhængige Beregning af teststørrelse Vi kender det faktisk observerede antal observationer i hver celle Vi beregner det forventede antal observationer i hver celle for det tilfælde, at de to variable er uafhængige. Målgruppe Malta Europa Oversøisk Total M. børn 60 56 15 131 U. børn 29 17 3 49 89 73 18 180 12 12

Det forventede antal observationer Sandsynligheder P(Børnefam.) = 131/180, P(Ikke børnefam.) = 49/180 P(Malta) = 89/180, P(Europa) = 73/180, P(Oversøisk) = 18/180 Forventede antal observationer P(Børnefam.) x P(Malta) x 180 = (131/180) x (89/180) x 180 = (131 x 89) / 180 = 64,77 Hvis de to variable er uafhængige, forventer vi at finde 64,77 ≈ 65 observationer i celle 1 (hvor vi faktisk observerer 60). Generel skivemåde: Målgruppe Malta Europa Oversø. Total M. børn 60 56 15 131 U. børn 29 17 3 49 89 73 18 180 13 13

Test of Independence = Ki-kvadrat-test 3. Beregning af Chi-i-anden teststørrelsen Chi-i-anden beregnes for hver celle. Chi-i-anden teststørrelsen er summen heraf. Den sammenfatter, hvor langt de faktiske antal ligger fra de forventede antal (nul-hypotesens ”forventning”). χ2 for den første celle: (60 – 64,8) = -4,8 (-4,8)2 = 23,04 23,04 / 64,8 = 0,35 Sum (0,35 +...+ 0,74) = 2,87 Observeret Malta Europa Oversø. Total M. børn 60 56 15 131 U. børn 29 17 3 49 89 73 18 180 Chi-i-anden Malta Europa Oversø. M. børn 0,35 0,16 0,28 U. børn 0,94 0,42 0,74 Forventet Malta Europa Oversø. Total M. børn 64,8 53,1 13,1 131 U. børn 24,2 19,9 4,9 49 89 73 18 180 14

Test of Independence = Ki-kvadrat-test 4. Omregning af teststørrelsen til en P-værdi kræver at vi kender antallet af frihedsgrader, df, (degrees of freedom), i tabellen. Antallet beregnes efter formlen: df = (r-1) x (k-1)=(2-1) x (3-1) = 2. P findes ved opslag i Excel eller i bogens tabel. Ved opslag i Excel benyttes CHIDIST, der giver os arealet (=sand- synlighedsmassen) til højre for den observerede teststørrelse. Målgruppe Malta Europa Oversø. Antal Børnefamilier 46% 43% 11% 131 Andre 59% 35% 6% 49 Total 49% 41% 10% 180 15 15

Test of Independence Konklusion: Store værdier af χ2 giver små P-værdier. Små P-værdier er beviser mod nul-hypotesen H0. Med en χ2 på 2,87 og 2 frihedsgrader bliver P-værdien 24%. Vi afviser H0, når P er mindre end 5%. I dette tilfælde opretholder vi derfor H0. Valget af rejsemål kan ikke formodes at afhænge af målgruppen. Forskellene i fordelingerne kan skyldes til-fældigheder som følge af stikprøven. Hvad sker der med chi-i-anden teststørrelsen, hvis to kolonner byttes om? Målgruppe Malta Europa Oversøisk Antal Børnefamilier 46% 43% 11% 131 Andre 59% 35% 6% 49 Total 49% 41% 10% 180 16 16

Falgruber i fb.m. Chi-i-anden test En statistisk signifikant sammehæng behøver ikke at have en praktisk betydning ”Misbrug” af chi-i-anden testen Data skal være genereret ved simpel tilfældig udvælgelse. Testen forudsætter, at de forventede antal > 5. Rækker og kolonner skal være uafhængige stikprøver (Kategorisering af kvantitative data).   Siden indeholder relevante informationer Der er tilstrækkelig med information på hjemmesiden Meget god(t) God(t) God-kendt Mindre god(t) Dårlig(t) 92% 8% 0% 15% 81% 4% Godkendt 3% 42% 54% 1% 2% 21% 50% 28% 6% 11% 17% 39% 17

Opgave i Test of Independence Har agressive personer større risiko for at få hjertesygdomme end ikke-agressive personer? En undersøgelse har belyst, om risikoen for en bestemt type hjertesygdom. Tallene fremgår af tabellen. Hjertesygdom Aggressivitet Ja Nej Total Lav 31 3.079 3.110 Middel 63 4.668 4.731 Højt 18 615 633 Opgaver Beregn de betingede fordelinger og beskriv i ord, hvad du ser. Test (slavisk, dvs. i de fem trin) om der er sammenhæng (asso-ciation) mellem responsvariablen og den forklarende variabel. Skriv en konklusion Kilde: http://www.sjsu.edu/faculty/gerstman/StatPrimer/crosstabs-exercises.htm (opgave 10.11, løsning i bunden af siden) 18 18