Dagens program Resumé - Normalfordelingen χ2-test (chi-i-anden)

Slides:

Advertisements

Lignende præsentationer

Case: Tekst på Call-To-Action link

Advertisements

Atomer Et programmeret forløb. En måde at lære på.

Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Dagens program Informationer χ2-test (chi-i-anden) Øvelser

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Sandsynlighedsfordelinger

Hypotese test – kapitel 6 (Signifikans test)

Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)

Anvendt Statistik Lektion 3

Dagens program Kursusevaluering Information Spørgsmål om eksamen

Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt

Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori

Anvendt Statistik Lektion 4

Statistik og sandsynlighedsregning

Program Informationer χ2-test (chi-i-anden) Projekt 3

Dagens program Informationer Opsamling χ2-test (chi-i-anden)

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Normalfordelingen Man siger at et talmateriale er normalfordelt, når der optræder mange observationer i midten af materialet og få i yderkanterne. Her.

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Anvendt Statistik Lektion 2

Statistik Lektion 3 Simultan fordelte stokastiske variable

Anvendt Statistik Lektion 5

Sammenligning af to grupper

Sammenligning af to grupper – kapitel 7

Eksempel på brug af normalfordelingen

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Anvendt Statistik Lektion 3

Statistik og sandsynlighedsregning

Statistik og sandsynlighedsregning

Dagens program 1.Information Hvordan går det med projekt 3 Evaluering 2.Opsamling Hvad er forudsætningerne for kausalitet? 3.Om eksperimenter 4.Variansanalyse,

Anvendt Statistik Lektion 2

Dagens program Kursusevaluering Repetition One way hhv. two way anova

Statistik Lektion 6 Konfidensinterval for andele og varians

Signifikanstest ved (en eller) to stikprøver

Learning Objectives 5 Steps of a Significance Test Assumptions

1 Dagens program 1.Information –Klaus’ frokost: 11:45-12:30, går 13:15. –Winston Churchill –Sidste forelæsning (19/11): Eksamen, kursusevaluering, eksperimentelt.

Dagens program Test of Independence (chi-i-anden) Videre med projekt 3

Statistik – Lektion 2 Uafhængighed Stokastiske Variable

Dagens program 1.Information Alle projekter er godkendt Sumkurve 2.Opsamling T-test 3.Variansanalyse (one-way) ANOVA 4.Intro til projekt 3 (Excels LOPSLAG.

Statistik Lektion 3 Bernoulli og binomial fordelingerne

Statistisk inferens Dagens program Grupper, opgave 1

Learning Objectives 5 Steps of a Significance Test Assumptions

Program 1.Påmindelser Pivottabeller og pivotgrafer Omkodning af data (sortering, søg-erstat) Bevar de originale data og lav kontroller 2.Hvem er målgruppen.

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.

Agenda Informationer Opsamling fra sidst Normalfordelingen

Grundlæggende teoretisk statistik

Opsamling Simpel/Multipel Lineær Regression Logistisk Regression

Multipel Lineær Regression

Statistik for geografer

Bernoulli og binomial fordelingerne

Statistik Lektion 7 Hypotesetest og kritiske værdier

Økonometri – lektion 5 Multipel Lineær Regression

Grundlæggende teoretisk statistik

Simpel Lineær Regression

Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.

Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.

Grundlæggende teoretisk statistik

Grundlæggende teoretisk statistik

KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.

Grundlæggende teoretisk statistik

Normalfordelingen og Stikprøvefordelinger

Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.

Statistik II 4. Lektion Logistisk regression.

Opgave i normalfordeling 2.g, HHX. Grundbegreber Middelværdi, μ (græsk: my) Standardafvigelse, σ(græsk: sigma) X ̴ N(μ,σ)

Videnskabeligt projekt

Anvendt Statistik Lektion 4

Anvendt Statistik Lektion 6

Niveau 3: Regressionsanalyse: Tværsnitsundersøgelser

Teoretiske kontinuerte fordelinger

Præsentationens transcript:

Dagens program Resumé - Normalfordelingen χ2-test (chi-i-anden) Goodness-of-Fit test Test of Independence Projektopgave 1

Resumé - Normalfordelingen Normalfordelingen er symmetrisk (og klokkeformet) Normalfordelingen beskrives fuldstændigt ved μ og σ μ angiver placeringen på x-aksen. Jo større μ er, des længere til højre ligger fordelingen, jf. lilla fordeling vs. rød σ angiver spredningen omkring μ. Jo større σ er, des større er spredningen, jf. blå fordeling vs. rød. 2

Eksempel på opslag i normalfordelingen De besøgende på en hjemmeside bruger i gns. 300 sekunder på forsiden, før de klikker videre til en underside. Besøgstiden er normalfordelt med en standardafvigelse på 50 sekunder. Hvad er sandsynligheden for at tilfældig besøgende bruger mindre end 265 sekunder på forsiden? X = 265, μ = 300, σ = 50, Hvad er P(X<265)? Svaret er 0,24. 3

Normal- og Chi-i-anden fordelingen 4

Frihedsgrader, df Df = Antal celler, der frit kan variere, givet totalen. 1 vejs tabeller: Df=(antal rækker – 1) 2 vejs tabeller: (r-1)(k-1) Prod. X Y Z Total A 1 2 3 B 4 5 6 Uddannelse Antal Humanistisk 8 Samfundsvisk. 12 Naturvidensk. 5 Total 25 Køn X Y W Tot. M 1 2 3 4 K 5 6 7 8

Opslag i X2-fordelingen Hvad er sandsynligheden for X2-værdi større end 20, når df = 10? Hvad er sandsynligheden for X2-værdi mindre end 30, når df = 20? 6

Problemstilling: Er stikprøven repræsentativ? En gruppe vil i sit projekt undersøge, hvilke medievaner kunderne i et forsikringsselskab har. Formålet er at belyse, om selskabet har uudnyttede salgsmuligheder ved anvendelse af flere medier. Gruppen har fået lov at lave et online spørgeskemaet på forsikringsselskabets hjemmeside og har fået svar fra 100 besøgende. Gruppen vil undersøge, om stikprøven på 100 er repræsentativ Produkt Population, N N i % Stikprøve, n n i % Auto 12.000 50% 48 48% Indbo 7.000 29% 30 30% Ulykke 5.000 21% 22 22% Total 24.000 100% 100

Fremgangsmåde i en hypotesetest Antagelser Stikprøven er udtaget simpelt tilfældigt Andet, f.eks. stikprøvestørrelse Formulering af hypoteser Nulhypotese, H0: μ = parameterværdi (for ”uændret” / ingen forskel) Alternativ hypotese, H1: μ ≠, <, > parameterværdi Beregning af teststørelse (test statistic) Stikprøvens estimat sml. med nulhypotesens parameterværdi μ Teststørrelse, f.eks. X2 eller z-score Omregning af teststørrelse til en P-værdi Sandsynligheden for at opnå en værdi af teststørrelsen så stor som den observerede eller større (under forudsætning af, at nulhypotesen er sand - skrives ofte ”under H0”) P-værdien afrapporteres Konklusion Der konkluderes (jo mindre P er, des stærkere er beviserne mod H0) og resultatet fortolkes. 8

Formulering af hypoteser Formulering af hypoteser - analogi til en lovlig retssag Nul hypotesen: Den anklagede er uskyldig, der er intet sket, tingene er uændrede, ingen forskel / effekt Alternativ hypotesen: Den anklagede er skyldig Hvis juryen frikender den anklagede, betyder det ikke, at juryen accepter den anklagedes påstand om uskyldighed. Kun at beviserne ikke er der. Uskyldighed er plausibel, fordi skyld ikke har kunne bevises udover en rimelig tvivl 9 9

Goodness-of-Fit test Forudsætninger Hypoteser Simpel tilfældig udvælgelse. Mindst fem forventede observationer i cellerne Hypoteser H0: Observerede = Faktiske Ha: Observerede ≠ Faktiske Beregning af teststørrelse Produkt Forventet Observeret Difference Diff. ^ 2 (Diff. ^ 2) / Forventet Auto 50 48 4 16 0,31 Indbo 29 30 -2 0,14 Ulykke 21 22 0,2 Total 100 Sum 0,65 10

Omregning af Chi-i-anden til en P-værdi 4. Omregning af teststørrelsen til en P-værdi kræver at vi kender antallet af frihedsgrader, df, (degrees of freedom), i tabellen. Antallet af frihedsgrader, df, i en tabel med 1 række(eller 1 kolonne) er lig antal celler minus 1, dvs. df = antal rækker – 1. Ved opslag i Excel benyttes CHIDIST, der returnerer arealet til højre for den observerede teststørrelse. 11

Trin 5: Konklusion Konklusion: Store værdier af χ2 giver små P-værdier. Små P-værdier er beviser mod nul-hypotesen H0. Med en χ2 på 0,65 og 2 frihedsgrader bliver P-værdien 72%.Vi afviser H0, når P er mindre end 5%. I dette tilfælde opretholder vi derfor H0. Forskellene i fordelingerne (de faktiske og de observerede) kan skyldes tilfældigheder som følge af stikprøven. 12 12

Opgave i Godness-of-Fit test Der er gennemført en undersøgelse blandt ITU studerende. De, som kommer med en bachelor fra et andet universitet, fordeler sig som følger mht. baggrund: 20% kommer fra naturvidenskabelige uddannelser 40% fra samfundsvidenskabelige uddannelser 40% fra humanistiske uddannelser Stikprøven på 42 studerende har følgende sammensætning: 7 fra naturvidenskabelige uddannelser (17%) 19 fra samfundsvidenskabelige uddannelser (45%) 16 fra humanistiske uddannelser (38%) Er stikprøven repræsentativ for populationen? 13 13

Test of Independence Afhænger valget af rejsemål af målgruppen? Et rejsebureau har introduceret oversøiske rejsemål, og vil vide, om de appellere til børnefamilier. Segment Malta Europa Oversøisk Antal Børnefamilier 46% 43% 11% 131 Andre 59% 35% 6% 49 Total 49% 41% 10% 180 Tabelopstilling Responsvariablen (den afhængige) sættes i kolonnerne. Den forklarende variabel (den uafhængige) sættes i rækkerne. Beregn betingede procentfordelinger. Vis antallet (stikprøvestørrelsen) som procenterne er beregnet på. 14 14

Test of Independence Afhænger rejsemålet af målgruppen? Definition To variable er uafhængige, hvis de betingede fordelinger er ens (statistisk set) To variable er afhængige, hvis de betingede fordelinger afviger betydeligt fra hinanden (statistisk set) Definitionen henviser til en population. Tabellen viser resultater fra en stikprøve og de afviger mere eller mindre fra populationens. Målgruppe Malta Europa Oversøisk Antal Børnefamilier 46% 43% 11% 131 Andre 59% 35% 6% 49 Total 49% 41% 10% 180 15 15

Test of Independence Forudsætninger Hypoteser Simpel tilfældig udvælgelse. Mindst fem forventede observationer i cellerne Hypoteser H0: De to variable er uafhængige Ha: De to variable er afhængige Beregning af teststørrelse Vi kender det faktisk observerede antal observationer i hver celle Vi beregner det forventede antal observationer i hver celle for det tilfælde, at de to variable er uafhængige. Målgruppe Malta Europa Oversøisk Total M. børn 60 56 15 131 U. børn 29 17 3 49 89 73 18 180 16 16

Beregning af det forventede antal observationer, hvis de to variable er uafhængige Sandsynligheder P(Børnefam.) = 131/180, P(Ikke børnefam.) = 49/180 P(Malta) = 89/180, P(Europa) = 73/180, P(Oversøisk) = 18/180 Forventede antal observationer P(Børnefam.) x P(Malta) x 180 = (131/180) x (89/180) x 180 = (131 x 89) / 180 = 64,77 Hvis de to variable er uafhængige, forventer vi at finde 64,77 ≈ 65 observationer i celle 1 (hvor vi faktisk observerer 60). Beregningsmetode: Målgruppe Malta Europa Oversø. Total M. børn 60 56 15 131 U. børn 29 17 3 49 89 73 18 180 17 17

Test of Independence 3. Beregning af Chi-i-anden teststørrelsen Chi-i-anden beregnes for hver celle. Chi-i-anden teststørrelsen er summen heraf. Den sammenfatter, hvor langt de faktiske antal ligger fra de forventede antal (nul-hypotesens ”forventning”). χ2 for den første celle: (60 – 64,8) = -4,8 (-4,8)2 = 23,04 23,04 / 64,8 = 0,35 Sum (0,35 +...+ 0,74) = 2,87 Observeret Malta Europa Oversø. Total M. børn 60 56 15 131 U. børn 29 17 3 49 89 73 18 180 Chi-i-anden Malta Europa Oversø. M. børn 0,35 0,16 0,28 U. børn 0,94 0,42 0,74 Forventet Malta Europa Oversø. Total M. børn 64,8 53,1 13,1 131 U. børn 24,2 19,9 4,9 49 89 73 18 180 18

Test of Independence 4. Omregning af teststørrelsen til en P-værdi kræver at vi kender antallet af frihedsgrader, df, (degrees of freedom), i tabellen. Antallet beregnes efter formlen: df = (r-1) x (k-1)=(2-1) x (3-1) = 2. P findes ved opslag i Excel eller i bogens tabel. Ved opslag i Excel benyttes CHIDIST, der giver os arealet (=sand- synlighedsmassen) til højre for den observerede teststørrelse. Målgruppe Malta Europa Oversø. Antal Børnefamilier 46% 43% 11% 131 Andre 59% 35% 6% 49 Total 49% 41% 10% 180 19 19

Test of Independence Konklusion: Store værdier af χ2 giver små P-værdier. Små P-værdier er beviser mod nul-hypotesen H0. Med en χ2 på 2,87 og 2 frihedsgrader bliver P-værdien ca. 24%. Vi afviser H0, når P er mindre end 5%, så i dette tilfælde opretholder vi derfor H0. Valget af rejsemål kan ikke formodes at afhænge af målgruppen. Forskellene i fordelingerne kan skyldes til-fældigheder som følge af stikprøven. Hvad sker der med chi-i-anden teststørrelsen, hvis to kolonner byttes om? Målgruppe Malta Europa Oversøisk Antal Børnefamilier 46% 43% 11% 131 Andre 59% 35% 6% 49 Total 49% 41% 10% 180 20 20

Falgruber i fb.m. Chi-i-anden test En statistisk signifikant sammehæng behøver ikke at have en praktisk betydning ”Misbrug” af chi-i-anden testen Data skal være genereret ved simpel tilfældig udvælgelse. Testen forudsætter, at de forventede antal > 5. Rækker og kolonner skal være uafhængige stikprøver (Kategorisering af kvantitative data). Siden indeholder relevante informationer Der er tilstrækkelig med information på hjemmesiden Meget god(t) God(t) God-kendt Mindre god(t) Dårlig(t) 92% 8% 0% 15% 81% 4% Godkendt 3% 42% 54% 1% 2% 21% 50% 28% 6% 11% 17% 39% 21

Opgave i Test of Independence Har agressive personer større risiko for at få hjertesygdomme end ikke-agressive personer? En undersøgelse har belyst, om risikoen for en bestemt type hjertesygdom. Tallene fremgår af tabellen. Hjertesygdom Aggressivitet Ja Nej Total Lav 31 3.079 3.110 Middel 63 4.668 4.731 Højt 18 615 633 Opgaver Beregn de betingede fordelinger og beskriv i ord, hvad du ser. Test (slavisk, dvs. i de fem trin) om der er sammenhæng (asso-ciation) mellem responsvariablen og den forklarende variabel. Skriv en konklusion 22 22