Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Population, stikprøve og signifikans Mandag den 19. marts, kl. 15.00 ved.

Slides:

Advertisements

Lignende præsentationer

Kombinatorik, sandsynlighed og statistik

Advertisements

Valg med Excel Fordelingsmetoder med Excel

Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.

Hypotese test – kapitel 6 (Signifikans test)

Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)

Anvendt Statistik Lektion 3

Dagens program Kursusevaluering Information Spørgsmål om eksamen

Kombinatorik, sandsynlighed og statistik

Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt

Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori

Anvendt Statistik Lektion 4

Stratificering, vægtning, statistiske test og elaborering af sammenhænge Plan & Miljø, forår 2009 Onsdag den 21. april.

Program Informationer χ2-test (chi-i-anden) Projekt 3

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Anvendt Statistik Lektion 6

Anvendt Statistik Lektion 2

Statistik Lektion 3 Simultan fordelte stokastiske variable

Anvendt Statistik Lektion 5

Sammenligning af to grupper

Sammenligning af to grupper – kapitel 7

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Anvendt Statistik Lektion 3

Anvendt Statistik Lektion 6

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.

Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester 2007 Lektion 5, tirsdag den 23. oktober Punkt- og intervalestimering.

Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.

Anvendt Statistik Lektion 2

Statistik Lektion 6 Konfidensinterval for andele og varians

Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Økonometri 1: Dummy variable

Signifikanstest ved (en eller) to stikprøver

Learning Objectives 5 Steps of a Significance Test Assumptions

1 Dagens program 1.Information –Klaus’ frokost: 11:45-12:30, går 13:15. –Winston Churchill –Sidste forelæsning (19/11): Eksamen, kursusevaluering, eksperimentelt.

Dagens program Test of Independence (chi-i-anden) Videre med projekt 3

Statistik – Lektion 2 Uafhængighed Stokastiske Variable

Statistik Lektion 3 Bernoulli og binomial fordelingerne

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.

Statistisk inferens Dagens program Grupper, opgave 1

Learning Objectives 5 Steps of a Significance Test Assumptions

Sandsynligheder Udfald og hændelser Sandsynligheder Additionsreglen

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Grundlæggende teoretisk statistik

Rapporter (Access, del 5). RHS – Informationsteknologi – Udgangspunkt Vi har oprettet en database Vi har defineret en eller flere tabeller, og.

Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl

Multipel Lineær Regression

Statikstik II 2. Lektion Lidt sandsynlighedsregning

Bernoulli og binomial fordelingerne

Statistik Lektion 7 Hypotesetest og kritiske værdier

Kombinatorik, sandsynlighed og statistik

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.

Kombinatorik, sandsynlighed og statistik

Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.

Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.

Økonometri 1: F151 Økonometri 1 Specifikation og dataproblemer 10. november 2006.

Grundlæggende teoretisk statistik

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.

Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.

Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.

Statistik II 4. Lektion Logistisk regression.

KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Niveau 2: Hypotesetestning

Anvendt Statistik Lektion 4

Anvendt Statistik Lektion 6

Teoretiske kontinuerte fordelinger

Præsentationens transcript:

Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Population, stikprøve og signifikans Mandag den 19. marts, kl. 15.00 ved Henrik Lolle

Inferens fra stikprøve til population Nogle gange har man i samfundsvidenskabelig forskning adgang til data fra hele den ’population’, der skal undersøges. Et sådan datasæt kaldes et ’census’. Som oftest er dette imidlertid ikke muligt. Så må man lade sig nøje med en stikprøve, der er udtrukket fra populationen. Men det er stadigvæk ens mål at besvare spørgsmål, der angår populationen og ikke alene de forhold, der angår stikprøven. Stikprøven som sådan er ikke vældig interessant.

Stikprøve-design Stikprøver Ikke sandsynlighedsudvælgelse Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes ikke! - ifm. pilotundersøgelse el. rent teknisk afprøvning - hvor populationen ikke kan afgrænses særlig præcist - særlige tilfælde af meningsmålinger - osv. Stikprøver Sandsynlighedsudvælgelse Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes! - Simpel tilfældig udvælgelse - Systematisk udvælgelse - Stratificeret udvælgelse - Klyngeudvælgelse - Flertrins kombinationsformer

Hvordan stikprøveudtagelse sker i hovedtræk

Simpel tilfældig eller systematisk udvælgelse ° × Udvalgsramme Stikprøve Enhederne i udvalgsrammen nummereres, og ved simpel tilfældig udvælgelse udtrækkes dernæst en række helt tilfældige numre (f.eks. ved computer-generering af tilfældige numre). Ved systematisk udvælgelse udtages i stedet enheder med et bestemt mellemrum, sådan som det er illustreret herunder. Mellemrummet bestem-mes ved at dividere antal enheder i udvalgsrammen med det ønskede antal i stik-prøven, og der startes ved et tilfældigt nummer mellem én og det, der skal springes med. De to måder kan som regel sammenlignes mht. sikkerheden i inferering til populationen. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Proportional stratificeret udvælgelse Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes simpelt og tilfældigt et antal enheder fra hvert strata, sådan at proportionerne svarer nøjagtigt til proportionerne i populationen/udvalgsrammen.I eksemplet her kunne der f.eks. være tale om en strataopdeling på køn.

Disproportional stratificeret udvælgelse Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes - f.eks. simpelt og tilfældigt - et antal enheder fra hvert strata, men sådan at proportionerne ikke svarer til propor-tionerne i populationen/udvalgs-rammen. Benyttes ofte, når et eller flere for analysen væsentlige strata indeholder for få observationer. Skal der i analysen f.eks. beregnes populationsgennemsnit for en variabel, vægtes analyse-enhederne, sådan at proportionerne igen passer med populationen.

Klyngeudvælgelse 1. trin 2. trin × 2 1 × × × × ° ° ° ° × ° ° × × ° ° ° ° × ° ° ° × ° ° × ° × × ° × × × × × ° × 3 × 4 × × 4 × ° × × × ° ° ° ° ° ° ° × ° ° ° ° × × × ° ° ° × × ° ° × × × × ° Ved klyngeudvælgelse inddeles populationen i et antal klynger (ofte bl.a. baseret på geografi), og til forskel fra stratificering udvælges tilfældigt et vist antal hele klynger. Er der tale om enkelttrins klyngeudvælgelse, udtages samtlige enheder i de udvalgte klynger til stikprøven. Er der derimod tale om flertrins klyngeudvælgelse, foretages der stikprøveudtagning fra de udtrukne klynger - f.eks. simpelt tilfældigt. Formålet ved klyngeudvælgelse er ofte at få bragt udgifterne ned ved at centrere interviewene på bestemte steder samt at sikre sig en bred geografisk dækning.

Sandsynlighed Hvad betyder sandsynlighed, og hvordan knyttes den til forskellige typer af variabler? Sandsynligheden af, at en hændelse vil indtræffe, er dens relative frekvens over et langt forløb. Diskrete variable: Der knyttes sandsynligheder til hver enkelt hændelse i udfaldsrummet. Kontinuerte variable: Der knyttes sandsynligheder til et intervaller af værdier. Summen af sandsynligheder giver altid værdien 1.

Grafisk visning af sandsynlighedsfordelinger Sandsynlighedsfordelinger af diskrete variable vises med søjlediagrammer, mens sandsynlighedsfordelinger for kontinuerte variable vises med kurver. Sandsynligheden aflæses direkte på højden af søjlen, f.eks. ca. 0,55 for ingen børn i en tilfældig familie. Sandsynlighed for, at en tilfældig valgt person vil være mellem 20 og 50 år gammel er lig med det viste areal, ca. 0,45 (eller 45 pct.) 1,0 0,5 1 2 3 4 5+ 20 50 Antal børn i familien Alder

Sampling distribution Sampling distribution (eller sampling fordelingen) er en sandsynligheds-fordeling, der bestemmer sandsynligheder for værdier af en stikprøve-statistik – f.eks. gennemsnit, proportion, korrelationskoefficient eller regressionskoefficient. Stikprøvestatistikken kan betragtes som en variabel, der varierer fra stikprøve til stikprøve, men hvor gennemsnittet af disse stikprøve-statistikker ved en uendelig lang række af stikprøver vil være lig med statistikken i populationen. Standardafvigelsen til en sandsynlighedsfordeling af stikprøvestatistikker kaldes for standardfejlen. Standardfejlen kan betragtes som den typiske fejl, man begår ved estimation af statistikken ved den respektive stikprøvestørrelse. For gennemsnit er standardfejlen lig med:

Den centrale grænseværdisætning (Central Limit Theorem) For tilfældig stikprøveudtrækning gælder, at når stikprøve-størrelsen ’n’ vokser, så vil fordelingen af stikprøvegennemsnit ’ ’ tilnærme sig en normalfordeling. Dette gælder uanset formen af populationens fordeling. I de fleste tilfælde er en stikprøve på omkring 30 cases være nok til en god tilnærmelse til normalfordelingen af stikprøvegennemsnittene. 95 pct. af stikprøverne, som man hypotetisk udtrækker, vil have et gennemsnit, der ligger højst to standardfejl fra populationsgennemsnittet. Jo større stikprøve, jo mindre standardfejl og jo større præcision. Tilsvarende gælder for andele. Andelen, der f.eks. angiver at ville stemme på Socialdemokratiet, vil ligesom et gennemsnit variere omkring den sande andel, og den vil fordele sig tilnærmelsesvist normalt, hvis der er tale om store stikprøver. Her defineres ’store’ stikprøver ved, at der skal være minimum 10 enheder i hver af de to grupper.

Normalfordelingen Eksempler på forskellige normalfordelinger Fra: http://espse.ed.psu.edu/statistics/statlets/free/WebStatFX.html

Eksempel fra ISSP Religion 1998 Disse andelsstørrelser vil variere fra én stikprøve til en anden. Nu er det sjældent, at man har mere end én stikprøve, men viden om denne variation mellem de hypotetisk gentagne stikprøver gør, at man kan udtale sig med en vis statistisk sikkerhed om andele i populationen.

Hvor stor en andel tror på Gud i populationen? Andelen på 0,528 er det bedste bud på andelen i populationen, men hvor sikkert er det? Man ved fra den centrale grænseværdisætning, at stikprøveestimatet ved gentagne stikprøveudtræk vil fordele sig tilnærmelsesvist ’normalt’, og man kan også anslå standardafvigelsen på denne hypotetiske fordeling. Denne kaldes, som nævnt, også for standardfejlen. Standardfejlen approksimeres i til:

Stikprøve-udtrækning Der findes på nettet en række forskellige sider, hvor der grafisk gives en pædagogisk visning af mekanismerne i stikprøveudtræk, og hvor der gives indblik i usikkerhedsaspekter. Simulatoren til højre herfor er en af de absolut bedste (se link nedenfor!). http://onlinestatbook.com/stat_sim/sampling_dist/index.html

Udledninger af den centrale grænseværdisætning Omskrivning af en regel fra den centrale grænseværdisætning: Følgende er direkte udledt fra sætningen: 95 pct. af stikprøverne, som man hypotetisk udtrækker, vil have en andel på den pågældende variabel, der ligger højst to standardfejl fra den sande andel. Følgende kan udledes fra ovenstående: Hvis man går to standardfejl på hver side af andelen i stikprøven, vil man med 95 pct. sikkerhed indfange andelen i populationen.

Andel i populationen, der tror på Gud 95 pct. sikkerhedsinterval for andele: Læg mærke til, at det helt nøjagtigt er 1,96 standardfejl, der skal til for at ’indfange’ 95 pct., altså ikke præcis 2. Intervallet kan udregnes til: Med 95 pct. sikkerhed vil andelen, der tror på Gud, ligge mellem ca. 0,50 og 0,56. Dette giver et indblik i sikkerheden i den slags survey. Og det er mere dette, end det er de præcise talstørrelser, der skal bides mærke i her.

Signifikanstest for andele 95 pct. sikkerhedsintervallet skred netop ind over andelen på 0,5. Dvs. med 95 pct. sikkerhed vil man ikke kunne sige, hvorvidt populationsandelen ligger på den ene eller anden side af de halvtreds, blot at den ligger ret tæt på. Man kan også foretage en egentlig test af, om stikprøveresultatet er så meget større end 0,5, at man med en vis statistisk sikkerhed vil kunne afvise hypotesen om, at andelen ligger på 0,5 eller derunder. Man skal først finde ud af, hvor langt ude de 0,528 ligger ift. 0,5, udtrykt i antal standardfejl. De 0,5 kaldes for nulhypotesen. Derefter kan man ved hjælp af normalfordelingens egenskaber finde sandsynligheden for, at man i stikprøven får et resultat på 0,528 eller endnu mere afvigende fra de 0,5, under forudsætning af at populationens andel faktisk er 0,5. Hvis den sandsynlighed er lille, dvs. hvis det ikke virker særligt sandsynligt, vil man afvise hypotesen om, at andelen i populationen er 0,5. Og havde man beregnet tilsvarende sandsynligheder for enhver nulhypotese mindre end 0,5, ville sandsynligheden blot være blevet mindre.

Selve beregningen af teststørrelsen (z) Via nedenstående formel beregnes afstanden mellem nulhypotese og faktisk værdi, udtrykt i antal standardfejl (z): Eller ved statistiske termer:

Hvor sandsynlig er den beregnede teststørrelse? Under forudsætning af at nulhypotesen om en andel på 0,5 er korrekt, gælder følgende: Sandsynligheden for at finde en andel i en stikprøve af denne størrelse, der afviger mindst lige så meget som de 0,528 fra nulhypotesen på 0,5 vil have en sandsynlighed på ca. 0,06. Altså ikke overvældende sandsynligt, men dog heller ikke signifikant på 0,05-niveau. http://davidmlane.com/hyperstat/z_table.html

Opslag i z-tabel som alternativ Læg mærke til, at resultatet her er halvt så stort. Det skyldes, at der her kun ses sandsynligheden for den ene ’hale’ af for-delingen. Dette resultat skal altså ganges med 2. http://www.osat.umich.edu/sixsigma/Reference/norm-tables.PDF

Testen i Excel Nedenfor vises udskrift fra Excelprogram (inkl. eksempeltabel) til beregning af z-test for andele. Der indtastes blot tal for stikprøvestørrelse, observeret andel og nulhypotesens andel. Derefter beregnes testen. Normalt opererer man med et signifikansniveau på enten 0,01 eller 0,05. Hel test på internettet: http://home.clara.net/sisa/binohlp.htm