Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester 2007 Lektion 5, tirsdag den 23. oktober Punkt- og intervalestimering.

Slides:

Advertisements

Lignende præsentationer

Valg med Excel Fordelingsmetoder med Excel

Advertisements

Valgkampens og valgets matematik

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Reduktion AM 2009.

A&B ANALYSEs Danmarkspanel - Foreningen ”Odinstårnet” -

Hypotese test – kapitel 6 (Signifikans test)

Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)

Anvendt Statistik Lektion 3

Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt

Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori

Anvendt Statistik Lektion 4

Stratificering, vægtning, statistiske test og elaborering af sammenhænge Plan & Miljø, forår 2009 Onsdag den 21. april.

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Boligselskabernes Landsforening – Danmarkspanel - Januar A&B ANALYSEs Danmarkspanel - Boligselskabernes Landsforening - Januar 2010.

Anvendt Statistik Lektion 2

Anvendt Statistik Lektion 5

Sammenligning af to grupper

Sammenligning af to grupper – kapitel 7

Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Population, stikprøve og signifikans Mandag den 19. marts, kl ved.

1 Effektiv forrentning Kjeld Tyllesen PEØ, CBS Erhvervsøkonomi / Managerial Economics Kjeld Tyllesen, PEØ, CBS.

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Anvendt Statistik Lektion 3

Anvendt Statistik Lektion 6

Deskriptiv analyse af enkelt variable

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.

Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.

Reduktion AM 2009.

Anvendt Statistik Lektion 2

Statistik Lektion 6 Konfidensinterval for andele og varians

Økonometri 1: Dummy variable

Signifikanstest ved (en eller) to stikprøver

Learning Objectives 5 Steps of a Significance Test Assumptions

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.

Learning Objectives 5 Steps of a Significance Test Assumptions

Sandsynligheder Udfald og hændelser Sandsynligheder Additionsreglen

Grundlæggende teoretisk statistik

Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.

1 Opgave 30 ”Statistisk Sikkerhed for Ep ” Kjeld Tyllesen Erhvervsøkonomi / Managerial Economics Kjeld Tyllesen, PEØ, CBS.

Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl

Multipel Lineær Regression

Statistik Lektion 7 Hypotesetest og kritiske værdier

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.

Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.

Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.

Simpel Lineær Regression

Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.

Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.

Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.

Grundlæggende teoretisk statistik

Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.

KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.

Statistik Lektion 8 Test for ens varians.

Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.

Grundlæggende teoretisk statistik

Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.

Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.

Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.

Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.

Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.

KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Anvendt Statistik Lektion 4

Statistik niveau E og F Lars A. Clark.

Anvendt Statistik Lektion 6

Anvendt Statistik Lektion 3

Præsentationens transcript:

Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester 2007 Lektion 5, tirsdag den 23. oktober Punkt- og intervalestimering

Hvad er punkt- og intervalestimering? Estimering betyder blot vurdering, skøn, anslag. Og helt overordnet drejer punkt- og intervalestimering sig om at sige noget om populationen på baggrund af en stikprøve. Det, som man prøver at anslå i populationen, er forskellige statistikker opgjort eller beregnet ud fra stikprøven. Typisk vil det være et gennemsnit, en andel eller et effektmål (f.eks. en regressionskoefficient). I dagens lektion vil det hovedsageligt dreje sig om gennemsnit og andele. Et punktestimat af et gennemsnit er blot det bedste, kvalificerede gæt på, hvad gennemsnittet er i populationen. Ved et intervalestimat af gennemsnittet påstår man, at med en bestemt statistisk sikkerhed vil gennemsnittet i populationen ligge mellem to bestemte punkter (tal).

Notationer vedr. gennemsnit Deskriptiv statistik (stikprøve) Punkt- estimat (stikprøve) Parameter (population) Gennemsnit Standardafvigelse Ovenstående punktestimater er ved simpel tilfældig stikprøveudtræk efficiente og uden bias (unbiased and efficient).

Sikkerhedsinterval for gennemsnit (store stikprøver, n ≥ 30) I 95 pct. af tilfældene (eller f.eks. 19 ud af 20) vil stikprøve-gennemsnittet falde inden for intervallet: hvor standardfejlen Dette betyder endvidere, at populationens gennemsnit med 95 pct. sikkerhed vil falde inden for intervallet: Man siger også, at konfidenskoefficienten er på 0,95.

Problemet er, at man ikke kender standardfejlen Man kan ikke beregne den eksakte standardfejl, fordi man ikke kender standardafvigelsen i populationen. Man har imidlertid et punktestimat af standardafvigelsen i populationen, nemlig stikprøvens standardafvigelse s Når stikprøvestørrelsen er 30 eller derover, kan følgende approksimation af standardfejlen benyttes:

Sikkerhedsinterval med den approk-simerede standardfejl Efter erstatning af den korrekte standardfejl med den approksimerede bliver 95 pct. sikkerhedsintervallet som følger: Eller:

Eksempel på intervalestimering Selvplacering på en venstre-/højre skala fra 0 til 10 Hvad kan man sige om gennemsnittet i den danske befolkning pba. stikprøven her? Gennemsnittet ligger med 95 pct. sikkerhed indenfor intervallet: Eller:

Den generelle formel for sikkerhedsinterval I det foregående er vist, hvordan man kan bestemme et interval, hvor indenfor populationens gennemsnit med 95 pct. sikkerhed befinder sig. Hertil benyttedes 1,96 som z-værdi. Man bestemmer selvfølgelig selv, hvilken sikkerhed man vil udtale sig med. Men jo større sikkerhed, jo flere standardfejl skal man gå ud til hver side fra det estimerede gennemsnit – med andre ord jo større z-værdi. Den generelle formel for sikkerhedsintervallet bliver:

Sikkerhedsinterval for andele/proportioner Beregning af sikkerhedsintervaller for andele foregår på samme overordnede måde, som når der er tale om sikkerhedsintervaller for gennemsnit. Årsagen er, at en andel er en form for gennemsnit. Eksempel: Data: 0 1 1 0 1 0 0 1 1 1 Andel 1’ere: 6/10 = 0,6 Gennemsnit:

Standardfejlen kan beregnes lettere ved proportioner! Sikkerhedsinterval for andele: Hvor standardfejlen er lig med: Det, der gør beregningen nemmere, er, at standardafvigelsen kan beregnes direkte, uden at skulle se på hver eneste case.

Eksempel: Højere skat på el? Der er et flertal i stikprøven, der går ind for betale mere for elektriciteten, hvis det hjælper i kampen mod den globale opvarmning, men hvordan med populationen?

Eksempel på beregning af sikkerhedsinterval for andele Meningsmålingen fra Gallup, februar 2007, viser altså, at 58 pct. i en stikprøve på 1.149 personer, tilfældigt udvalgt blandt den danske befolkning på 18 år og derover, går ind for at betale mere for elektriciteten, hvis det hjælper i kampen mod den globale opvarmning. Undersøgelsesspørgsmål: Indenfor hvilket interval ligger denne andel i populationen med 95 pct. sikkerhed (selv under den ’konservative’ antagelse, at alle ’ved ikke’-svarerne vil ende med at gå imod højere skat? 95 pct. sikkerhedsinterval hvor indenfor populationens andel ligger: Med 95 pct. sikkerhed ligger andelen i populationen altså over 50 pct.

Endnu et eksempel: Valgbarometer SF er ifølge valgbarometeret gået frem siden valget i 2005. Men hvordan med sikkerheden i konklusionen om at SF er gået frem i populationen? Jeg antager, at dem, der har svaret ’ved ikke’ enten ikke vil stemme eller vil fordele sig som de øvrige.

Valgbarometer (endnu et eksempel) 95 pct. sikkerhedsinterval for tilslutning til SF: Hvilket også kan skrives således: På baggrund af barometret kan man altså med 95 pct. sikkerhed sige, at tilslutningen til SF ligger højere end ved valget i 2005. Vær imidlertid opmærksom på, at dette er et sikkerhedsinterval, ikke en formel test for forskel fra valgets 6 pct., jævnfør næste lektion. Når det drejer sig om andele, kan der i sjældne tilfælde forekomme forskel i konklusion, afhængigt af om man benytter sikkerhedsinterval eller formel hypotesetest.

Bestemmelse af stikprøvestørrelse (1) De fleste surveys har en analyseramme på mellem 1.000 og 2.000 respondenter, og dette sikrer, at andele i populationen med 95 pct. sikkerhed kan bestemmes med en sikkerhedsmargin på plus minus tre procentpoint omkring den andel, man finder i stikprøven. Men hvordan regner man minimum stikprøvestørrelse ud på forhånd? Sikkerhedsmargenen afhænger jo af standardafvigelsens størrelse, og denne kender man ikke på forhånd! Man kan tage ’worst case’ for standardafvigelsen, dvs. den andel hvor variansen er størst: Den maksimale værdi af denne størrelse opnås ved en andel på 0,5. Altså

Bestemmelse af stikprøvestørrelse (2) Det minimale antal enheder i analyserammen kan nu bestemmes som: hvor B = fejlmargin (error bound) f.eks. 0,01 eller 0,03 - svarende til henholdsvis 1 og 3 pct. Hvis man derforuden på forhånd siger, at man altid vil bruge 95 pct. sikkerhedsniveau, kan man i ligningen erstatte z med 1,96.

Bestemmelse af stikprøvestørrelse (3) På lignende vis kan der bestemmes et minimum antal respondenter ved kvantitative variable. Det minimale antal bestemmes som: Det kan dog her være et problem at bestemme ’worst case’ for variansen. Men hvis man f.eks. anslår, at variablen, som man er interesseret i, er nogenlunde normalfordelt, ved man, at stort set alle observationer ligger i intervallet plus/minus tre standard-afvigelser fra gennemsnittet, og ofte kender man også nogenlunde yderværdierne i fordelingen. Standardafvigelsen antages derfor at være nogenlunde lig med variationsbredden divideret med seks. Og variansen vil være denne værdi opløftet i anden potens.