Anvendt Statistik Lektion 3

Slides:



Advertisements
Lignende præsentationer
Valg med Excel Fordelingsmetoder med Excel
Advertisements

Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Dagens program Resumé - Normalfordelingen χ2-test (chi-i-anden)
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Hypotese test – kapitel 6 (Signifikans test)
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Anvendt Statistik Lektion 4
Statistik og sandsynlighedsregning
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester 2007 Lektion 5, tirsdag den 23. oktober Punkt- og intervalestimering.
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Signifikanstest ved (en eller) to stikprøver
Learning Objectives 5 Steps of a Significance Test Assumptions
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 7
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Grundlæggende teoretisk statistik
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Kvantitative metoder 2: Inferens i den lineære regressionsmodel1 Kvantitative metoder 2 Inferens i den lineære regressionsmodel 12. marts 2007.
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Bernoulli og binomial fordelingerne
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 1. oktober 2004.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Simpel Lineær Regression
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Grundlæggende teoretisk statistik
Grundlæggende teoretisk statistik
Statistik Lektion 8 Test for ens varians.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Normalfordelingen og Stikprøvefordelinger
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: F71 Økonometri 1 Inferens i den lineære regressionsmodel 29. september 2006.
Anvendt Statistik Lektion 8
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 3
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Anvendt Statistik Lektion 3 Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Punkt- og intervalestimater: Motivation Motiverende eksempel: I en undersøgelse er andelen af rygere 0.27. Det anslås at populationsandelen er mellem 0.25 og 0.29. Begreber: De 0.27 er et punkt-estimat Intervallet 0.25 til 0.29 er et interval-estimat. Dvs. populationsandelen falder (anslået) indenfor punkt-estimat +/- fejl-margin. Fejl-margin er her 0.02

Punkt-estimat og -estimator En estimator er en ”generel formel”, der bruges til at estimere en parameter med, fx. Et estimat er en konkret udregning af en estimator, ved at indsætte data. Der kan være mange estimatore for den samme parameter. Hvis populationsfordelingen er symmetrisk er både stikprøve-median og -gennemsnit estimatorer for populations-middelværdien.

En god estimator En god estimator har typisk følgende egenskaber: Den er Unbiased – dvs. at estimatoren i gennemsnit er lig parameteren. Den er Efficient – dvs. fejl-marginen bliver mindre jo mere data der er til rådighed. Eksempel: Stikprøve-gennemsnittet y er en unbiased og efficient estimator for populationsmiddelværdien m. Eksempel: Stikprøve-medianen er en biased estimator for populationsmiddelværdien, hvis fordelingen ikke er symmetrisk.

Notation – en på hatten Generelt vil vi betegne en estimator med en ”hat” ^. Fx. betegner m en estimator for m. ^

Konfidensinterval Motivation: Ifølge undersøgelse: 54% er vilde med pålægschokolade! (Et punkt-estimat) Spørgsmål: Hvor sikkert er dette estimat? Konfidensinterval Et konfidensinterval angiver et interval, hvor vi tror parameteren ligger med en vis sikkerhed. Sandsynligheden for at vores stikprøve fører til et konfidensinterval, der indeholder parameteren betegnes konfidensniveauet. Konfidensniveauet er typisk 0.95 eller 0.99.

Konfidensinterval: Typisk opskrift I mange tilfælde er stikprøvefordelingen for estimatoren (tilnærmelsesvis) normalfordelt. Fx stikprøvegennemsnittet. I disse tilfælde er konfidensintervallet givet ved punkt-estimat ± fejl-margin Spørgsmål: Hvordan finder vi fejl-marginen?

Konfidensinterval for andele Notation p : populations-andel p : stikprøve-andel Bemærk: p er en estimator for p. Antag y = 1 : succes / vild med pålægschokolade y = 0 : fiasko / ikke vild med pålægschokolade Vi har P(1) = p og P(0) = 1-p. Middelværdi og standard-afvigelse for y (populationen) er hhv. m = p og s = √p(1-p) ^ ^

Andelen er et gennemsnit Bemærk: Dvs. stikprøve-andelen er et stikprøve-gennemsnit! For stikprøve-gennemsnit ved vi at standard-fejlen er så for stikprøve-andelen er den

Konfidensinterval for p for stort n Da p er et gennemsnit siger CLT, at p ca. følger en normalfordeling hvis n bare er stor nok. Med 95% sandsynlighed vil p falde i intervallet Omvendt: Med 95% sandsynlighed vil p ligge i intervallet ^ ^ ^

Konfidens-interval: En figur ^ Stikprøvefordelingen for p . 4 95% . 3 . 2 . 1 2.5% 2.5% . x p * *

Konfidensinterval I praksis kender vi ikke p, dvs. vi kender ikke standard fejlen: I stedet for p bruger vi estimatet p : Et 95% konfidens-interval for p er nu givet ved hvor se = ”standard error” = standardfejlen. ^

Eksempel Setup: Af 1200 adspurgte i Florida svarer 396 ja til reduktion af abortrettigheder. Spørgsmål: Find et 95% konfidensinterval for populations-andelen af ja-sigere. p = se = 95% konfidensinterval: ^

Hvad med et 99% konf. interval? Et 99% konfidensinterval: Et (1-a)100% konfidensinterval 99% z=2.58 (a/2)100% (1-a)100% z Egenskaber ved konfidensintervaller: Jo højere konfidensniveau, jo større z og jo længere konfidens-interval Jo større stikprøve (n) jo kortere konfidensinterval Firdobling af n sikre halvering af konfidensinterval.

Konfidensinterval for middelværdi Ingredienser: m : Populations-middelværdi y : Stikprøve-gennemsnit y er et punktestimat for m. For store stikprøver er y normalfordelt. Standardfejlen er altid hvor s er standard-afvigelsen for populationen. Den estimerede standard-fejl er

Eksempel Konfidensinterval for middelværdi er Eksempel: På et spørgsmål om antal seksuelle partnere blandt n = 231 kvinder, var gennemsnittet y = 4.96 og standard-afvigelsen s = 6.81. Find et 95% konfidensinterval for populations-middelværdien m.

Konfidensinterval for middelværdi – små stikprøver Antag: populationen er normal-fordelt. Da er y normalfordelt – uanset stikprøve-størrelse n. Hvis vi kender pop. standard-afvigelsen s er et (eksakt) konfidensinterval givet ved Hvis s er ukendt, erstatter vi med stikprøve standard-afvigelsen s. Problem: For små stikprøver medfører brugen af s i stedet for s en ekstra usikkerhed. Løsning: Erstat z med t…!

t-fordelingen t-fordelingen er Klokkeformet og symmetrisk omkring 0 Standard-afvigelsen er lidt større end 1 Faconen afhænger af antal frihedsgrader (df). Har lidt ”tykkere haler” end standard normalfordelingen. Ligner en normalfordeling jo højere antal df er. N(0,1) df = 6 df = 2

Konfidensinterval for små stikprøver For en normalfordelt population er et (1-a)100% konfidensinterval for m hvor df = n-1. a/2 a/2 1-a ta/2 ta/2 Eksempel: Vi har observeret 29 vægtændringer, hvor y = 3.01 og s = 7.31. Find et 95% konf. interval for m : Løsning: df = n-1 = 28, a = 0.025, så t0.025 = 2.048

t-tabellen a Se Tabel B i bogen side 593.

I SPSS SPSS: Analyze→Compare Means→One-Sample T-Test…

Valg af stikprøvestørrelse Hvordan vælger man stikprøvestørrelse n så vi opnår en Given fejl-margin ved et Givet konfidensniveau Eksempel: Vi ønsker at bestemme et konfidensinterval for p, så Fejl-margin : Max 0.04 Konfidensniveau : 95% Løsning:

Generel løsning for andele For at populationsandel p vælg Fejl-margin: M Signifikansniveau: (1-a)100% Stikprøvestørrelsen skal da være: Hvis populations-andelen p er helt og aldeles ukendt bruges p = 0.5 i formlen. a/2 (1-a)100% za/2 z

Generel løsning for middelværdi For middelværdien m vælg Fejl-margin: M Signifikansniveau: (1-a)100% Stikprøvestørrelsen skal da være: Hvis populations-standardafvigelsen s er man nød til at gætte sig frem til. Hellere lidt for stor end for lille. a/2 (1-a)100% za/2 z

Eksempel Middel antal års uddannelse blandt indianere Ønsker: Fejl-margin: M = 1år Konfidensniveau: 99% Først skal vi gætte s ! Vi tror (næsten) alle har mellem 5 og 20 års uddannelse… Derfor er vores gæt s = 2.5 år…!