Statistik Lektion 5 Flere stikprøvefordelinger Estimatore og estimater

Slides:



Advertisements
Lignende præsentationer
Valg med Excel Fordelingsmetoder med Excel
Advertisements

Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Statistik Lektion 5 Flere stikprøvefordelinger Estimatore og estimater
Hypotese test – kapitel 6 (Signifikans test)
Anvendt Statistik Lektion 3
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Anvendt Statistik Lektion 4
Statistik og sandsynlighedsregning
Program Informationer χ2-test (chi-i-anden) Projekt 3
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Anvendt Statistik Lektion 6
Statistik Lektion 5 Flere stikprøvefordelinger Estimatore og estimater
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester 2007 Lektion 5, tirsdag den 23. oktober Punkt- og intervalestimering.
Anvendt Statistik Lektion 2
Ugrupperede observationer Middelværdi, varians og spredning
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Learning Objectives 5 Steps of a Significance Test Assumptions
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Learning Objectives 5 Steps of a Significance Test Assumptions
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Grundlæggende teoretisk statistik
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Matematik B 1.
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Bernoulli og binomial fordelingerne
Statistik Lektion 7 Hypotesetest og kritiske værdier
Stikprøvefordelinger og konfidensintervaller
Statistik Lektion 6 Konfidensinterval for andele
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Konfidensintervaller og Hypotesetest
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Grundlæggende teoretisk statistik
Grundlæggende teoretisk statistik
Statistik Lektion 8 Test for ens varians.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Normalfordelingen og Stikprøvefordelinger
Statistik II 4. Lektion Logistisk regression.
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 3
Præsentationens transcript:

Statistik Lektion 5 Flere stikprøvefordelinger Estimatore og estimater Konfidensintervaller

Stikprøvefordeling Antag at vi vil udtale os om en populationsparameter (fx middelværdien m) på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet ). Vores konklusion skal tage i betragtning, at værdien af ændrer sig for hver ny tilfældig stikprøve Den tilfældig variation af stikprøve-statistikken (her gennemsnittet) betegnes stikprøve-fordelingen (af stikprøve-gennemsnittet)

Stikprøve-gennemsnittets stikprøve-fordeling: Forventede værdi Lad de stokastiske variable X1, X2,…,Xn være en tilfældig stikprøve fra en population m. middelværdi m og varians s2. Stikprøve-gennemsnittet af disse SV er Den forventede værdi og varians for stikprøve-gennemsnittet er og Hvis stikprøve er lille i forhold til population

Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem) Lad X1, X2,…, Xn, er være n uafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af nærme sig mere og mere en standard normal-fordeling. Tommelfinger-regel: n ≥ 30 er nok til en god tilnærmelse.

2-fordelingen [ki-i-anden] En 2 -fordelt stokastisk variabel kan ikke være negativ, så den er begrænset af 0 til venstre. Fordelingen er højreskæv. En 2 fordeling er specificeret ved antallet af frihedsgrader. Notation: En stokastisk variabel Y, der følger en 2-fordeling med n [ny] frihedsgrader angives som c2-fordelingen: df=10, df=30, df=50 . 1 . 9 df = 10 . 8 . 7 ) . 6 2  ( . 5 df = 30 f . 4 . 3 df = 50 . 2 . 1 . 5 1  2 2-fordelingen nærmer sig en normal-fordelingen, når antallet af frihedsgrader vokser.

Mere om 2 fordelingen Middelværdi og Varians Hvis Y er c2 -fordelt med n frihedsgrader: Sammenhæng med normalfordelingen Lad X1, X2,…, Xn være uafhængige, standard normalfordelte stokastiske variable. Definer Da gælder

Stikprøvevariansen og dens fordeling Stikprøve-variansen for en tilfældig stikprøve er Generelt gælder Hvis populationen er normalfordelt gælder

Sandsynligheder i 2 fordelingen Table 7 s865 Areal i højre hale (α) .995 .990 .975 .950 .900 .100 .050 .025 .010 .005 1 0.0000393 0.000157 0.000982 0.000393 0.0158 2.71 3.84 5.02 6.63 7.88 2 0.0100 0.0201 0.0506 0.103 0.211 4.61 5.99 7.38 9.21 10.60 3 0.0717 0.115 0.216 0.352 0.584 6.25 7.81 9.35 11.34 12.84 4 0.207 0.297 0.484 0.711 1.06 7.78 9.49 11.14 13.28 14.86 5 0.412 0.554 0.831 1.15 1.61 9.24 11.07 12.83 15.09 16.75 6 0.676 0.872 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55 7 0.989 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28 8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95 9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59 10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19 11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 26.76 12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30 13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82 14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32 15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80 16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27 17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72 18 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16 Man kan finde c2a i R vha. > qchisq(p=a,df=df,lower.tail=FALSE)

Eksempel Setup: Antag vi har en stikprøve på n =15 fra en normal-fordelt population med middelværdi m = 20 og varians s2 = 9. Spørgsmål: Find en værdi c, så sandsynligheden for at få en stikprøve-varians mindre end c er 5%? Løsning: Spørgsmålet formuleret som sandsynlighed: Hvis c2 følger en c2 -fordeling med 15-1 frihedsgrader, så ved vi fra c2 - tabellen at P(c2 > 6.57) = 0.95  P(c2 < 6.57) = 0.05 Løs ligningen 14c/9 = 6.57  c = 4.22. 5% af alle stikprøvevarianser, vil være under 4.22.

Estimator og estimat En stikprøve-statistik er et numerisk mål for en opsummerende karakteristik af stikprøven. En populations-parameter er et numerisk mål for en opsummerende karakteristik af populationen. fx fx En estimator af en populations parameter er en stikprøve statistik, der bruges til at estimere populations parameteren. Et estimat af en parameter er en bestemt numerisk værdi af en stikprøve statistik. Et punkt-estimat er en enkelt værdi, der bruges som et estimat for en populations parameter. Et interval-estimat er et interval, der bruges som et estimat for en populations parameter. Eksempel: er en estimator for . er et (punkt-) estimat af .

Estimatore: Egenskaber Lad q være en generel populations-parameter, fx m. Lad være en estimator for q, fx. Vi vil se på tre ønskelige egenskaber for estimatore Central Konsistent Effektiv

Central og ikke-central estimator Definiton: Hvis en estimator opfylder er den central (unbiased). Bias En central estimator rammer i gennemsnit plet. En ikke-central (biased) estimator rammer i gennemsnit ikke plet.

Effektiv Estimator Definiton: Antag at og er to centrale estimatore. Hvis Var( ) < Var( ), så siger vi at er en mere effektiv estimator end . En ineffektiv estimator er i gennemsnit længere fra at ramme plet. En effektiv estimator er i gennemsnit tættere på at ramme plet.

Konsistent En estimator er konsistent hvis sandsynligheden for at ligge tæt på den parameter, den estimerer, stiger, når størrelsen på stikprøven stiger. n = 10 n = 100

Konfidensintervaller Konfidensintervaller generelt Konfidensintervaller for middelværdi

Konfidens-intervaller Et punkt-estimat estimerer værdien af en ukendt populations-parameter ved en enkelt værdi. Fx: Middelhøjden blandt oecon studernde . Et konfidens interval er et interval, der estimerer værdien af en ukendt populations parameter. Kaldes også et interval estimat. Sammen med intervallet gives et mål for, hvor sikker man er på, at den sande populations parameter ligger i intervallet. Dette mål kaldes for konfidens niveauet. Et punktestimat indeholder ikke meget information om den faktiske værdi af μ – fx hvor sikkert er vores punkt estimat? Et intervalestimat indeholder flere informationer, for eksempel: Vi er 95% sikre på, at intervallet [164,8 ; 180,7] indeholde den sande middelværdi μ. Eller vi er 90% sikre på, at intervallet [166,1 ; 179,3] indeholder den sande middelværdi μ.

Konfidensinterval for middelværdien - Opvarmning Da gælder følgende: Dvs. med 95% sandsynlighed ligger (den stokastiske variabel) X i det faste interval . Det kan omskrives til Dvs. det stokastiske interval indeholder med 95% sandsynlighed det faste tal m.

Konfidensinterval for middelværdien - når X er normal-fordelt eller stikprøven er stor Vi har altså Hvis vi erstatter den estimatoren X (”et tilfældigt tal”) med estimatet x (”et fast tal”) får vi konfidensintervallet: For en stikprøve der enten er stor eller fra en normal-population er et 95% konfidensinterval for middelværdien m når variansen er kendt Bemærk at estimatoren er er ersattet med estimatet .

Mellemregninger…. 0,95 0,025 0,025

Konfidens-interval for middelværdi . 4 3 2 1 x f ( ) S a m p l i n g D s t r b u o h e M  2.5% 95% 2.5% falder over intervallet 2.5% falder nedenfor intervallet 95% falder indenfor intervallet Approksimativt 95% af stikprøve middelværdierne kan forventes at falde indenfor intervallet Omvendt, cirka 2.5% kan forventes at være under og 2.5% kan forventes at være over . Så 5% kan forventes at være udenfor intervallet. .

Konfidens-interval for middelværdi p l i n g D i s t r i b u t i o n o f t h e M e a n Approksimativt 95% af intervallerne omring stikprøve middelværdien kan forventes at indeholde den faktiske værdi af populations middelværdien, . *5% af sådanne intervaller omkring stikprøve middelværdien kan forventes ikke at inkludere den faktiske værdi af populations middelværdien. . 4 95% . 3 f ( x ) . 2 . 1 2.5% 2.5% x x x . x  x x * x x x x x * x x x x

Et (1-a )100% konfidens-interval for m Vi definerer som den z-værdi, hvor sandsynligheden for at Z er højere end denne værdi, er . Kaldes også fraktilen eller den kritiske værdi. (1-α)100% kaldes konfidens-niveauet. fordeling æ ö S t a n d a r d N o r m a l a/2 P ç Z > z ÷ = è a ø . 4 2 æ ö a/2 P ç Z < - z ÷ = . 3 è a ø 2 z ) æ ö ( f . 2 P ç - z < Z < z ÷ = ( 1 - a ) è a a ø . 1 2 2 (1-a) 100% konfidens int erval: . - 5 - 4 - 3 - 2 - 1 1 2 3 4 5 Z

Kritiske værdier for z og konfidens-niveauer Standard normalfordeling 1-a a/2 Za/2 0.99 0.005 2.576 0.98 0.010 2.326 0.95 0.025 1.960 0.90 0.050 1.645 0.80 0.100 1.282 Bemærk:

Eksempel Spørgsmål: Antag (1-a) = 80%. Find za/2 Løsning: a = 0.20 og a/2 = 0.10 Vi ved F(za/2) = 1-0.1 = 0.90. Dvs. za/2 = 1.28

Konfidens niveau og bredden af konfidens-intervallet Når man tager stikprøver fra den samme population og bruger den samme stikprøve størrelse, så jo højere et konfidens-niveau, jo bredere et konfidens-interval. S t a n d a r d N o r m a l D i s t r i b u t i o n S t a n d a r d N o r m a l D i s t r i b u t i o n . 4 . 4 . 3 . 3 z ) ) ( f . 2 ( z f . 2 . 1 . 1 . . - 5 - 4 - 3 - 2 - 1 1 2 3 4 5 - 5 - 4 - 3 - 2 - 1 1 2 3 4 5 Z Z

Stikprøvestørrelsen og bredden af konfidens-intervallet Når man tager stikprøver fra den samme population og bruger det samme konfidensniveau, så jo større stikprøvestørrelse, n, jo smallere et konfidensinterval. . 4 3 2 1 x f ( ) S a m p l i n g D s t r b u o h e M 95% konfidensinterval: n = 20 . 9 8 7 6 5 4 3 2 1 x f ( ) S a m p l i n g D s t r b u o h e M 95% konfidensinterval: n = 40

Eksempel på tavlen

Student’s t fordeling Antag populationen er normalfordelt med middelværdi m og varians s2. Gammel viden: Hvis vi kender variansen s2, så kan vi bruge: Ny viden: Hvis vi ikke kender variansen s2, så kan vi erstatte s2 med stikprøve-variansen s2: ”følger en t-fordeling med n-1 frihedsgrader”.

Student’s t fordeling t fordelingen er klokkeformet og symmetrisk og defineret ved antal frihedsgrader (df). Middelværdien er altid lig 0. Variansen af t er større end 1, men går mod 1, når antallet af frihedsgrader vokser. Standard normal t, df=20 t, df=10   t fordelingen er fladere og har ”tykkere haler” en standard normal fordelingen. t fordelingen går mod standard normal fordelingen nå antallet af frihedsgrader vokser.

Konfidensinterval for  når  er ukendt - t fordelingen Et (1-a)100% konfidens interval for m når s er ukendt (og man antager en normalfordelt population): hvor er værdien i t fordelingen med n-1 frihedsgraders, hvor sandsynligheden for at t er højere end denne værdi, er

Tabel for t-fordelingen df t0.100 t0.050 t0.025 t0.010 t0.005 --- ----- ----- ------ ------ ------ 1 3.078 6.314 12.706 31.821 63.657 2 1.886 2.920 4.303 6.965 9.925 3 1.638 2.353 3.182 4.541 5.841 4 1.533 2.132 2.776 3.747 4.604 5 1.476 2.015 2.571 3.365 4.032 6 1.440 1.943 2.447 3.143 3.707 7 1.415 1.895 2.365 2.998 3.499 8 1.397 1.860 2.306 2.896 3.355 9 1.383 1.833 2.262 2.821 3.250 10 1.372 1.812 2.228 2.764 3.169 11 1.363 1.796 2.201 2.718 3.106 12 1.356 1.782 2.179 2.681 3.055 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 16 1.337 1.746 2.120 2.583 2.921 17 1.333 1.740 2.110 2.567 2.898 18 1.330 1.734 2.101 2.552 2.878 19 1.328 1.729 2.093 2.539 2.861 20 1.325 1.725 2.086 2.528 2.845 21 1.323 1.721 2.080 2.518 2.831 22 1.321 1.717 2.074 2.508 2.819 23 1.319 1.714 2.069 2.500 2.807 24 1.318 1.711 2.064 2.492 2.797 25 1.316 1.708 2.060 2.485 2.787 26 1.315 1.706 2.056 2.479 2.779 27 1.314 1.703 2.052 2.473 2.771 28 1.313 1.701 2.048 2.467 2.763 29 1.311 1.699 2.045 2.462 2.756 30 1.310 1.697 2.042 2.457 2.750 40 1.303 1.684 2.021 2.423 2.704 60 1.296 1.671 2.000 2.390 2.660 120 1.289 1.658 1.980 2.358 2.617 1.282 1.645 1.960 2.326 2.576 a / 2 ta/2 For store frihedsgrader kan t fordelingen approksimeres ved en standard normalfordeling.

Eksempel En aktieanalytiker vil estimere den gennemsnitlige gevinst på en bestemt aktie. En stikprøve på 15 dage giver en gennemsnitlig gevinst på og en standardafvigelse på s = 3.5%. Antag en normal-population og giv et 95% konfidensinterval for den gennemsnitlige gevinst på denne aktie. Den kritiske værdi af t for df = (n -1) = (15 -1) = 14 og et højre halet areal på α/2 = 0.025 er: Konfidensintervallet er: df t0.100 t0.050 t0.025 t0.010 t0.005 --- ----- ----- ------ ------ ------ 1 3.078 6.314 12.706 31.821 63.657 . . . . . . . . . . . . 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947

R Man kan slå ta/2 op i R: Hvis vi vil finde t0.025 når antallet af firhedsgrader er 27: > qt(0.025,df=27,lower.tail=F) [1] 2.051831 Tilføjelsen lower.tail=F er nødvendig, da de 0.025 angiver arealet i øvre hale. Alternativt kan man bruge > qt(0.975,27)

Konfidensintervaller for Middelværdien i R R har kun en indbygget funktion til at beregne konfidensintervallet for m under antagelse af ukendt varians: Eksempel: 95% konfidens interval for højde i Sundby95: > t.test(data$hoejde) One Sample t-test data: data$hoejde t = 918.6152, df = 2626, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 172.3263 173.0635 sample estimates: mean of x 172.6949

Konfidensintervaller for Middelværdien i R Man kan også ændre konfidensniveauet, fx et 99% konfidensinterval: > t.test(data$hoejde,conf.level=0.99) 99 percent confidence interval: 172.2103 173.1795 Man kan også ”bare” sætte ind i formlen : > mean(data$hoejde,na.rm=T) + c(-1,1)*qt(0.995,n-1)*sd(data$hoejde,na.rm=T)/sqrt(n) [1] 172.2103 173.1795 Hvor n er antallet af faktiske observationer af højde: > n = sum(!is.na(data$hoejde))