Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Stikprøvefordelinger og konfidensintervaller

Lignende præsentationer


Præsentationer af emnet: "Stikprøvefordelinger og konfidensintervaller"— Præsentationens transcript:

1 Stikprøvefordelinger og konfidensintervaller
Stikprøvefordelingen for middelværdi Den Centrale Grænseværdi Sætning Egenskaber Ved Estimatore Konfidensintervaller t-fordelingen

2 Estimator og estimat En stikprøve statistik er et numerisk mål for en opsummerende karakteristik af stikprøven. En populations parameter er et numerisk mål for en opsummerende karakteristik af populationen. fx fx En estimator af en populations parameter er en stikprøve statistik, der bruges til at estimere populations parameteren. Et estimat af en parameter er en bestemt numerisk værdi af en stikprøve statistik. Et punkt-estimat er en enkelt værdi, der bruges som et estimat for en populations parameter. Et interval-estimat er et interval, der bruges som et estimat for en populations parameter. Eksempel: er en estimator for er et (punkt) estimat af

3 Populations fordeling, stikprøve, populations middelværdi og stikprøve gennemsnit.
X Populations middelværdi () Stikprøve Frekvens fordeling af populationen Stikprøve gennemsnit ( ) er selv en stokastisk variabel, der følger en fordeling. X X

4 Stikprøve-fordeling Antag X1,X2,…,Xn er en uafhængig stikprøve, hvor μX=E[X] og σ2X=V[X] er populationens middelværdi og varians. Stikprøve-middelværdien er Den forventede værdi af stikprøve-middelværdien er lig med populations-middelværdien Variansen af stikprøve middelværdien er lig med populations variansen divideret med stikprøve-størrelsen

5 Stikprøve-fordeling – Normalfordelt stikprøve
Hvis X normal fordelt, så er normalfordelt: Hvilken fordeling følger , hvis stikprøven ikke er normalfordelt…?

6 Stikprøve fordelinger
Uniform population af heltal fra 1 til 8: X P(X) XP(X) X2 P(X)X2 V(X) = E[X2] - (E[X])2 = = 5.25 U n i f o r m D i s t r i b u t i o n ( 1 , 8 ) . 2 X ) ( P . 1 . 1 2 3 4 5 6 7 8 X E(X) =  = 4.5 V(X) = 2 = 5.25 SD(X) =  =

7 Stikprøve fordelinger
Der er 8*8 = 64 forskellige men lige sandsynlige stikprøver af 2 tal, man kan tage (med tilbagelægning) fra en uniform population af heltallene fra 1 til 8: Hver af disse stikprøver har et gennemsnit. For eksempel er gennemsnittet af (1,4) lig 2.5 og gennemsnittet af (8,4) er 6.0.

8 Stikprøve fordelinger
Sandsynligheds fordelingen af stikprøve middelværdien kaldes stikprøve fordelingen af stikprøve middelværdien. Stikprøve fordelingen X P(X) XP(X) X-X (X-X)2 P(X)(X-X)2 8 . 7 5 6 4 3 2 1 X P ( ) Stikpøve fordeling

9 Stikprøvefordeling af middelværdien
U n i f o r m D i s t r i b u t i o n ( 1 , 8 ) Ved at sammenligne populations-fordelingen og stikprøve-fordelingen af middelværdien, ser man at: Stikprøve-fordelingen er mere klokkeformet og den er symmetrisk. Begge har samme middelværdi. Stikprøve fordelingen er mere kompakt, med en mindre varians. . 2 ) X ( P . 1 . 1 2 3 4 5 6 7 8 X 8 . 7 5 6 4 3 2 1 X P ( ) Stikpøve-fordeling X

10 Den centrale grænseværdi sætning (CLT)
Stikprøve fordelingen af middelværdien af en stikprøve taget fra en vilkårlig population er approksimativ normal fordelt for tilstrækkelig store n. I andre ord: Hvis X1,…,Xn er en uafhængig stikprøve fra en vilkårlig population, så gælder hvis n er stor nok. Jo større n er, jo tættere er stikprøve middelværdien på at følge en normal-fordeling. I praksis er n>30 nok.

11 Eksempler: Stikprøvefordelingen for
Normal Uniform Skewed Population n = 2 n = 30 X General

12 Summeopgave Gennemsnitsløn et år efter endt cand.oecon uddannelsen: kr/md Hvad er sandsynligheden for at 25 tilfældigt udvalgte cand.oecon’er har en gennemsnitsløn på mindre end kr/md? Antag, at standard afvigelsen er kendt og er 2.500kr/md.

13 Populations og stikprøve andele
Populations andelen er andelen af ”succeser” i populationen: Stikprøve andelen er andelen af succeser i stikprøven: Stikprøve andelen er et estimat af populations andelen p.

14 Populations og stikprøve andele - fortsat
Den tilsvarende estimator er Hvor X følger en binomial fordeling med antals parameter n og sandsynligshedparameter p, dvs. X~B(n,p). Eksempel: n=10 og p=0.40 Da X~B(5,0.4) kan vi slå op i Tabel 1 side 773 for den kumulerede binomialfordeling:

15 Populations og stikprøve andele - fortsat
Genkald at X = X1+…+Xn , hvor Xi er et Bernoulli forsøg, hvor sandsynligheden for succes er P(Xi=1)=p. Derfor E[Xi]=p og V[Xi]=p(1-p). Ifølge CLT har vi (approksimativt): Approksimationen er god, hvis både np og n(1-p) er større end 5. Eksempel: n=10 og p= (her er approksimationen ikke god)

16 Central og ikke-central estimator
En central (unbiased) estimator rammer i gennemsnit målet. { Bias En ikke-central (biased) estimator rammer i gennemsnit ikke målet.

17 Effektiv estimator En estimator er effektiv hvis den har en relativ lille varians (og standard afvigelse). En effektiv estimator er, gennemsnitlig set, tættest på parameteren, der estimeres. En ineffektiv estimator er, gennemsnitlig set, længere væk fra parameteren, der estimeres.

18 Konsistent og sufficient estimator
En estimator er konsistent hvis sandsynligheden for at ligge tæt på den parameter, den estimerer, stiger, når størrelsen på stikprøven stiger. n = 100 n = 10 Konsistens

19 Estimatorerne Alle de gennemgåede estimatorer er ”de bedste” i ovenfor nævnte forstand. Se på estimatet for variansen: Hvorfor divideres med n-1 og ikke med n? Fordi ellers er den ikke en central estimator. Desuden handler det også om antallet af frihedsgrader… Bemærk:

20 Konfidens intervaller
Konfidens intervaller for: Konfidens interval for middelværdi, varians kendt Konfidens interval for middelværdi, varians ukendt

21 Konfidens intervaller
Et punkt-estimat estimerer værdien af en ukendt populations parameter ved en enkelt værdi. Fx: Middelhøjden blandt oecon studernde Et konfidens interval er et interval, der estimerer værdien af en ukendt populations parameter. Kaldes også et interval estimat. Sammen med intervallet gives et mål for, hvor sikker man er på, at den sande populations parameter ligger i intervallet. Dette mål kaldes for konfidens niveauet. Et punkt estimat indeholder ikke meget information om den faktiske værdi af μ – fx hvor sikkert er vores punkt estimat? Et interval estimat indeholder flere informationer, for eksempel: Vi er 95% sikre på, at intervallet [164,8 ; 180,7] indeholde den sande middelværdi μ. Eller vi er 90% sikre på, at intervallet [166,1 ; 179,3] indeholder den sande middelværdi μ.

22 Konfidensinterval for middelværdien - når X er normal-fordelt eller stikprøven er stor
Da gælder følgende: En 95% konfidensinterval for middelværdi Bemærk at estimatoren er er ersattet med estimatet .

23 Mellemregninger…. 0,95 0,025 0,025

24 Konfidens interval for middelværdi
. 4 3 2 1 x f ( ) S a m p l i n g D s t r b u o h e M 2.5% 95% 2.5% falder over intervallet 2.5% falder nedenfor intervallet 95% falder indenfor intervallet Approksimativt 95% af stikprøve middelværdierne kan forventes at falde indenfor intervallet Omvendt, cirka 2.5% kan forventes at være under og 2.5% kan forventes at være over . Så 5% kan forventes at være udenfor intervallet

25 Konfidens interval for middelværdi
p l i n g D i s t r i b u t i o n o f t h e M e a n Approksimativt 95% af intervallerne omring stikprøve middelværdien kan forventes at indeholde den faktiske værdi af populations middelværdien, . *5% af sådanne intervaller omkring stikprøve middelværdien kan forventes ikke at inkludere den faktiske værdi af populations middelværdien. . 4 95% . 3 f ( x ) . 2 . 1 2.5% 2.5% x x x . x x x * x x x x x * x x x x

26 Et (1-a )100% konfidens interval for m
Vi definerer som den z-værdi, hvor sandsynligheden for at Z er højere end denne værdi, er Kaldes også fraktilen eller den kritiske værdi. (1-α)100% kaldes konfidens-niveauet. fordeling æ ö S t a n d a r d N o r m a l a/2 P ç z > z ÷ = è a ø . 4 2 æ ö a/2 P ç z < - z ÷ = . 3 è a ø 2 z ) æ ö ( f . 2 P ç - z < z < z ÷ = ( 1 - a ) è a a ø . 1 2 2 (1-a) 100% konfidens int erval: . - 5 - 4 - 3 - 2 - 1 1 2 3 4 5 Z

27 Kritiske værdier for z og konfidens-niveauer
m a l D i s t r i b u t i o n . 4 . 3 z ) ( f . 2 . 1 . - 5 - 4 - 3 - 2 - 1 1 2 3 4 5 Z

28

29 Konfidens niveau og bredden af konfidens-intervallet
Når man tager stikprøver fra den samme population og bruger den samme stikprøve størrelse, så jo højere et konfidens-niveau, jo bredere et konfidens-interval. S t a n d a r d N o r m a l D i s t r i b u t i o n S t a n d a r d N o r m a l D i s t r i b u t i o n . 4 . 4 . 3 . 3 z ) z ) f ( . 2 ( f . 2 . 1 . 1 . . - 5 - 4 - 3 - 2 - 1 1 2 3 4 5 - 5 - 4 - 3 - 2 - 1 1 2 3 4 5 Z Z

30 Stikprøvestørrelsen og bredden af konfidens-intervallet
Når man tager stikprøver fra den samme population og bruger det samme konfidens niveau, så jo større stikprøvestørrelse, n, jo smallere et konfidens interval. . 4 3 2 1 x f ( ) S a m p l i n g D s t r b u o h e M 95% konfidensinterval: n = 20 . 9 8 7 6 5 4 3 2 1 x f ( ) S a m p l i n g D s t r b u o h e M 95% konfidensinterval: n = 40

31 Eksempel på tavlen

32 Student’s t fordeling Hvis populations standard afvigelsen, σ, er ukendt, erstat σ med stikprøve standard afvigelsen, s. Hvis populationen er normal, så er: t-fordelt med (n-1) frihedsgrader (degrees of freedom). t fordelingen er klokkeformet og symmetrisk og defineret ved antal frihedsgrader (df). Middelværdien er altid lig 0. Variansen af t er større end 1, men går mod 1, når antallet af frihedsgrader vokser. t fordelingen er fladere og har tykkere haler en standard normal fordelingen. t fordelingen går mod standard normal fordelingen nå antallet af frihedsgrader vokser. Standard normal t, df=20 t, df=10

33 Konfidens interval for  når  er ukendt - t fordelingen
Et (1-)100% konfidens interval for  når  er ukendt (og man antager en normalfordelt population): hvor er værdien i t fordelingen med n-1 frihedsgraders, hvor sandsynligheden for at t er højere end denne værdi, er

34 t Fordelingen df t t t t t0.005 t D i s t r i b u t i o n : d f = 1 . 4 . 3 Areal = 0.10 } Areal = 0.10 } ) t ( f . 2 . 1 . } -1.372 1.372 } -2.228 2.228 t Areal = 0.025 Arela = 0.025 For store frihedsgrader kan t fordelingen approksimeres ved en standard normal fordeling.

35 Eksempel 6-2 En aktie analytiker vil estimere den gennemsnitlige gevinst på en bestemt aktie. En stikprøve på 15 dage giver en gennemsnitlig gevinst på og en standard afvigelse på s = 3.5%. Antag en normal population og giv et 95% konfidens interval for den gennemsnitlige gevinst på denne aktie. Den kritiske værdi af t for df = (n -1) = (15 -1) = 14 og et højre halet areal på α/2 = er: Konfidens intervallet er: df t t t t t0.005

36 Konfidens interval for populations andelen, p, for store stikprøver

37 Eksempel 6-4 Hvor stor en andel har udenlandske firmaer af det amerikanske marked for et eller andet produkt. En stikprøve på 100 forbrugere udtages og 34 af disse bruger det udenlandske produkt; resten bruger det amerikanske produkt. Giv et 95% konfidensinterval for andelen af brugere af udenlandske produkter.

38 Konfidens interval for populations variansen: Chi i anden (2) fordelingen
Stikprøve variansen, s², er en central estimator for populations variansen σ². Konfidens intervaller for populations variansen baseres på 2 fordelingen. 2 fordelingen er sandsynligheds fordelingen for en sum af uafhængige kvadrerede standard normal fordelte stokastiske variable. Middelværdien er lig med antallet af frihedsgraden, E(X)=df Variansen er lig med to gange antallet af frihedsgrader, V(X)=2df

39 2 fordelingen En 2 fordelt stokastisk variabel kan ikke være negativ, så den er begrænset af 0 til venstre. Fordelingen er højre skæv. Fordelingen går mod normal fordelingen, når antallet af frihedsgrader vokser. C h i - S q u a r e D i s t r i b u t i o n : d f = 1 , d f = 3 , d f = 5 . 1 . 9 df = 10 . 8 . 7 ) . 6 2 df = 30 ( . 5 f . 4 . 3 df = 50 . 2 . 1 . 5 1 2

40 Sandsynligheder i 2 fordelingen
Areal i højre hale Areal i venstre hale df

41 Konfidens interval for populations variansen
Et (1-)100% konfidens interval for populations variansen * (hvis populationen er normal fordelt) er givet som: hvor er fraktilen i 2 fordelingen og er fraktilen. Bemærk: Fordi 2 fordelingen er skæv, er konfidens-intervallet for populations- variansen ikke symmetrisk.

42 Eksempel 6-5 En maskine fylder kaffekander (med kaffe ;-) Hvis det gennemsnitlige indhold er forskellig fra hvad det skal være, kan maskinen justeres. Hvis variansen er for høj, skal maskinen sendes til reparation. En stikprøve på 30 kander giver et varians estimat på s2 = 18,540. Giv et 95% konfidens interval for populations variansen, 2.

43 Eksempel C h i - S q u a r e D s t b o n : d = 9 Areal i højre hale
df 7 6 5 4 3 2 1 . f ( ) C h i - S q u a r e D s t b o n : d = 9 0.025 0.95


Download ppt "Stikprøvefordelinger og konfidensintervaller"

Lignende præsentationer


Annoncer fra Google