Statistik Lektion 3 Simultan fordelte stokastiske variable

Slides:



Advertisements
Lignende præsentationer
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Advertisements

Hypotese test – kapitel 6 (Signifikans test)
Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Anvendt Statistik Lektion 4
Statistik og sandsynlighedsregning
Statistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Normalfordelingen Man siger at et talmateriale er normalfordelt, når der optræder mange observationer i midten af materialet og få i yderkanterne. Her.
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Matematikseminar foråret 2009
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 2
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Statistik og sandsynlighedsregning
Statistik og sandsynlighedsregning
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Areal og bestemt integral
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Statistik for geografer
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Agenda Informationer Opsamling fra sidst Normalfordelingen
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Bernoulli og binomial fordelingerne
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 1. oktober 2004.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Grundlæggende teoretisk statistik
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Økonometri – lektion 8 Multipel Lineær Regression
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable
Simpel Lineær Regression
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Grundlæggende teoretisk statistik
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Statistik Lektion 8 Test for ens varians.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Normalfordelingen og Stikprøvefordelinger
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Anvendt Statistik Lektion 6
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Repetition En stokastisk variabel X er en funktion defineret på S (udfaldsrummet), der antager værdier på R. Diskret stokastisk variabel: Tælleligt antal værdier Sandsynlighedsfordeling: Tabel med ssh. for hvert x, P(X = x) = P(x) ≥ 0. Kumulativ fordelingsfunktion Middelværdi Varians Standard afvigelse Lineær transformation:

Middelværdi for Lineær transformation: Bevis

Varians for Lineær transformation: Bevis

Simultan Sandsynlighedsfordeling Definition: Hvis X og Y er to diskrete stokastiske variable, så er P(x,y) =P(X=x,Y=y) en simultan sandsynligheds-funktion for X og Y, hvis (joint probability function) Definition: Den Marginale sandsynlighedsfordeling for hhv. X og Y er

Eksempel: Alder og Salg Sammenhæng mellem aldersgruppe (X) og købsmønster (Y): Marginale fordeling af Y Aldergruppe (X) Købs-mønster (Y) 1 (16 til 25) 2 (26 til 45) 3 (46 til 65) P(y) 1 (køb) 0.10 0.20 0.40 2 (ej køb) 0.25 0.60 P(x) 0.35 0.45 1.00 Marginale fordeling af X

Betinget Sandsynligheder for SV For to diskrete stokastiske variable er den betingede sandsynligheden for X=x givet Y=y givet ved Eksempel: Betingede sandsynlighed for køb (Eksempel: Betingede sandsynlighed for køb (Y=1) givet kunde i aldergruppen 26 til 45 (X = 2). Svar: P(X=2,Y=1) = P(2,1) = 0.20 og P(X=2) = 0.45

Uafhængighed Definition: To diskrete stokastiske variable X og Y er uafhængige hvis og kun hvis for alle x og y, hvor P(x) og P(y) er de marginale sandsynligheds-funktioner. Eksempel: Er aldersgruppe og købsmønster uafhængige? Svar: Dvs. der er ikke uafhængighed.

Kovarians X stokastisk variabel med forventet værdi μX Y stokastisk variabel med forventet værdi μY Kovariansen mellem X og Y er givet ved Bemærk: Hvis X og Y er uafhængige så er Cov(X,Y) = 0. Hvis X og Y har diskrete stokastiske variable med simultan sandsynlighedsfunktion P(x,y), så er kovariansen givet ved

Middelværdi og Varians for Par af Stokastiske Variable Lad X være SV med forventet værdi mx og varians s2X Lad Y være SV med forventet værdi mY og varians s2Y Da gælder Eksempler: E[ X + Y ] = mX + mY E[ X – Y ] = mX - mY

Regneregler for middelværdi og varians Middelværdien af en linearkombination af stokastiske variable X1, X2,…, Xk. Hvis X1, X2,… ,Xk er indbyrdes uafhængige, så: Disse regler gælder for både diskrete og kontinuerte stokastiske variable

Bernoulli fordelingen Hvis et eksperiment består af et enkelt forsøg og forsøget enten kan være en succes eller en fiasko, så kaldes forsøget for et Bernoulli forsøg En binær stokastisk variabel X er en Bernoulli variabel med sandsynligheds-parameter p, hvis Middelværdi og varians for en Bernoulli variabel: E(X) = V(X) = Hvis for eksempel p = 0,7: E(X) = V(X) = P(Succes) = P(X=1) = p og P(Fiasko) = P(X=0) = 1-p. E(X2) =

Mange forsøg… Lad X1, X2,…, Xn være n uafhængige Bernoulli variable, alle med samme sandsynligheds-parameter p. Husk: E(Xi) = p og V(Xi) = p(1-p) Definer: X = X1+X2+…+Xn Da gælder X ~ B(n,p) (X følger en binomial fordeling) Middelværdi og varians for X E(X ) = E(X1+X2+…+Xn) = V(X ) = V(X1+X2+…+Xn) = (X = ”Antal successer”)

Diskrete og kontinuerte stokastiske Diskret stokastisk variabel: Tæller hændelser Har et tællelig antal af mulige værdier Har diskrete hop mellem efterfølgende værdier Har målelige sandsynligheder for hver enkelt værdi Sandsynlighed er højde En kontinuert stokastisk variabel: Måler (højde, vægt, hastighed, løn) Har et uendelig antal af mulige værdier Går kontinuert fra værdi til værdi Har ingen målelig sandsynlighed til hver individuel værdi Sandsynlighed er areal For eksempel: Binomial n=3 p=.5 x P(x) 0 0.125 1 0.375 2 0.375 3 0.125 1.000 For eksempel: Det skraverede område angiver sandsynligheden for mellem 2 og 3 minutter.

Kontinuert Stokastisk Variabel og Sandsynlighedstæthedsfunktion Tæthedsfunktionen f(x) Arealet under kurven f(x) er 1 Sandsynligheden for X mindre end 3 er det røde areal

Kontinuert Stokastisk Variabel og Sandsynlighedstæthedsfunktion Definition: Lad X → R være en kontinuert stokastisk variabel. f(x) er (sandsynligheds)tæthedsfunktionen for X hvis Dvs. kurven f(x) er aldring under x-aksen Dvs. arealet under kurven f(x) er 1 Dvs. sandsynligheden for X er mindre end a svarer til arealet under kurven til venstre for a

Tæthedsfunktion og Kumulerede Fordelingsfunktion P(X = x) = 0 Kumulerede fordelingsfunktion: F(3) F(2) Bemærk: F(x) →0, når x → -∞ F(x) →1, når x → ∞

Middelværdi og Varians Stok. Var: Diskret Kontinuert Regel Middelværdi: E[ h(X) ] E[X2] Varians: Bemærk: Integralerne kan typisk ikke ”udregnes”.

Flere Regneregler Regneregler for middelværdi og varians er præcist som for diskrete stokastiske variable. Antag at X er en kontinuert stokastisk variabel med middelværdi m og varians s2. Da gælder Eksempel: Standardisering:

Uniform fordeling uniform [a,b] tæthed: f(x) 1/(b-a) x 1/(b – a) for a £ x£ b f(x)= 0 ellers E(X) = (a + b)/2; V(X) = (b – a)2/12 Uniform [a, b] fordeling Hele arealet under f(x) = 1/(b – a) * (b – a) = 1.00 f(x) 1/(b-a) Arealet under f(x) fra a1 til b1 = P(a1£X£ b1) = (b1 – a1)/(b – a) a a1 b1 b x

Uniform fordeling - Eksempel uniform [0,5] tæthed: 1/5 for 0 £ x£ 5 f(x)= 0 ellers E(X) = (0 + 5)/2; V(X) = (5 – 0)2/12 Uniform [a, b] fordeling Hele arealet under f(x) = 1/(5-0) * (5 – 0) = 1.00 f(x) 1/5 Arealet under f(x) fra 1 til 3 = P(1£X£ 3) = (3 – 1)/(5 –0) = 2/5 = 0,4 1 3 5 x

Normal-fordelingen Normal-fordelingen er en vigtig fordeling, blandt andet fordi mange andre fordelingen, kan approksimeres til den. Desuden er mange teststørrelser normal-fordelte – kommer senere i kurset Bland andre Carl F. Gauss (1777-1855) fandt frem til den, derfor kaldes den også den Gaussiske fordeling. Gauss Gaussfordeling Må ikke printes ;-)

Normalfordelingen Dens kendetegn er: Klokkeformet og symmetrisk omkring dens middelværdi Middelværdi = median = toppunkt Den er karakteriseret ved en middelværdi m og varians s2 (eller standardafvigelsen σ). Notation: X~N(m,s2) betyder, at X følger en normal fordeling med middelværdi μ og varians σ² Arealet under kurven indenfor zσ af middelværdien, er den samme for enhver normal fordeling - uanset middelværdi og standardafvigelse. Er uanset parametre værdier, defineret for alle x (dvs x kan antage værdier fra minus uendelig til plus uendelig)

Tæthedsfunktionen for normal-fordelingen :  = ,  = 1 . 4 . 3 x ) ( f . 2 . 1 . - 5 5 x

Eksempler på normal-fordelinger μ = 0.0 μ = 1.0 μ = 2.0 Samme varians Samme middelværdi. σ = 2.0 σ = 0.5 σ = 1.0

Standardafvigelsen σ når X~N(μ,σ2) Cirka 68% af all observationer ligger indenfor en standard afvigelse fra middelværdien Cirka 95% af alle observationer ligger indenfor to standard afvigelser fra middelværdien Cirka 99.7% af alle observationer ligger indenfor 3 standard afvigelser fra middelværdien

≈68% σ ≈95% 2σ ≈99,7% 3σ Arealet under kurven indenfor kσ af middelværdien, er den samme for enhver normal fordeling, uanset middelværdi og standard afvigelse.

Standard normalfordelingen Standard normalfordelingen, er normalfordelingen med middelværdi μ = 0 og standard afvigelse σ = 1, Z~N(0,1²) Standard Normalfordeling . 4 . 3 =1 { z ) ( f . 2 . 1 . - 5 - 4 - 3 - 2 - 1 1 2 3 4 5  = 0 Z NB: En standard normalfordelt stokastisk variabel betegnes sædvanligvis Z.

Tabellen Den kumulative fordelingsfunktion F(x) for standard normal fordelingen er tabellagt i Tabel 1 i Appendikset, side 837 for positive værdier af x. Figuren viser P(Z ≤ 1.21) = F(1.21) P(Z≤1.21) F(1.21) F(z) = P(Z ≤ z)

Find P(Z < 1.21) vha. Tabelopslag P(Z ≤ 1.21 ) = F(1.21) = 0.8869 Bemærk: Standard normalfordelingen Er kun tabellagt for z = 0.00 til 3.99. 88,69% Tilsvarende tabelopslag i R: > pnorm(1.21) [1] 0.8868606

Find P(Z < -1.76) Vi kan ikke slå F(-1.76) op i tabellen… Da standard normal-fordelingen er symmetrisk omkring nul: Vi har også: Dvs. P(Z ≤ -1.76) P(Z ≥ 1.76) P(Z ≤ 1.76) P(Z ≥ 1.76) Tabelopslag

Find P(1 ≤ Z ≤ 2) Der gælder P(Z ≤ 2) P(1 ≤ Z ≤ 2) P(Z ≤ 2)

Transformation til Standardnormal En lineær transformation af normalfordelt stokastisk variabel er stadig en normalfordelt stokastisk variabel. Lad X ~N(m,s2) og definer Y = aX + b, så gælder E[Y] = aE[X] + b = am + b V[Y] = a2V[X] = a2s2 Y ~ N(am + b, a2s2) Lad X ~N(m,s2) og definer , så gælder E[Z] = 0 V[Z] = 1 Z ~ N(0,1)

Transformation: Eksempel Antag studerendes score til eksamen er normalfordelt med middelværdi 60 og standardafvigelse 15. Dvs. score X ~ N(60,152) Spørgsmål: Hvor stor en andel af de studerende har en score under 95? P(X ≤ 95) = ? Ide: Transformer problemet til et, der vedrører en standard normal-fordelt stokastisk variabel. Dvs. 99.01% af de studerende har en score under 95.

Kumulative fordeling i R For dem der foretrækker kommando-linjen i R Antag X ~ N(2,32) Vi kan finde den kumulerede sandsynlighed F(7) = P(X  7) vha. kommandoen pnorm(x=7,mean=2,sd=3) R har en standard rækkefølge til parametre, så man kan nøjes med at skrive pnorm(7,2,3) Bemærk: Det er standard-afvigelsen ikke variansen!