Statistik Lektion 3 Bernoulli og binomial fordelingerne

Slides:



Advertisements
Lignende præsentationer
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Advertisements

Sandsynlighedsfordelinger
Hypotese test – kapitel 6 (Signifikans test)
Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Anvendt Statistik Lektion 4
Statistik og sandsynlighedsregning
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Normalfordelingen Man siger at et talmateriale er normalfordelt, når der optræder mange observationer i midten af materialet og få i yderkanterne. Her.
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Matematikseminar foråret 2009
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Statistik og sandsynlighedsregning
Statistik og sandsynlighedsregning
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Areal og bestemt integral
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistisk inferens Dagens program Grupper, opgave 1
Statistik for geografer
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 7
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Agenda Informationer Opsamling fra sidst Normalfordelingen
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Bernoulli og binomial fordelingerne
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 1. oktober 2004.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Grundlæggende teoretisk statistik
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Økonometri – lektion 8 Multipel Lineær Regression
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Statistik Lektion 8 Test for ens varians.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Normalfordelingen og Stikprøvefordelinger
Statistik II 4. Lektion Logistisk regression.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 3
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Statistik Lektion 3 Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Repetition En stokastisk variabel X er en funktion defineret på S (udfaldsrummet), der antager værdier på R. Diskret stokastisk variabel: Tælleligt antal værdier Sandsynlighedsfordeling: Tabel med ssh. for hvert x, P(X = x) = P(x) ≥ 0. Kumulativ fordelings funktion Middelværdi Varians Standard afvigelse Lineær transformation:

Bernoulli fordelingen Hvis et eksperiment består af et enkelt forsøg og forsøget enten kan være en succes eller en fiasko, så kaldes forsøget for et Bernoulli forsøg En binær stokastisk variabel X er en Bernoulli variabel med sandsynligheds-parameter p, hvis Middelværdi og varians for en Bernoulli variabel: E(X) = E(X²) = Hvis for eksempel p = 0,7: E(X)= V(X)= P(Succes) = P(X=1) = p og P(Fiasko) = P(X=0) = 1-p. E(X2) =

Flere forsøg… Lad X1, X2,…, Xn være n uafhængige Bernoulli variable, alle med samme sandsynligheds-parameter p. Definer: X = X1+X2+…+Xn Fortolkning: X er det (tilfældige) antallet af succeser i n forsøg. Middelværdi og varians for antal succeser E(X) = E(X1+X2+…+Xn) = V(X) = V(X1+X2+…+Xn) = Hvad er sandsynlighedsfordelingen for X ?

Binomial fordeling Binomial fordelingen er resultatet af et Binomialt eksperiment: Det Binomiale eksperiment består af et fast antal (n) Bernoulli forsøg. Så i hvert forsøg er der to mulige udfald, succes og fiasko. P(”succes”)=p, dvs. sandsynligheden for success er den samme i hvert hvert forsøg. (Ligeledes for P(”fiasko”)=1-p=q) Forsøgene er uafhængige

Binomial fordeling - Eksempler Kast med en mønt n gange. S=(krone (succes), plat (fiasko)). Hvis fair mønt p=0,5. Sandsynligheden er konstant og forsøgene er uafhængige, da et møntkasts udfald ikke påvirker udfaldet af det næste kast Træk et kort n gange. S=(”spar (succes)”, ”andet (fiasko)”). P(spar)=0,25 er konstant, hvis vi lægger kortet tilbage i bunken igen, ellers ikke. Uafhængige. Bemærk! Uden tilbagelægning vil P(nummer 2 spar, hvis nummer 1 er en spar)= 12/51 og dermed ikke konstant sandsynlighed

Sandsynlighed for Sekvens Vi udfører n=5 uafhængige Bernoulli forsøg, hver med sandsynlighed p for succes. Lad ’+’ betegne succes og ’0’ betegne fiasko. Hvad er sandsynligheden for sekvensen af udfald Svar: hvor x er antallet af succeser. Bemærk: Sandsynligheden afhænger kun af antal succer - ikke hvornår i sekvenser de kommer. ++0+0 Uafhængighed

Sandsynlighed for 3 Succeser I 5 Forsøg Vi har stadig n=5 uafhængige forsøg som før. Der er 25 = 32 mulige sekvenser af succeser og fiaskoer. Alle sekvenser med 3 succeser 00+++ 0+0++ 0++0+ 0+++0 +00++ +0+0+ +0++0 ++00+ ++0+0 +++00 Totalt 10 måder at får x=3 succeser i n=5 forsøg. Sandsynlighed for x=3 succeser er Antal sekvenser med 3 succeser Sandsynligheden for en given sekvens med 3 succeser

Antal Sekvenser Antag vi udfører n Bernoulli forsøg. Hvor mange forskellige sekvenser med x succeser findes der? Svar: hvor [n fakultet] Eksempel: n = 5 forsøg og x = 3 succeser.

Binomial-fordelingen Binomial sandsynligheds fordeling: hvor : p er sandsynligheden for succes i et enkelt forsøg, n er antallet af forsøg, og x er antallet af succeser. Egenskab: Notation:

Formen På Binomial-fordelingen Binomial-fordelingen bliver mere symmetrisk, når n øges og p → 0.5

Middelværdi, varians og standardafvigelse af en Binomial fordeling Antag X~B(n,p) Eksempel: K tæller antallet af kroner i 5 kast (n=5) med en fair mønt (p=0,5): Middelværdi Varians Standardafvigelse

Kumulative Binomial-fordeling I Tabel 3 i appendiks (s. 848) er en tabel for den kumulative binomial-fordeling for n = 1,..,20. Eksempel: n = 10 studerende tilbydes en plads. Sandsynligheden for at en studerende accepterer er 40%. Spørgsmål: Hvad er sandsynligheden er at højst x=6 studerende accepterer? Løsning: Lad X være antal studerende der accepterer tilbuddet. Da gælder X ~ B(10,0.4). P(X ≤ 6) = F(6) = 0.945.

Kumulative Binomial-fordeling Spørgsmål: 20 studerende får tilbudt plads. Hvad er sandsynligheden for at mere end 12 studerende accepterer? Svar: Vi antager at antal accept er X ~ B(20,0.4). P(X > 12) = 1 - P(X ≤ 12) = 1 - 0.979 = 0.021 Spørgsmål: 15 studerede får tilbudt plads. Antag sandsynligheden for accept er 70%. Hvad er sandsynligheden for at mindst 12 accepterer? Svar: Da vi ikke kan slå p = 0.7 op ser vi på antal afviste. Antal afviste X ~ B(15, 0.3). P(X ≤ 3) =0.297

Diskrete og kontinuerte stokastiske Diskret stokastisk variabel: Tæller hændelser Har et tællelig antal af mulige værdier Har diskrete hop mellem efterfølgende værdier Har målelige sandsynligheder for hver enkelt værdi Sandsynlighed er højde En kontinuert stokastisk variabel: Måler (højde, vægt, hastighed, løn) Har et uendelig antal af mulige værdier Går kontinuert fra værdi til værdi Har ingen målelig sandsynlighed til hver individuel værdi Sandsynlighed er areal For eksempel: Binomial n=3 p=.5 x P(x) 0 0.125 1 0.375 2 0.375 3 0.125 1.000 For eksempel: Det skraverede område angiver sandsynligheden for mellem 2 og 3 minutter.

Kontinuert Stokastisk Variabel og Sandsynlighedstæthedsfunktion Tæthedsfunktionen f(x) Arealet under kurven f(x) er 1 Sandsynligheden for X mindre end 3 er det røde areal

Kontinuert Stokastisk Variabel og Sandsynlighedstæthedsfunktion Definition: Lad X → R være en kontinuert stokastisk variabel. f(x) er (sandsynligheds)tæthedsfunktionen for X hvis Dvs. kurven f(x) er aldring under x-aksen Dvs. arealet under kurven f(x) er 1 Dvs. sandsynligheden for X er mindre end a svarer til arealet under kurven til venstre for a

Tæthedsfunktion og Kumulerede Fordelingsfunktion P(X = x) = 0 Kumulerede fordelingsfunktion: F(3) F(2) Bemærk: F(x) →0, når x → -∞ F(x) →1, når x → ∞

Middelværdi og Varians Stok. Var: Diskret Kontinuert Regel Middelværdi: E[ h(X) ] E[X2] Varians: Bemærk: Integralerne kan typisk ikke ”udregnes”.

Flere Regneregler Regneregler for middelværdi og varians er præcist som for diskrete stokastiske variable. Antag at X er en kontinuert stokastisk variabel med middelværdi m og varians s2. Da gælder Eksempel: Standardisering:

Uniform fordeling uniform [a,b] tæthed: f(x) 1/(b-a) x 1/(b – a) for a £ x£ b f(x)= 0 ellers E(X) = (a + b)/2; V(X) = (b – a)2/12 Uniform [a, b] fordeling Hele arealet under f(x) = 1/(b – a) * (b – a) = 1.00 f(x) 1/(b-a) Arealet under f(x) fra a1 til b1 = P(a1£X£ b1) = (b1 – a1)/(b – a) a a1 b1 b x

Uniform fordeling uniform [0,5] tæthed: f(x) 1/5 x 1/5 for 0 £ x£ 5 0 ellers E(X) = (0 + 5)/2; V(X) = (5 – 0)2/12 Uniform [a, b] fordeling Hele arealet under f(x) = 1/(5-0) * (5 – 0) = 1.00 f(x) 1/5 Arealet under f(x) fra 1 til 3 = P(1£X£ 3) = (3 – 1)/(5 –0) = 2/5 = 0,4 1 3 5 x

Normal-fordelingen Normal-fordelingen er en vigtig fordeling, blandt andet fordi mange andre fordelingen, kan approksimeres til den. Desuden er mange teststørrelser normal-fordelte – kommer senere i kurset Bland andre Carl F. Gauss (1777-1855) fandt frem til den, derfor kaldes den også den Gaussiske fordeling. Gauss Gaussfordeling Må ikke printes ;-)

Normal fordelingen Dens kendetegn er: Klokkeformet og symmetrisk omkring dens middelværdi Middelværdi = median = toppunkt Den er karakteriseret ved en middelværdi μ og varians σ² (eller standard afvigelse σ). Notation: X~N(μ,σ²) betyder, at X følger en normal fordeling med middelværdi μ og varians σ² Arealet under kurven indenfor zσ af middelværdien, er den samme for enhver normal fordeling, uanset middelværdi og standard afvigelse. Er uanset parametre værdier, defineret for alle x (dvs x kan antage værdier fra minus uendelig til plus uendelig)

Tæthedsfunktionen for normal-fordelingen :  = ,  = 1 . 4 . 3 x ) ( f . 2 . 1 . - 5 5 x

Eksempler på normal-fordelinger μ = 0.0 μ = 1.0 μ = 2.0 Samme varians Samme middelværdi. σ = 2.0 σ = 0.5 σ = 1.0

Standard afvigelsen σ når X~N(μ,σ2) Cirka 68% af all observationer ligger indenfor en standard afvigelse fra middelværdien Cirka 95% af alle observationer ligger indenfor to standard afvigelser fra middelværdien Cirka 99.7% af alle observationer ligger indenfor 3 standard afvigelser fra middelværdien

≈68% σ ≈95% 2σ ≈99,7% 3σ Arealet under kurven indenfor kσ af middelværdien, er den samme for enhver normal fordeling, uanset middelværdi og standard afvigelse.

Standard normal fordelingen Standard normal fordelingen, er normalfordelingen med middelværdi μ=0 og standard afvigelse σ=1, Z~N(0,1²) Standard Normal fordeling . 4 . 3 =1 { z ) ( f . 2 . 1 . - 5 - 4 - 3 - 2 - 1 1 2 3 4 5  = 0 Z NB: En standard normal fordelt stokastisk variabel betegnes sædvanligvis Z.

Tabellen Den kumulative fordelingsfunktion F(x) for standard normal fordelingen er tabellagt i Tabel 1 i Appendikset, side 841 for positive værdier af x. Figuren viser P(Z ≤ 1.21) = F(1.21) P(Z≤1.21) F(1.21) F(z) = P(Z ≤ z)

Find P(Z < 1.21) vha. Tabelopslag P(Z ≤ 1.21 ) = F(1.21) = 0.8869 88,69%

Find P(Z < -1.76) Vi kan ikke slå F(-1.76) op i tabellen… Da standard normal-fordelingen er symmetrisk omkring nul: Vi har også: Dvs. P(Z ≤ -1.76) P(Z ≥ 1.76) P(Z ≤ 1.76) P(Z ≥ 1.76) Tabelopslag

Find P(1 ≤ Z ≤ 2) Der gælder P(Z ≤ 2) P(1 ≤ Z ≤ 2) P(Z ≤ 2

Transformation til Standardnormal Efter en lineær transformation af normalfordelt stokastisk variabel er stadig en normalfordelt stokastisk variabel. Lad X ~N(m,s2) og definer Y = aX + b, så gælder E[Y] = aE[X] + b = am + b V[Y] = a2V[X] = a2s2 Y ~ N(am + b, a2s2) Lad X ~N(m,s2) og definer Z = (X-m)/s2, så gælder E[Z] = 0 V[Z] = 1 Z ~ N(0,1)

Transformation: Eksempel Antag studerende score til eksamen er normalfordelt med middelværdi 60 og standardafvigelse 15. Dvs. score X ~ N(60,152) Spørgsmål: Hvor stor en andel af de studerende har en score under 95? P(X ≤ 95) = ? Ide: Transformer problemet til et, der vedrører en standard normal-fordelt stokastisk variabel. Dvs. 99.01% af de studerende har en score under 95.

Kumulative fordeling i Rcmdr 1 2 De R-kommadoer jeres ’peg-og-klik’ svarer til. 3 Output fra kommandoer