Bernoulli og binomial fordelingerne

Slides:



Advertisements
Lignende præsentationer
Kombinatorik, sandsynlighed og statistik
Advertisements

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Sandsynlighedsfordelinger
Hypotese test – kapitel 6 (Signifikans test)
Anvendt Statistik Lektion 3
En ærlig mønt kastes 5 gange
Kombinatorik, sandsynlighed og statistik
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Anvendt Statistik Lektion 4
Statistik og sandsynlighedsregning
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Normalfordelingen Man siger at et talmateriale er normalfordelt, når der optræder mange observationer i midten af materialet og få i yderkanterne. Her.
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Matematikseminar foråret 2009
Akademi Merkonomer Statistik Aften 3
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 3
Statistik og sandsynlighedsregning
Statistik og sandsynlighedsregning
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Areal og bestemt integral
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Statistisk inferens Dagens program Grupper, opgave 1
Statistik for geografer
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 7
Agenda Informationer Opsamling fra sidst Normalfordelingen
Statistik for geografer
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
1 Design, analyse og verifikation. 2 Design Bevisteknikker Design ved hjælp at matematisk induktion Analyse O-notation Logaritmer Binær søgning Verifikation.
Statistik for geografer
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 1. oktober 2004.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Kombinatorik, sandsynlighed og statistik
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Grundlæggende teoretisk statistik
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Økonometri – lektion 8 Multipel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Kombinatorik, sandsynlighed og statistik
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Grundlæggende teoretisk statistik
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
W3a1 PC baseret analyse og simulering. w3a2 En struktureret variabel i SAS ARRAY.
Statistik Lektion 8 Test for ens varians.
Normalfordelingen og Stikprøvefordelinger
Statistik II 4. Lektion Logistisk regression.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Stikprøve uden tilbagelægning - Hypergeometrisk fordeling
Anvendt Statistik Lektion 6
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Repetition Lov om total sandsynlighed Bayes’ sætning Stokastisk variabel – diskret: Endeligt antal værdier Sandsynlighedsfordeling: Tabel med ssh. for hvert x, P(X=x). Kumulativ fordelings funktion Middelværdi Varians Standard afvigelse

Bernoulli fordelingen Hvis et eksperiment består af et enkelt forsøg og forsøget enten kan være en succes eller en fiasko, så kaldes forsøget for et Bernoulli forsøg X er en Bernoulli variabel med sandsynligheds-parameter p, hvis P(X=1)=p og P(X=0)=1-p. Middelværdi og varians for en Bernoulli variabel: E(X) = E(X²) = V(X) = Hvis for eksempel p=0,7: E(X)= V(X)=

Lidt mere repetition… Lad X1, X2,…, Xn være uafhængige Bernoulli variable, alle med samme sandsynligheds-parameter p. S= X1+X2+…+Xn er summen af stok. var. E(S) = E(X1+X2+…+Xn) = V(S) = V(X1+X2+…+Xn) =

Binomial fordeling Binomial fordelingen er resultatet af et Binomialt eksperiment: Det Binomiale eksperiment består af et fast antal (n) Bernoulli forsøg. Så i hvert forsøg er der to mulige udfald, succes og fiasko. P(”succes”)=p, dvs. sandsynligheden for success er den samme i hvert hvert forsøg. (Ligeledes for P(”fiasko”)=1-p=q) Forsøgene er uafhængige

Binomial fordeling - Eksempler Kast med en mønt n gange. S=(krone (succes), plat (fiasko)). Hvis fair mønt p=0,5. Sandsynligheden er konstant og forsøgene er uafhængige, da et møntkasts udfald ikke påvirker udfaldet af det næste kast Træk et kort n gange. S=(”spar (succes)”, ”andet (fiasko)”). P(spar)=0,25 er konstant, hvis vi lægger kortet tilbage i bunken igen, ellers ikke. Uafhængige. Bemærk! Uden tilbagelægning vil P(nummer 2 spar, hvis nummer 1 er en spar)= 12/51 og dermed ikke konstant sandsynlighed

Binomial eksempel Kast en mønt 5 gange og lad X være antallet af krone. Der er 25 = 32 mulige sekvenser af plat og krone i udfaldsrummet. Af disse er der 10 med 2 krone (X=2): KKPPP KPKPP KPPKP KPPPK PKKPP PKPKP PKPPK PPKKP PPKPK PPPKK Sandsynligheden for hvert af disse 10 udfald er p2q3= (1/2)2(1/2)3=(1/32), så sandsynligheden for 2 krone i 5 kast er: P(X = 2) = 10·(1/32) = (10/32) = 0.3125 Antal udfald med 2 krone Sandsynligheden for hvert af disse udfald

Binomial-fordelingen generelt 1. Sandsynligheden for en given sekvens af x succes’er ud af n forsøg med sandsynlighed for succes p og sandsynlighed for fiasko q er lig med: pxq(n-x) 2. Antallet af forskellige sekvenser af n forsøg, der resulterer i x succes’er er lig med antallet af valg af x elementer ud af n elementer: n fakultet:

Binomial-fordelingen Binomial sandsynligheds fordeling: hvor : p er sandsynligheden for succes i et enkelt forsøg, q = 1-p, n er antallet af forsøg, og x er antallet af succeser. Egenskab: Notation:

Middelværdi, varians og standardafvigelse af en Binomial fordeling Antag X~B(n,p) Eksempel: K tæller antallet af kroner i 5 kast (n=5) med en fair mønt (p=0,5): Middelværdi Varians Standardafvigelse

Kumulativ Binomial fordeling (Tabel 1, Appendiks C) Binomial kumulativ fordeling F(k) og sandsynligheds fordeling P(k) for K, antallet af krone i 5 kast med en fair mønt. Individuelle sandsynligheder fra kumulative sandsynligheder Eksempel: n=5 p=0.50

Binomial sandsynligheder - eksempel 60% af SparNord aktierne ejes af mig ;-). En stikprøve på 15 aktier vælges. Hvad er sandsynligheden for at højst 3 af dem ejes af mig?

Andre diskrete fordelinger Binomial: X=Antal succeser i n forsøg. P(”succes”)=p fast. Negativ Binomial X=Antal forsøg inden man har n succeser. Hypergeometrisk X=Antal gode blandt n valgte, når der totalt er N at vælge imellem, hvoraf S er gode. Poisson Typisk antal hændelser i et givet tidsrum, fx antal uheld.

Diskrete og kontinuerte stokastiske Diskret stokastisk variabel: Tæller hændelser Har et tællelig antal af mulige værdier Har diskrete hop mellem efterfølgende værdier Har målelige sandsynligheder for hver enkelt værdi Sandsynlighed er højde En kontinuert stokastisk variabel: Måler (højde, vægt, hastighed, løn) Har et uendelig antal af mulige værdier Går kontinuert fra værdi til værdi Har ingen målelig sandsynlighed til hver individuel værdi Sandsynlighed er areal For eksempel: Binomial n=3 p=.5 x P(x) 0 0.125 1 0.375 2 0.375 3 0.125 1.000 3 2 1 . 4 P ( x ) B i n o m a l : = p 5 For eksempel: Det skraverede område angiver sandsynligheden for mellem 2 og 3 minutter. 6 5 4 3 2 1 . M i n u t e s P ( x ) o C m p l T a k

Kontinuert fordeling Halv-Minut Intervaller Kvart-Minut Intervaller 6 . 5 4 3 2 1 M i n u t e s P ( x ) o C m p l T a k : B y H f - 0.0 0 1 2 3 4 5 6 7 M i n u t e s P ( x ) o C m p l T a k : F r h f Uendelig små intervaller Ottendedel-Minut Intervaller 7 6 5 4 3 2 1 Minutes f ( z ) Tæthedsfunktion M i n u t e s t o C o m p l e t e T a s k : E i g h t h s o f a M i n u t e P ( x ) 0 1 2 3 4 5 6 7 M i n u t e s

Kontinuerte stokastiske variable – tæthedsfunktion og fordelingsfunktion Svarer til sandsynligheds fordeling for diskrete variable For en tæthedsfunktion f(x) defineret på intervallet fra a til b gælder at: f(x)≥0 for alle x mellem a og b Det totale areal under kurven mellem a og b er 1. Sandsynligheden for at x ligger i et giver interval (indehold i intervallet fra a til b) er arealet under kurven for dette interval. Den kumulative fordelingsfunktion F(x) er givet som: F(x)=P(X≤x) = ”arealet under f(x) mellem den mindste mulige værdi af x (typisk minus uendelig) og x”.

Tæthedsfunktion og fordelingsfunktion F(x) 1 F(b) F(a) a b x f(x) NB: P(X=x)=F(x)-F(x)=0 x a b

Integrationsbonusslide! Stok. Var: Diskret Kontinuert Regel Middelværdi: E(X2) Varians:

Uniform fordeling uniform [a,b] tæthed: f(x) 1/(b-a) x 1/(b – a) for a £ x£ b f(x)= 0 ellers E(X) = (a + b)/2; V(X) = (b – a)2/12 Uniform [a, b] fordeling Hele arealet under f(x) = 1/(b – a) * (b – a) = 1.00 f(x) 1/(b-a) Arealet under f(x) fra a1 til b1 = P(a1£X£ b1) = (b1 – a1)/(b – a) a a1 b1 b x

Uniform fordeling uniform [0,5] tæthed: f(x) 1/5 x 1/5 for 0 £ x£ 5 0 ellers E(X) = (0 + 5)/2; V(X) = (5 – 0)2/12 Uniform [a, b] fordeling Hele arealet under f(x) = 1/(5-0) * (5 – 0) = 1.00 f(x) 1/5 Arealet under f(x) fra 1 til 3 = P(1£X£ 3) = (3 – 1)/(5 –0) = 2/5 = 0,4 1 3 5 x

Eksponential-fordeling Eksponential-fordelingen Tæthedsfunktionen er givet ved: Middelværdi og standard-afvigelsen er begge lige 1/λ Den kumulative fordelings-funktion er givet ved: Eksponential fordeling : l = 2 2 ) x ( f 1 1 2 3 Tid Den eksponentiale fordeling bruges typisk som model for ”ventetiden” mellem to hændelser, fx. tiden mellem to maskinsammenbrud eller andre ”ulykker”.

Normal-fordelingen Normal fordelingen er en vigtig fordeling, blandt andet fordi mange andre fordelingen, kan approksimeres til den. Desuden er mange teststørrelser normal-fordelte – kommer senere i kurset Bland andre Carl F. Gauss (1777-1855) fandt frem til den, derfor kaldes den også den Gaussiske fordeling. Gauss Gaussfordeling Må ikke printes ;-)

Normal fordelingen Dens kendetegn er: Klokkeformet og symmetrisk omkring dens middelværdi Middelværdi=median=mode Den er karakteriseret ved en middelværdi μ og varians σ² (eller standard afvigelse σ). Notation: X~N(μ,σ²) betyder, at X følger en normal fordeling med middelværdi μ og varians σ² Arealet under kurven indenfor zσ af middelværdien, er den samme for enhver normal fordeling, uanset middelværdi og standard afvigelse. Er uanset parametre værdier, defineret for alle x (dvs x kan antage værdier fra minus uendelig til plus uendelig)

Tæthedsfunktionen for normal-fordelingen :  = ,  = 1 . 4 . 3 x ) ( f . 2 . 1 . - 5 5 x

Eksempler på normal-fordelinger μ = 0.0 μ = 1.0 μ = 2.0 Samme varians Samme middelværdi. σ = 2.0 σ = 0.5 σ = 1.0

Standard afvigelsen σ når X~N(μ,σ2) Cirka 68% af all observationer ligger indenfor en standard afvigelse fra middelværdien Cirka 95% af alle observationer ligger indenfor to standard afvigelser fra middelværdien Cirka 99.7% af alle observationer ligger indenfor 3 standard afvigelser fra middelværdien

≈68% σ ≈95% 2σ ≈99,7% 3σ Arealet under kurven indenfor kσ af middelværdien, er den samme for enhver normal fordeling, uanset middelværdi og standard afvigelse.

Sum af uafhængige normal-fordelte stokastiske variable Hvis X1, X2, …, Xn er uafhængige normal-fordelte stokastiske variable, så er deres sum S også normal-fordelt med E(S) = E(X1) + E(X2) + … + E(Xn) V(S) = V(X1) + V(X2) + … + V(Xn) Bemærk: Det er varianserne der kan lægges sammen, ikke standard afvigelserne! Eksempel: S = X1 + X2 + X3. Så er E(S) = 10 + 20 + 30 = 60 og V(S) = 1 + 2 + 3 = 6. Standard afvigelsen af S er = 2.45. Middelværdi Varians X1 10 1 X2 20 2 X3 30 3

Linearkombinationer af uafhængige normal-fordelte stokastiske variable Hvis X1, X2, …, Xn er uafhængige normalfordelte stokastiske variable, så vil variablen Q defineret som Q = a1X1 + a2X2 + … + anXn + b også være normal fordelt, med: E(Q) = a1E(X1) + a2E(X2) + … + anE(Xn) + b V(Q) = a12 V(X1) + a22 V(X2) + … + an2 V(Xn) Bemærk igen, at det er varianserne, der summeres og ikke standard afvigelserne.

Eksempel E(Q) = 12 – 2(-5) + 3(8) – 4(10) + 5 = 11 Eksempel 4.3: Lad X1 , X2 , X3 og X4 være uafhængige normal fordelte stokastiske variable med middelværdi og varians givet som i tabellen. Find middelværdien og variansen af Q = X1 - 2X2 + 3X2 - 4X4 + 5 Mean Variance X1 12 4 X2 -5 2 X3 8 5 X4 10 1 E(Q) = 12 – 2(-5) + 3(8) – 4(10) + 5 = 11 V(Q) = 4 + (-2)2(2) + 32(5) + (-4)2(1) = 73 SD(Q) =