Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel

Slides:



Advertisements
Lignende præsentationer
Kombinatorik, sandsynlighed og statistik
Advertisements

Hypotese test – kapitel 6 (Signifikans test)
Dummyvariabler 13. oktober 2006
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Statistik og sandsynlighedsregning
Statistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Matematikseminar foråret 2009
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Sammenligning af to grupper
Side Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger.
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 6
Statistik og sandsynlighedsregning
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Statistik og sandsynlighedsregning
Case.
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Man siger at X er binomialfordelt med
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Sandsynligheder Udfald og hændelser Sandsynligheder Additionsreglen
Statistik for geografer
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 7
Agenda Informationer Opsamling fra sidst Normalfordelingen
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Bernoulli og binomial fordelingerne
Kombinatorik, sandsynlighed og statistik
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Grundlæggende teoretisk statistik
Statistik for geografer Lektion 6. Sandsynlighedsregning Statistisk eksperiment Udfald Udfaldsrum Hændelse Statistisk eksperiment Udfald Udfaldsrum Hændelse.
Økonometri – lektion 8 Multipel Lineær Regression
Introduktion Deskriptiv statistik Sandsynslighedregning
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Statistik Lektion 8 Test for ens varians.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statistik II 4. Lektion Logistisk regression.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Stikprøve uden tilbagelægning - Hypergeometrisk fordeling
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 6
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable Binomialfordelingen

Repetition Udfaldsrum S Hændelse A ⊆ S Simpel hændelse Oi Regler: 0 ≤ P(A) ≤ 1 P(A) = Σ P(Oi) P(S) = 1 6 A ∩ B 1, 2 4, 5 A B S 3 Regler: P(∅) = 0 P(A⋃B) = P(A) + P(B) - P(A⋂B) P(A) = 1 - P(A)

Lov om Total Sandsynlighed Vha. B kan vi opdele A i to disjunkte dele. _ B B A

Lov om total sandsynlighed E1 , … , Ek er en disjunkte og udtømmende hændelser i S E3 E5 E1 A E6 E2 Lov om total sandsynlighed: lecture 1

Betinget sandsynlighed Definition: Den betingede sandsynlighed P(A|B) er sandsynligheden for hændelsen A, givet at vi ved at hændelsen B allerede er indtruffet: Det gælder også når vi ombytter A og B

Betinget sandsynlighed - intuition Antag alle udfald er lige sandsynlige, dvs. N = antal udfald i udfalds rum NA = antal udfald i hændelse A Hvad er sandsynligheden for A givet at B er indtruffet? ∙ S ∙ ∙ A ∙ ∙ B ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙

Betinget sandsynlighed - Eksempel I arbejde Arbejdsløs Total Mand 460 40 500 Kvinde 140 260 400 600 300 900 Eksempel: Køns-fordeling af arbejdsløse/ikke-arbejdsløse med studentereksamen i en lille by

Multiplikationsregel Betinget sandsynlighed Af betingede sandsynlighed følger multiplikationsreglen : Eksempel: Konsulent på jagt efter job A og job B. Sandsynligheden for at få job A er P(A) = 0.45. Givet at han får job A er sandsynligheden for at få job B P(B|A) = 0.9. Spørgsmål: Hvad er sandsynligheden for at konsulent får både job A og job B? Svar:

Uafhængighed Definition: To hændelser A og B er statistisk uafhængige, hvis og kun hvis Konsekvenser: Hvis A og B er statistisk uafhængige hændelser Fortolkning af P(B|A) = P(B): Selvom vi ved at A er indtruffet, ændrer det ikke på sandsynligheden for B.

Tjek for uafhængighed Eksempel: I arbejde Arbejdsløs Total Mand 460 40 500 Kvinde 140 260 400 600 300 900 Spørgsmål: Er hændelserne ”Mand” og ”I arbejde” uafhængige? Dvs. de to hændelser “Mand” og “I arbejde” er afhængige

Bayes’ sætning Defintion: Hvis A og B er hændelser, da siger Bayes’ sætning: under antagelse af P(A)>0. Sætningen følger umiddelbart af at kombinere betinget sandsynlighed med multiplikationsreglen og lov om total sandsynlighed.

Bayes’ sætning (udvidet) Defintion: Hvis E1, E2, …, EK er disjunkte og udtømmende hændelser i S, så siger Bayes’ sætning under antagelse af P(A)>0.

Bayes’ sætning: Test for sjælden sygdom En test for en sjælden sygdom, der rammer 0,1% af befolkningen (P( I )=0,001), er upræcis. Lad i det følgende: Sandsynligheden for at testen er positiv når man er syg: Sandsynligheden for at testen er positiv, når man er rask: Hvad er så sandsynligheden for at man er syg, givet at testen var positiv?

Stokastisk variabel I et eksperiment kan man ofte knytte en taværdi til hvert udfald S s X(s) R Definition: En stokastisk variabel X er en funktion defineret på S, der antager værdier på den reelle akse X: S  R Mulige udfald Reelle tal lektion 2

Stokastiske variable Eksempler: Stokastisk variable Type Antallet af øjne ved kast med en terning diskret Summen ved kast af to terninger diskret Antallet af børn i en familie diskret Alder af en førstegangsfødende kvinde diskret Tid det tager at løbe fem km kontinuert Mængde af sukker i en sodavand kontinuert Højde af mænd kontinuert tælle måle Diskret: antager et endeligt antal værdier eller et uendeligt men tælleligt antal værdier. Kontinuert: antager værdier i en mængde af reelle tal. lektion 2

Sandsynlighedsfunktion Definition: Lad X : S  R være en diskret stokastisk variabel. Funktionen P(x) er en sandsynlighedsfunktion for X, hvis 1. P(x)  0 for alle x 2. 3. P(X = x) = P(x), hvor P(X=x) er sandsynligheden for de udfald sS : X(s) = x. lektion 2

Sandsynlighedsfunktion: Eksempel Lad den stokastiske variabel X være antallet af solgte sandwich i løbet af en time. Sandsynlighedsfunktionen der hører til X er x P(x) 0 0.1 1 0.2 2 0.4 3 0.3 1.0

Kumulativ fordelingsfunktion Definition: Den kumulative fordelingsfunktion, F(x), for en diskret stokastisk variabel X er: Kumulative fordelingsfunktions for antallet af solgte sandwich: x P(x) F(x) 0 0.1 0.1 1 0.2 0.3 2 0.4 0.7 3 0.3 1.0 1.0 0.4

Eksempel - fortsat x P(x) F(x) 0 0.1 0.1 0.2 0.3 0.4 0.7 3 0.3 1.0 1.0

Middelværdi Definition: Antag X er en diskret stokastisk variabel med sandsynlighedsfunktion P(x). Da er Middelværdien for X er givet ved: Dvs. summen af hver mulig værdi af X ganget med den tilsvarende sandsynlighed – et vægtet gennemsnit. Bemærk! Middelværdien for en stokastisk variabel kaldes også den forventede værdi.

Middelværdi - Eksempel x P(x) xP(x) 0 0.1 0.0 0.2 0.2 0.4 0.8 3 0.3 0.9 1.0 1.9 Konklusion: Dvs. middelværdien af den stokastiske variabel er 1.9 Det forventede antal solgte sandwich er 1.9…

Varians for diskret stokastisk variabel Definition: Antag at X er en diskret stokastisk variabel med sandsynlighedsfunktion P(x). Da er variansen for X givet ved Ækvivalent er variansen givet ved

Varians: Eksempel x x2 P(x) xP(x) x2P(x) 0 0 0.1 0.0 0.0 1 0.2 0.2 0.2 0 0 0.1 0.0 0.0 1 0.2 0.2 0.2 4 0.4 0.8 1.6 3 9 0.3 0.9 2.7 1.0 1.9 4.5

Regneregler for middelværdi og varians Hvis X er en diskret stokastisk variabel, da er middelværdien for en funktion h(X) givet ved Regneregler for en lineær funktion af X : Lad Y = aX + b. Da er Y også en stokastisk variabel.

Eksempel Håndboldspiller er på resultatkontrakt! Pr kamp får han 10000kr plus 1500kr pr mål. Lad X være den stokastiske variabel, der svarer til antal mål scoret i èn kamp. Det vides at E[X] = 4.6 V[X] = 5.2 Hvad er den forventede udbetaling pr kamp? Variansen? Løn for en kamp: Y = 10000+1500 X E[B] = V[B] =

Binomial fordeling Binomial fordelingen er resultatet af et Binomialt eksperiment: Det Binomiale eksperiment består af et fast antal (n) forsøg. I hvert forsøg er der to mulige udfald, succes og fiasko. P(”succes”)=p, dvs. sandsynligheden for succes er den samme i hvert forsøg. (Ligeledes for P(”fiasko”)=1-p) Forsøgene er uafhængige Antallet af succeser følger da en binomial fordeling

Binomial fordeling - Eksempler Kast med en mønt n gange. S=(krone (succes), plat (fiasko)). Hvis fair mønt p=0,5. Sandsynligheden er konstant og forsøgene er uafhængige, da et møntkasts udfald ikke påvirker udfaldet af det næste kast Træk et kort n gange. S=(”spar (succes)”, ”andet (fiasko)”). P(spar)=0,25 er konstant, hvis vi lægger kortet tilbage i bunken igen, ellers ikke. Uafhængige. Bemærk! Uden tilbagelægning vil P(nummer 2 spar, hvis nummer 1 er en spar)= 12/51 og dermed ikke konstant sandsynlighed

Sandsynlighed for Sekvens Vi udfører n=5 uafhængige Bernoulli forsøg, hver med sandsynlighed p for succes. Lad ’S’ betegne succes og ’F’ betegne fiasko. Hvad er sandsynligheden for sekvensen af udfald Svar: hvor x er antallet af succeser. Bemærk: Sandsynligheden afhænger kun af antal succer - ikke hvornår i sekvenser de kommer. SSFSF Uafhængighed

Sandsynlighed for 3 Succeser I 5 Forsøg Vi har stadig n=5 uafhængige forsøg som før. Der er 25 = 32 mulige sekvenser af succeser og fiaskoer. Alle sekvenser med 3 succeser FFSSS FSFSS FSSFS FSSSF SFFSS SFSF SFSSF SSFFS SSFSF SSSFF Totalt 10 måder at får x=3 succeser i n=5 forsøg. Sandsynlighed for x=3 succeser er Antal sekvenser med 3 succeser Sandsynligheden for en given sekvens med 3 succeser

Antal Sekvenser Antag vi udfører n forsøg. Hvor mange forskellige sekvenser med x succeser findes der? Svar: hvor [n fakultet] Eksempel: n = 5 forsøg og x = 3 succeser. Binomial-koefficienten

Binomial fordelingen Definition: En diskret stokastisk variable X siges at følge en binomial fordeling med antalsparameter n og sandsynlighedsparameter p, hvis sandsynlighedsfunktionen for X er givet ved Notation: X ~ B(n,p) ”X følger en binomial-fordeling med…” Egenskaber: Middelværdi: m = E[X] = np Varians: s2 = V[X] = np(1-p)

Formen På Binomial-fordelingen Binomial-fordelingen bliver mere symmetrisk, når n øges og p → 0.5

Binomialfordelingen i R/R-cmdr Antal X ~ B(10,0.2) Vi kan udregne P(X=7) vha. kommandoen dbinom(x=7,size=10,prob=0.2) Alternativt kan man klikke sig frem vha. Distributions→Discrete dist.→Binomial→Binom. Prob. Man kan klikke sig frem til pinde-diagram for sandsyn. vha. Distributions→Discrete dist.→Binomial→Plot

Binomialfordelingen i R/R-cmdr Antal X ~ B(10,0.2) Vi kan den kumulerede sandsynlighed F(7) = P(X7) vha. kommandoen pbinom(q=7,size=10,prob=0.2) Alternativt kan man klikke sig frem vha. Distributions→Discrete dist.→Binomial→Binom. Prob. Man kan klikke sig frem til pinde-diagram for sandsyn. vha. Distributions→Discrete dist.→Binomial→Plot