Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel

Slides:



Advertisements
Lignende præsentationer
Kombinatorik, sandsynlighed og statistik
Advertisements

Hypotese test – kapitel 6 (Signifikans test)
Dummyvariabler 13. oktober 2006
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Statistik og sandsynlighedsregning
Statistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Matematikseminar foråret 2009
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Side Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger.
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 6
Statistik og sandsynlighedsregning
Statistik og sandsynlighedsregning
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Man siger at X er binomialfordelt med
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Sandsynligheder Udfald og hændelser Sandsynligheder Additionsreglen
Statistik for geografer
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 7
Agenda Informationer Opsamling fra sidst Normalfordelingen
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Bernoulli og binomial fordelingerne
Kombinatorik, sandsynlighed og statistik
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Grundlæggende teoretisk statistik
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Statistik for geografer Lektion 6. Sandsynlighedsregning Statistisk eksperiment Udfald Udfaldsrum Hændelse Statistisk eksperiment Udfald Udfaldsrum Hændelse.
Økonometri – lektion 8 Multipel Lineær Regression
Introduktion Deskriptiv statistik Sandsynslighedregning
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Kombinatorik, sandsynlighed og statistik
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable
Simpel Lineær Regression
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Statistik Lektion 8 Test for ens varians.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statistik II 4. Lektion Logistisk regression.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Stikprøve uden tilbagelægning - Hypergeometrisk fordeling
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Repetition Udfaldsrum S Hændelse A ⊆ S Simpel hændelse Oi Regler: 0 ≤ P(A) ≤ 1 P(A) = Σ P(Oi) P(S) = 1 6 A ∩ B 1, 2 4, 5 A B S 3 Regler: P(∅) = 0 P(A⋃B) = P(A) + P(B) - P(A⋂B) P(A) = 1 - P(A)

Lov om Total Sandsynlighed Vha. B kan vi opdele A i to disjunkte dele. _ B B A

Lov om total sandsynlighed E1 , … , Ek er en disjunkte og udtømmende hændelser i S E3 E5 E1 A E6 E2 Lov om total sandsynlighed: lecture 1

Betinget sandsynlighed Definition: Den betingede sandsynlighed P(A|B) er sandsynligheden for hændelsen A, givet at vi ved at hændelsen B allerede er indtruffet: Det gælder også når vi ombytter A og B

Betinget sandsynlighed - intuition Antag alle udfald er lige sandsynlige, dvs. N = antal udfald i udfalds rum NA = antal udfald i hændelse A Hvad er sandsynligheden for A givet at B er indtruffet? ∙ S ∙ ∙ A ∙ ∙ B ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙

Betinget sandsynlighed - Eksempel I arbejde Arbejdsløs Total Mand 460 40 500 Kvinde 140 260 400 600 300 900 Eksempel: Køns-fordeling af arbejdsløse/ikke-arbejdsløse med studentereksamen i en lille by

Multiplikationsregel Betinget sandsynlighed Af betingede sandsynlighed følger multiplikationsreglen : Eksempel: Konsulent på jagt efter job A og job B. Sandsynligheden for at få job A er P(A) = 0.45. Givet at han får job A er sandsynligheden for at få job B P(B|A) = 0.9. Spørgsmål: Hvad er sandsynligheden for at konsulent får både job A og job B? Svar:

Uafhængighed Definition: To hændelser A og B er statistisk uafhængige, hvis og kun hvis Konsekvenser: Hvis A og B er statistisk uafhængige hændelser Fortolkning af P(B|A) = P(B): Selvom vi ved at A er indtruffet, ændrer det ikke på sandsynligheden for B.

Tjek for uafhængighed Eksempel: I arbejde Arbejdsløs Total Mand 460 40 500 Kvinde 140 260 400 600 300 900 Spørgsmål: Er hændelserne ”Mand” og ”I arbejde” uafhængige? Dvs. de to hændelser “Mand” og “I arbejde” er afhængige

Bayes’ sætning Defintion: Hvis A og B er hændelser, da siger Bayes’ sætning: under antagelse af P(A)>0. Sætningen følger umiddelbart af at kombinere betinget sandsynlighed med multiplikationsreglen og lov om total sandsynlighed.

Bayes’ sætning (udvidet) Defintion: Hvis E1, E2, …, EK er disjunkte og udtømmende hændelser i S, så siger Bayes’ sætning under antagelse af P(A)>0.

Bayes’ sætning: Test for sjælden sygdom En test for en sjælden sygdom, der rammer 0,1% af befolkningen (P( I )=0,001), er upræcis. Lad i det følgende: Sandsynligheden for at testen er positiv når man er syg: Sandsynligheden for at testen er positiv, når man er rask: Hvad er så sandsynligheden for at man er syg, givet at testen var positiv?

Stokastisk variabel I et eksperiment kan man ofte knytte en talværdi til hvert udfald S s X(s) R Definition: En stokastisk variabel X er en funktion defineret på S, der antager værdier på den reelle akse X: S  R Mulige udfald Reelle tal lektion 2

Stokastiske variable Eksempler: Stokastisk variable Type Antallet af øjne ved kast med en terning diskret Summen ved kast af to terninger diskret Antallet af børn i en familie diskret Alder af en førstegangsfødende kvinde diskret Tid det tager at løbe fem km kontinuert Mængde af sukker i en sodavand kontinuert Højde af mænd kontinuert tælle måle Diskret: antager et endeligt antal værdier eller et uendeligt men tælleligt antal værdier. Kontinuert: antager værdier i en mængde af reelle tal. lektion 2

Sandsynlighedsfunktion Definition: Lad X : S  R være en diskret stokastisk variabel. Funktionen P(x) er en sandsynlighedsfunktion for X, hvis 1. P(x)  0 for alle x 2. 3. P(X = x) = P(x), hvor P(X = x) er sandsynligheden for de udfald sS : X(s) = x. lektion 2

Sandsynlighedsfunktion: Eksempel Lad den stokastiske variabel X være antallet af solgte sandwich i løbet af en time. Sandsynlighedsfunktionen der hører til X er x P(x) 0 0.1 1 0.2 2 0.4 3 0.3 1.0

Kumulativ fordelingsfunktion Definition: Den kumulative fordelingsfunktion, F(x), for en diskret stokastisk variabel X er: Kumulative fordelingsfunktions for antallet af solgte sandwich: x P(x) F(x) 0 0.1 0.1 1 0.2 0.3 2 0.4 0.7 3 0.3 1.0 1.0 0.4

Eksempel - fortsat x P(x) F(x) 0 0.1 0.1 0.2 0.3 0.4 0.7 3 0.3 1.0 1.0

Middelværdi Definition: Antag X er en diskret stokastisk variabel med sandsynlighedsfunktion P(x). Da er Middelværdien for X er givet ved: Dvs. summen af hver mulig værdi af X ganget med den tilsvarende sandsynlighed – et vægtet gennemsnit. Bemærk! Middelværdien for en stokastisk variabel kaldes også den forventede værdi.

Middelværdi - Eksempel x P(x) xP(x) 0 0.1 0.0 0.2 0.2 0.4 0.8 3 0.3 0.9 1.0 1.9 Konklusion: Dvs. middelværdien af den stokastiske variabel er 1.9 Det forventede antal solgte sandwich er 1.9…

Varians for diskret stokastisk variabel Definition: Antag at X er en diskret stokastisk variabel med sandsynlighedsfunktion P(x). Da er variansen for X givet ved Ækvivalent er variansen givet ved

Varians: Eksempel x x2 P(x) xP(x) x2P(x) 0 0 0.1 0.0 0.0 1 0.2 0.2 0.2 0 0 0.1 0.0 0.0 1 0.2 0.2 0.2 4 0.4 0.8 1.6 3 9 0.3 0.9 2.7 1.0 1.9 4.5

Regneregler for middelværdi og varians Hvis X er en diskret stokastisk variabel, da er middelværdien for en funktion h(X) givet ved Regneregler for en lineær funktion af X : Lad Y = aX + b. Da er Y også en stokastisk variabel.

Eksempel Håndboldspiller er på resultatkontrakt! Pr kamp får han 10000kr plus 1500kr pr mål. Lad X være den stokastiske variabel, der svarer til antal mål scoret i èn kamp. Det vides at E[X] = 4.6 V[X] = 5.2 Hvad er den forventede udbetaling pr kamp? Variansen? Løn for en kamp: Y = 10000 + 1500 X E[B] = V[B] =

Binomial fordeling Binomial-fordelingen er resultatet af et Binomialt eksperiment: Det Binomiale eksperiment består af et fast antal (n) forsøg. I hvert forsøg er der to mulige udfald, succes og fiasko. P(”succes”)=p, dvs. sandsynligheden for succes er den samme i hvert forsøg. (Ligeledes for P(”fiasko”)=1-p) Forsøgene er uafhængige Antallet af succeser følger da en binomial fordeling

Binomial fordeling - Eksempler Kast med en mønt n gange. S=(krone (succes), plat (fiasko)). Hvis fair mønt p=0,5. Sandsynligheden er konstant og forsøgene er uafhængige, da et møntkasts udfald ikke påvirker udfaldet af det næste kast Træk et kort n gange. S=(”spar (succes)”, ”andet (fiasko)”). P(spar)=0,25 er konstant, hvis vi lægger kortet tilbage i bunken igen, ellers ikke. Uafhængige. Bemærk! Uden tilbagelægning vil P(nummer 2 spar, hvis nummer 1 er en spar)= 12/51 og dermed ikke konstant sandsynlighed

Sandsynlighed for Sekvens Vi udfører n = 5 uafhængige Bernoulli forsøg, hver med sandsynlighed p for succes. Lad ’S’ betegne succes og ’F’ betegne fiasko. Hvad er sandsynligheden for sekvensen af udfald Svar: hvor x er antallet af succeser. Bemærk: Sandsynligheden afhænger kun af antal succer - ikke hvornår i sekvenser de kommer. SSFSF Uafhængighed

Sandsynlighed for 3 Succeser I 5 Forsøg Vi har stadig n = 5 uafhængige forsøg som før. Der er 25 = 32 mulige sekvenser af succeser og fiaskoer. Alle sekvenser med 3 succeser FFSSS FSFSS FSSFS FSSSF SFFSS SFSF SFSSF SSFFS SSFSF SSSFF Totalt 10 måder at får x = 3 succeser i n = 5 forsøg. Sandsynlighed for x=3 succeser er Antal sekvenser med 3 succeser Sandsynligheden for en given sekvens med 3 succeser

Antal Sekvenser Antag vi udfører n forsøg. Hvor mange forskellige sekvenser med x succeser findes der? Svar: hvor [”n fakultet”] Eksempel: n = 5 forsøg og x = 3 succeser. Binomial-koefficienten

Binomial fordelingen Definition: En diskret stokastisk variable X siges at følge en binomial fordeling med antalsparameter n og sandsynlighedsparameter p, hvis sandsynlighedsfunktionen for X er givet ved Notation: X ~ B(n,p) ”X følger en binomial-fordeling med…” Egenskaber: Middelværdi: m = E[X] = np Varians: s2 = V[X] = np(1-p)

Formen På Binomial-fordelingen Binomial-fordelingen bliver mere symmetrisk, når n øges og p → 0.5

Binomialfordelingen i R Antal X ~ B(10,0.2) Vi kan udregne P(X=7) vha. kommandoen dbinom(x=7,size=10,prob=0.2) Vi kan plotte sandsynlighedsfunktionen plot(0:10, dbinom(x=0:10,size=10,prob=0.2),type="h")

Binomialfordelingen i R Antal X ~ B(10,0.2) Vi kan den kumulerede sandsynlighed F(7) = P(X7) vha. kommandoen pbinom(q=7,size=10,prob=0.2) Vi kan plotte den kumulerede sandsynlighed vha. kommandoen plot(0:10, pbinom(q=0:10,size=10,prob=0.2),type="s")

Binomialfordelingen i R Antal X ~ B(10,0.2) Vi kan simulere 100 realisationer af X vha. kommandoen x = rbinom(n=100,size=10,prob=0.2) Vi kan plotte resultat fx. som et histogram hist(x,breaks=seq(-0.5,7.5,by=1),freq=F) lines(0:10, dbinom(x=0:10,size=10,prob=0.2),type="h") Linjerne angiver sandsynligheds-funktionen for B(10,0.2)