Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable

Slides:



Advertisements
Lignende præsentationer
Kombinatorik, sandsynlighed og statistik
Advertisements

Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Hypotese test – kapitel 6 (Signifikans test)
Dummyvariabler 13. oktober 2006
Kombinatorik, sandsynlighed og statistik
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Statistik og sandsynlighedsregning
Statistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Matematikseminar foråret 2009
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 6
Statistik og sandsynlighedsregning
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Statistik og sandsynlighedsregning
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Program 1.Påmindelser Pivottabeller og pivotgrafer Omkodning af data (sortering, søg-erstat) Bevar de originale data og lav kontroller 2.Hvem er målgruppen.
Sandsynligheder Udfald og hændelser Sandsynligheder Additionsreglen
Statistik for geografer
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Bernoulli og binomial fordelingerne
Statistik Lektion 7 Hypotesetest og kritiske værdier
Kombinatorik, sandsynlighed og statistik
Økonometri – lektion 5 Multipel Lineær Regression
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Grundlæggende teoretisk statistik
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Statistik for geografer Lektion 6. Sandsynlighedsregning Statistisk eksperiment Udfald Udfaldsrum Hændelse Statistisk eksperiment Udfald Udfaldsrum Hændelse.
Økonometri – lektion 8 Multipel Lineær Regression
Introduktion Deskriptiv statistik Sandsynslighedregning
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Kombinatorik, sandsynlighed og statistik
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Simpel Lineær Regression
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Grundlæggende teoretisk statistik
Statistik Lektion 8 Test for ens varians.
Kvantitative metoder 2: F31 Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Normalfordelingen og Stikprøvefordelinger
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.
Statistik II 4. Lektion Logistisk regression.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Anvendt Statistik Lektion 6
Præsentationens transcript:

Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable

Repetition Population Stikprøve ∗ ∗ ∗ ∗ ∗ ∗ Stikprøve: ∙ Population ∙ Populationsstørrelse N Populationsmiddelværdi μ Populationsvarians σ2 Stikprøve Stikprøvestørrelse n Stikprøvemiddelværdi Stikprøvevarians s2

Repetition Udfaldsrum S Hændelse A ⊆ S Simpel hændelse Oi Regler: 0 ≤ P(A) ≤ 1 P(A) = Σ P(Oi) P(S) = 1 6 A ∩ B 1, 2 4, 5 A B S 3 Regler: P(∅) = 0 P(A⋃B) = P(A) + P(B) - P(A⋂B) P(A) = 1 - P(A)

Lov om Total Sandsynlighed Vha. B kan vi opdele A i to disjunkte dele. _ B B A

Eksempel – Lov om Totalsandsynlighed Kortspil – find sandsynligheden for at trække et billedkort, A: Det må være sandsynligheden for at trække en billedkort i Hjerter (H), Spar (S), Ruder (R) eller Klør (K): P(A)=P(A∩H) + P(A∩S) + P(A∩R) + P(A∩K) = 3/52 + 3/52 + 3/52 + 3/52 = 12/52 Hjerter Spar Ruder Klør A∩H A∩S A∩R A∩K A

Betinget sandsynlighed Den betingede sandsynlighed P(A|B) er sandsynligheden for hændelsen A, givet at vi ved at hændelsen B allerede er indtruffet: Ligeledes

Betinget sandsynlighed - intuition Antag alle udfald er lige sandsynlige, dvs. N = antal udfald i udfalds rum NA = antal udfald i hændelse A Hvad er sandsynligheden for A givet at B er indtruffet? ∙ S ∙ ∙ A ∙ ∙ B ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙

Eksempel: Sennep og Ketchup A = ”Bruger sennep” B = ”Bruger ketchup” A⋂B = ”Bruger både sennep og ketchup” P(A) = 75% P(B) = 80% P(A⋂B) = 65% Hvad er sandsynligheden for at en ketchupbruger bruger sennep?

Simultan og Marginal Sandsynlighed Simultan sandsynlighed er sandsynligheden for at en eller flere hændelser indtræffer simultant, fx P(A∩B) Marginale sandsynligheder beregnes ved at summere over rækker og søjler A Marginaler B P(A∩B) P(B) = P(A ∩B) + P(A ∩B) P(B) P(A) = P(A ∩B) + P(A ∩B) P(A) 1.0

Simultan og Marginal Sandsynlighed A = ”Bruger sennep” B = ”Bruger ketchup” P(A) = 75% P(B) = 80% P(A⋂B) = 65% A Marginaler B P(A∩B) = 0.65 P(A∩B) = P(B) =0.80 P(B) = P(A) = 0.75 P(A) 1.0

Multiplikationsregel Betinget sandsynlighed Omskrives til multiplikationsreglen Eksempel: Konsulent på jagt efter job A og job B. Sandsynligheden for at få job A er P(A) = 0.45. Givet at han får job A er sandsynligheden for at få job B P(B|A) = 0.9. Spørgsmål: Hvad er sandsynligheden for at konsulent får både job A og job B? Svar:

Uafhængighed To hændelser A og B er statistisk uafhængige, hvis og kun hvis Konsekvenser: Hvis A og B er statistisk uafhængige hændelser Fortolkning af P(B|A) = P(B): Selvom vi ved at A er indtruffet, ændrer det ikke på sandsynligheden for B.

Eksempel: Check for uafhængighed A = ”Kandidat er kvinde” B = ”Kandidat i økonomi” Vides: P(A) = 48% P(B) = 17.5% P(A⋂B) = 6% Spørgsmål: Er hændelserne A og B statistisk uafhængige? Svar: Hvis stat. uafh, så skal der gælde Check: P(A)P(B) = 0.48*0.175 = 0.084 ≠ 0.06 = P(A⋂B) Dvs. A og B er ikke statistisk uafhængige.

Bayes’ Sætning Betinget sandsynlighed Multiplikationsregel Kombineres til Bayes’ Sætning: Bemærk: De betingede sandsynligheder er ”vendt”.

Bayes’ Udvidede Sætning Hvis E1, E2, …, EK er disjunkte og udtømmende hændelser i S, så gælder Bayes’ Sætning (Lov om total sandsynlighed + multiplikationsreglen)

Bayes’ sætning: Test for sjælden sygdom En test for en sjælden sygdom, der rammer 0,1% af befolkningen (P(I)=0,001), er upræcis. Lad i det følgende: Sandsynligheden for at testen er positiv når man er syg: Sandsynligheden for at testen er positiv, når man er rask: Hvad er så sandsynligheden for at man er syg, givet at testen var positiv?

Stokastisk Variabel: Et eksempel Betragt de forskellig mulige ordninger af drenge (B) og piger (G) i fire fødsler. Der er 2*2*2*2=24 = 16 muligheder og udfaldsrummet er: BBBB BGBB GBBB GGBB BBBG BGBG GBBG GGBG BBGB BGGB GBGB GGGB BBGG BGGG GBGG GGGG Hvis pige og dreng er lige sandsynlige, [P(G) = P(B) = 1/2], og kønnet af hvert barn er uafhængig af kønnet på det foregående barn, så er sandsynligheden for hver af disse 16 muligheder: (1/2)(1/2)(1/2)(1/2) = 1/16.

Eksempel - fortsat Tæl antallet af piger i hver af de fire fødsler: BBBB (0) BGBB (1) GBBB (1) GGBB (2) BBBG (1) BGBG (2) GBBG (2) GGBG (3) BBGB (1) BGGB (2) GBGB (2) GGGB (3) BBGG (2) BGGG (3) GBGG (3) GGGG (4) Bemærk at: hvert mulig udfald tildeles en enkelt værdi værdierne, der tildeles varierer over de forskellige udfald Antallet af piger er en stokastisk variabel: En stokastisk variabel , X, er en funktion, der tildeler en enkelt, men variabel værdi til hvert element i udfaldsrummet.

Eksempel - fortsat X 1 2 3 4 Punkter på den reelle linie Udfalds rum BBBB BGBB GBBB BBBG BBGB GGBB GBBG BGBG BGGB GBGB BBGG BGGG GBGG GGGB GGBG GGGG 1 2 3 4 X Udfalds rum Punkter på den reelle linie

Stokastisk variabel - formel definition En stokastisk variabel X er en funktion defineret på S (udfaldsrummet), der antager værdier på R (reelle tal) I eksperimenter knyttes en talværdi til hvert udfald: Stokastiske variable kan enten være diskrete eller kontinuerte. Diskrete: Antager et endeligt antal værdier Kontinuerte: Antager værdier i en mængde af reelle tal X: S R X S oi R X(oi)

Eksempler på diskrete og kontinuerte variable Eksperiment Stokastisk variabel Type Kast med terning Antal øjne Diskret Kast med 2 terninger Sum af antal øjne Familie i Danmark Antal børn Indkomst Kontinuert Kvinder i Danmark Højde Baby Fødselsvægt Resten af denne forelæsning ser vi på diskrete stokastiske variable

Eksempel - fortsat Eksempel: Den stokastisk variabel X = 3 når de følgende fire hændelser BGGG, GBGG, GGBG, eller GGGB forekommer, P(X = 3) = P(BGGG) + P(GBGG) + P(GGBG) + P(GGGB) = 4/16 Sandsynligheds fordelingen af en stokastisk variabel er en tabel, der opskriver alle de mulige værdier af en stokastisk variabel og deres tilknyttede sandsynligheder. x P(X=x) For eksemplet: 0 1/16 1 4/16 2 6/16 3 4/16 4 1/16 16/16=1

Sandsynlighedsfordeling for antal piger i fire fødsler Eksempel - fortsat Sandsynlighedsfordeling for antal piger i fire fødsler Sandsynlighed, P(x) Antal piger, X

Sandsynligheds fordeling Definition: Lad X:S→R være en diskret stokastisk variabel. P(X=x) = P(x) er en sandsynligheds-fordeling (-funktion) for X, hvis: Notation: Store bogstaver (fx X) betegner stokastisk variable. Små bogstaver (fx x) betegner konkrete værdier af X.

Kumulativ fordelingsfunktion Den kumulative fordelingsfunktion, F(x), for en diskret stokastisk variabel X er: Kumulative fordelingsfunktions for antallet af piger ved 4 fødsler: x P(x) F(x) 0 1/16 1/16 1 4/16 5/16 2 6/16 11/16 3 4/16 15/16 4 1/16 16/16 1.00 1 . . 9 . 8 . 7 x ) . 6 ( F . 5 . 4 . 3 . 2 . 1 . 1 2 3 4 x

Eksempel - fortsat x P(x) F(x) 0 1/16 1/16 1 4/16 5/16 2 6/16 11/16 0 1/16 1/16 1 4/16 5/16 2 6/16 11/16 3 4/16 15/16 4 1/16 16/16 1.00

Middelværdi Middelværdien af en diskret stokastisk variabel X er givet ved: Dvs. summen af værdien gange sandsynligheden for værdien – et vægtet gennemsnit. Bemærk! Middelværdien for en stokastisk variabel kaldes også den forventede værdi.

Middelværdi - Eksempel x P(x) xP(x) 0 1/16 1 4/16 2 6/16 3 4/16 4 1/16 16/16=1 Eksempel: X er antal øjne ved terningkast. Dvs. P(X=1) = P(X=2) = … = P(X=6) =1/6. Den forventede værdi er:

Varians Variansen for en diskret stokastisk variabel er givet ved: Standard afvigelsen er kvadratroden af variansen:

Varians: Eksempel x x2 P(x) x2P(x) xP(x) 0 0 1/16 0 0 0 0 1/16 0 0 1 1 4/16 4/16 4/16 2 4 6/16 24/16 12/16 3 9 4/16 36/16 12/16 4 16 1/16 16/16 4/16 1 80/16 32/16

Regneregler for middelværdi og varians Hvis X er en diskret stokastisk variabel, da er middelværdien for en funktion h(X) givet ved Regneregler for en lineær funktion af X :

Eksempel Håndboldspiller er på resultatkontrakt, hvor han får 1500kr i bonus pr mål. Lad X være den stokastiske variabel, der svarer til antal mål scoret i èn kamp. Det vides at E[X] = 4.6 V[X] = 5.2 Hvad er den forventede bonus pr kamp? Variansen? Bonus pr kamp: B = 1500 X E[B] = V[B] =

Simultan Sandsynlighedsfordeling Hvis X og Y er to stokastiske variable, så er P(X=x,Y=y) = P(x,y) en simultan sandsynlighedsfunktion for X og Y, hvis Den Marginal sandsynlighedsfordeling er (joint probability function)

Eksempel: Alder og Salg Sammenhæng mellem aldersgruppe (X) og købsmønster (Y): Aldergruppe (X) Købs-mønster (Y) 1 (16 til 25) 2 (26 til 45) 3 (46 til 65) P(y) 1 (køb) 0.10 0.20 0.40 2 (ej køb) 0.25 0.60 P(x) 0.35 0.45 1.00

Betinget Sandsynligheder for SV For to diskrete stokastiske variable er den betingede sandsynligheden for X=x givet Y=y givet ved Eksempel: Betingede sandsynlighed for køb (Eksempel: Betingede sandsynlighed for køb (Y=1) givet kund i aldergruppen 26 til 45 (X = 2). Svar: P(X=2,Y=1) = P(2,1) = 0.20 og P(X=2) = 0.45

Uafhængighed To diskrete stokastiske variable X og Y er uafhængige hvis og kun hvis for alle x og y, hvor P(x) og P(y) er de marginale sandsynligheds-funktioner. Eksempel: Er aldersgruppe og købsmønster uafhængige? Svar: Dvs. der er ikke uafhængighed.

Kovarians X stokastisk variabel med forventet værdi μX Y stokastisk variabel med forventet værdi μY Kovariansen mellem X og Y er givet ved Hvis X og Y har diskrete stokastiske variable med simultan sandsynligheds funktion P(x,y), så er kovariansen givet ved

Middelværdi og Varians for Par af Stokastiske Variable Lad X være SV med forventet værdi mx og varians s2X Lad Y være SV med forventet værdi mY og varians s2Y Da gælder Eksempler: E[X+Y] = V[X+Y] = E[X-Y] = V[X-Y] =

Regneregler for middelværdi og varians Middelværdien af en linearkombination af stokastiske variable X1,X2,…,Xk. Hvis X1,X2,…,Xk er indbyrdes uafhængige, så: