Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Side 1 18.09.2009 Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger.

Lignende præsentationer


Præsentationer af emnet: "Side 1 18.09.2009 Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger."— Præsentationens transcript:

1 Side 1 18.09.2009 Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger

2 Side 2 21-08-2008 Binomialfordeling Population: N G: ”Mærkede” : ”Ikke -mærkede” Stikprøve: n X: Antal ”mærkede” (n-x): Antal ”ikke-mærkede” Tilfældig udvælgelse Uden ordning Konstant udvælgelsessandsynlighed Stokastisk uafhængighed p: Udvælgelsessandsynligheden =

3 Side 3 21-08-2008 Binomialfordeling Binomial fordelingens forudsætninger – Tilfældig udvælgelse – Uden ordning – 2 muligheder (G eller ) – Population Uendelig, d.v.s. tilbagelægning har ingen betydning, eller Endelig population og med tilbagelægning – Forudsætningen omkring population / tilbagelægning  Konstant udvælgelsessandsynlighed = p Stokastisk uafhængighed: – P(G 1 ∩ G 2 ) = P(G 1 ) P(G 2 ) = p·p= p 2

4 Side 4 21-08-2008 Eksempel: Hver 6. person anses for at have for højt blodtryk. Udtag tilfældigt n personer fra befolkningen, og mål antallet (X) i stikprøven med for højt blodtryk 2 udtaget 3 udtaget

5 Side 5 21-08-2008 Eksempel fortsat Hvad skal der stå på spørgsmålstegnets plads? Svar: 4 udtaget

6 Side 6 21-08-2008 Binomialfordeling – Sandsynlighedsfunktionen X~b(n,p): – E(X) = n·p og VAR(X)= n·p·(1-p)

7 Side 7 21-08-2008 Binomialfordelingers form

8 Side 8 21-08-2008 Hypergeometrisk fordeling Population: N (Endelig) G: ”Mærkede” : ”Ikke -mærkede” Stikprøve: n X: Antal ”mærkede” (n-x): Antal ”ikke-mærkede” Tilfældig udvælgelse Uden ordning Uden tilbagelægning Udvælgelsessandsynlighed ændrer sig Stokastisk afhængighed

9 Side 9 21-08-2008 Hypergeometrisk fordeling – Tilfældig udvælgelse – Endelig population – Uden tilbagelægning – Uden ordning – 2 muligheder (G eller ) – Stokastisk afhængighed Sandsynlighedsfunktion, P(X=x) E(X) og VAR(X) Approximation til binomialfordeling ved n/N<0,1 eller – n<0,1*G og n<0,1*(N-G) – se bogen side 76

10 Side 10 21-08-2008 Hypergeometrisk fordeling – Sandsynlighedsfunktionen h(N,G,n): Korrektionsfaktor for store stikprøver

11 Side 11 21-08-2008 Poisson fordeling Poisson fordelingens karakteristika – Baserer sig på binomialfordelingen, hvor n bliver meget stor og p meget lille, således at n*p holdes konstant. – Typisk ved måling af et antal hændelser, der sker indenfor et givet tidsrum – Der er ingen øvre grænse for det antal hændelser der kan ske indenfor det givne tidspunkt – Eksempler Antal fødsler over en dag på en given fødegang Antal biler, der kører for stærkt kl. 16-17 på et givet stykke vej. Kunder, der kommer frem til en kasse / går ind i en forretning de næste E minutter. Antal henvendelser i en help-desk over en dag Antal modtagne klager over en måned. – Typisk kommer hændelser i ’klumper’ – jf. ordsproget ”Én ulykke kommer sjældent alene”

12 Side 12 21-08-2008 Poisson fordeling Grundlaget er binomialfordelingen – et eksempel: – Til en tlf.central er på 180 minutter ankommet 270 kald, d.v.s. 1,5 kald pr. minut i gennemsnit – Hvad er sandsynligheden for, at der de næste 3 minutter kommer x antal kald – E(X) = 4,5 kald i de næste 3 minutter – Perioden på 3 minutter opdeles i n intervaller således at E(X)= n·p = 4,5, og således, at n → ∞ og p → 0 – Herved konvergerer binomialfordelingen mod poisson- fordelingen med parameteren λ = n ·p = 4,5

13 Side 13 21-08-2008 Poisson fordeling (ps) Sandsynlighedsfunktion ps(λ) – E(X) = λ og VAR(X)= λ – Approximation fra b(n,p) til ps(λ), når – n>50 og p< 0,1 (bogen side 78), evt. skærpet til – n>100 og p<0,1 (anden litteratur)

14 Side 14 21-08-2008 Poisson fordelingers form

15 Side 15 21-08-2008 Opgaver Opgavesamling i Statistik 2009 fra Statistica: – Opgave 22 – 28 – Opgave 34 spm. 1-3 og 35 spm. 1 Evt. BWH-Opgavesamling: – Opgavesæt U2 – opgave 1 og 2 side 35

16 Side 16 21-08-2008 Kontinuerte sandsynlighedsfordelinger Hvad er en kontinuert variabel? Normalfordelingen Den centrale grænseværdisætning Approximationer Χ 2 –fordelingen (læs: chi-i-anden) t-fordelingen F-fordelingen

17 Side 17 21-08-2008 Kontinuert stokastisk variabel Stokastisk variabel – Knytter en talværdi til ethvert udfald i et tilfældigt eksperiment – Sandsynligheder knyttes til værdierne af den stokastiske variable, men da en kontinuert variabel kan antage uendelig mange værdier er sandsynligheden for en enkelt af disse naturligvis 0. Sandsynligheder knyttes derfor til et interval – Tæthedsfunktion. Sandsynligheder beregnes som arealer. Arealet under hele kurven er 1 (100%) – Fordelingsfunktion – Interval-beregning

18 Side 18 21-08-2008 Forventning og varians Begrebsapparat – μ x = middelværdi på x - populationen – = gennemsnit. - stikprøven – σ 2 = Variansen - populationen – s 2 = Empirisk varians – (stikprøven) Forventning og varians:

19 Side 19 21-08-2008 Normalfordelingen, N(μ,σ 2 ) Kontinuert Klokkeformet og symmetrisk Tæthedsfunktion og fordelingsfunktion Standardisering Tabeller (Standardnormalfordelingen, Z~ N(0,1)) Approximation fra b(n,p) / ps(λ) – Approximationsbetingelse VAR(X) > 9 (se side 90) – Husk evt. kontinuitetskorrektion

20 Side 20 21-08-2008 Normalfordelingens former Hastigheder på biler måles på en bestemt vej og tidspunkt Hastigheden anta- ges normalfordelt med middelværdi 60 Fordelingens form ved forskellige vari- anser er vist overfor.

21 Side 21 21-08-2008 Standardisering – trin 1

22 Side 22 21-08-2008 Standardisering – trin 2

23 Side 23 21-08-2008 Standardisering

24 Side 24 21-08-2008 Opgaver Opgavesamling i Statistik 2009 fra Statistica: – Opgave 29 – 32 (vedr. Normalfordelingen) BWH-Opgavesamling : – Opgavesæt U2 – opgave 3 side 35

25 Side 25 21-08-2008 Grafisk kontrol Normalfraktildiagram Eksempel med de 55 indkøb i supermarked – Beregn fraktildiagram – Beregn z = NORMSINV i Excel på fraktilerne – Afsæt z og x (indkøbets størrelse) i et koordinatsystem

26 Side 26 21-08-2008 Normalfraktildiagram Normalfraktildiagram er en ret linie, hvis X ∼ N( ,  2 ) Aflæsning af  og  på X-aksen ud for z = 0 hhv. 1

27 Side 27 21-08-2008 Opgaver BWH-Opgavesamling : – Opgavesæt U2 – opgave 4 side 153 – Opgavesæt U3 – opgave 6 side 156

28 Side 28 21-08-2008 Centrale grænseværdisætning (CGS) Lad X 1, X 2,….. X n være identisk fordelte og uafhængige stokastiske variable, hver med en middelværdi på  og varians  2. Summen af de n stokastiske variable vil - når n er tilstrækkelig stor - være approximativ normalfordelt: Gennemsnittet vil derfor være

29 Side 29 21-08-2008 Binomialfordelingers form

30 Side 30 21-08-2008 Poisson fordelingers form

31 Side 31 21-08-2008 Fra b(n,p) til N(μ,σ 2 ) – (μ=np; σ 2 =np(1-p)) kontinuitetskorrektion P(X  14) Beregnes i a) binomialfordelingen som arealet af de blå søjler – d.v.s. området fra 13,5 og frem b) normalfordelingen som arealet under den bløde kurve fra 14 For at få samme re- sultat må beregnin- gen i Normalfordelin- gen også starte i 13,5 !

32 Side 32 21-08-2008 Afledte fordelinger Χ 2 v - fordelingen (chi-kvadrat) t v – fordelingen F v - fordelingen Sandsynligheder er afhængig af – v der kaldes antal frihedsgrader v er afhængig af stikprøvens størrelse Jo større v (stikprøve) jo mere kommer de 3 fordelinger til at ligne normalfordelingen, jf. CGS

33 Side 33 21-08-2008 Χ 2 – fordelingen Bruges bl.a. til undersøgelse (test) af, om – populationsvarianser har ændret sig – empiriske data følger en given sandsynlighedsfordeling (f.eks. Normalfordelingen) – Et datamateriale er repræsentativt – Der er afhængighed i krydstabuleringer Fordelingen er baseret på en kvadreret normalfordeling

34 Side 34 21-08-2008 Χ 2 – fordelingen

35 Side 35 21-08-2008 T-fordelingen Bruges bl.a. ved test på middelværdi, hvor populationsvariansen, σ 2 er ukendt T-fordelingen er symmetrisk omkring 0 Fladere end standardnormalfordelingen, Z~N(0, σ 2 ) – D.v.s. større standardafvigelse Afhænger af antal frihedsgrader, v=n-1 T-fordelingen  Z~N(0,σ 2 ), når n  ∞

36 Side 36 21-08-2008 F-fordelingen Bruges især, når vi tester på, om der er forskel på varianserne i 2 populationer Bemærk, at man altid sætter den største stikprøve- varians i tælleren!


Download ppt "Side 1 18.09.2009 Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger."

Lignende præsentationer


Annoncer fra Google