Side Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger
Side Binomialfordeling Population: N G: ”Mærkede” : ”Ikke -mærkede” Stikprøve: n X: Antal ”mærkede” (n-x): Antal ”ikke-mærkede” Tilfældig udvælgelse Uden ordning Konstant udvælgelsessandsynlighed Stokastisk uafhængighed p: Udvælgelsessandsynligheden =
Side Binomialfordeling Binomial fordelingens forudsætninger – Tilfældig udvælgelse – Uden ordning – 2 muligheder (G eller ) – Population Uendelig, d.v.s. tilbagelægning har ingen betydning, eller Endelig population og med tilbagelægning – Forudsætningen omkring population / tilbagelægning Konstant udvælgelsessandsynlighed = p Stokastisk uafhængighed: – P(G 1 ∩ G 2 ) = P(G 1 ) P(G 2 ) = p·p= p 2
Side Eksempel: Hver 6. person anses for at have for højt blodtryk. Udtag tilfældigt n personer fra befolkningen, og mål antallet (X) i stikprøven med for højt blodtryk 2 udtaget 3 udtaget
Side Eksempel fortsat Hvad skal der stå på spørgsmålstegnets plads? Svar: 4 udtaget
Side Binomialfordeling – Sandsynlighedsfunktionen X~b(n,p): – E(X) = n·p og VAR(X)= n·p·(1-p)
Side Binomialfordelingers form
Side Hypergeometrisk fordeling Population: N (Endelig) G: ”Mærkede” : ”Ikke -mærkede” Stikprøve: n X: Antal ”mærkede” (n-x): Antal ”ikke-mærkede” Tilfældig udvælgelse Uden ordning Uden tilbagelægning Udvælgelsessandsynlighed ændrer sig Stokastisk afhængighed
Side Hypergeometrisk fordeling – Tilfældig udvælgelse – Endelig population – Uden tilbagelægning – Uden ordning – 2 muligheder (G eller ) – Stokastisk afhængighed Sandsynlighedsfunktion, P(X=x) E(X) og VAR(X) Approximation til binomialfordeling ved n/N<0,1 eller – n<0,1*G og n<0,1*(N-G) – se bogen side 76
Side Hypergeometrisk fordeling – Sandsynlighedsfunktionen h(N,G,n): Korrektionsfaktor for store stikprøver
Side Poisson fordeling Poisson fordelingens karakteristika – Baserer sig på binomialfordelingen, hvor n bliver meget stor og p meget lille, således at n*p holdes konstant. – Typisk ved måling af et antal hændelser, der sker indenfor et givet tidsrum – Der er ingen øvre grænse for det antal hændelser der kan ske indenfor det givne tidspunkt – Eksempler Antal fødsler over en dag på en given fødegang Antal biler, der kører for stærkt kl på et givet stykke vej. Kunder, der kommer frem til en kasse / går ind i en forretning de næste E minutter. Antal henvendelser i en help-desk over en dag Antal modtagne klager over en måned. – Typisk kommer hændelser i ’klumper’ – jf. ordsproget ”Én ulykke kommer sjældent alene”
Side Poisson fordeling Grundlaget er binomialfordelingen – et eksempel: – Til en tlf.central er på 180 minutter ankommet 270 kald, d.v.s. 1,5 kald pr. minut i gennemsnit – Hvad er sandsynligheden for, at der de næste 3 minutter kommer x antal kald – E(X) = 4,5 kald i de næste 3 minutter – Perioden på 3 minutter opdeles i n intervaller således at E(X)= n·p = 4,5, og således, at n → ∞ og p → 0 – Herved konvergerer binomialfordelingen mod poisson- fordelingen med parameteren λ = n ·p = 4,5
Side Poisson fordeling (ps) Sandsynlighedsfunktion ps(λ) – E(X) = λ og VAR(X)= λ – Approximation fra b(n,p) til ps(λ), når – n>50 og p< 0,1 (bogen side 78), evt. skærpet til – n>100 og p<0,1 (anden litteratur)
Side Poisson fordelingers form
Side Opgaver Opgavesamling i Statistik 2009 fra Statistica: – Opgave 22 – 28 – Opgave 34 spm. 1-3 og 35 spm. 1 Evt. BWH-Opgavesamling: – Opgavesæt U2 – opgave 1 og 2 side 35
Side Kontinuerte sandsynlighedsfordelinger Hvad er en kontinuert variabel? Normalfordelingen Den centrale grænseværdisætning Approximationer Χ 2 –fordelingen (læs: chi-i-anden) t-fordelingen F-fordelingen
Side Kontinuert stokastisk variabel Stokastisk variabel – Knytter en talværdi til ethvert udfald i et tilfældigt eksperiment – Sandsynligheder knyttes til værdierne af den stokastiske variable, men da en kontinuert variabel kan antage uendelig mange værdier er sandsynligheden for en enkelt af disse naturligvis 0. Sandsynligheder knyttes derfor til et interval – Tæthedsfunktion. Sandsynligheder beregnes som arealer. Arealet under hele kurven er 1 (100%) – Fordelingsfunktion – Interval-beregning
Side Forventning og varians Begrebsapparat – μ x = middelværdi på x - populationen – = gennemsnit. - stikprøven – σ 2 = Variansen - populationen – s 2 = Empirisk varians – (stikprøven) Forventning og varians:
Side Normalfordelingen, N(μ,σ 2 ) Kontinuert Klokkeformet og symmetrisk Tæthedsfunktion og fordelingsfunktion Standardisering Tabeller (Standardnormalfordelingen, Z~ N(0,1)) Approximation fra b(n,p) / ps(λ) – Approximationsbetingelse VAR(X) > 9 (se side 90) – Husk evt. kontinuitetskorrektion
Side Normalfordelingens former Hastigheder på biler måles på en bestemt vej og tidspunkt Hastigheden anta- ges normalfordelt med middelværdi 60 Fordelingens form ved forskellige vari- anser er vist overfor.
Side Standardisering – trin 1
Side Standardisering – trin 2
Side Standardisering
Side Opgaver Opgavesamling i Statistik 2009 fra Statistica: – Opgave 29 – 32 (vedr. Normalfordelingen) BWH-Opgavesamling : – Opgavesæt U2 – opgave 3 side 35
Side Grafisk kontrol Normalfraktildiagram Eksempel med de 55 indkøb i supermarked – Beregn fraktildiagram – Beregn z = NORMSINV i Excel på fraktilerne – Afsæt z og x (indkøbets størrelse) i et koordinatsystem
Side Normalfraktildiagram Normalfraktildiagram er en ret linie, hvis X ∼ N( , 2 ) Aflæsning af og på X-aksen ud for z = 0 hhv. 1
Side Opgaver BWH-Opgavesamling : – Opgavesæt U2 – opgave 4 side 153 – Opgavesæt U3 – opgave 6 side 156
Side Centrale grænseværdisætning (CGS) Lad X 1, X 2,….. X n være identisk fordelte og uafhængige stokastiske variable, hver med en middelværdi på og varians 2. Summen af de n stokastiske variable vil - når n er tilstrækkelig stor - være approximativ normalfordelt: Gennemsnittet vil derfor være
Side Binomialfordelingers form
Side Poisson fordelingers form
Side Fra b(n,p) til N(μ,σ 2 ) – (μ=np; σ 2 =np(1-p)) kontinuitetskorrektion P(X 14) Beregnes i a) binomialfordelingen som arealet af de blå søjler – d.v.s. området fra 13,5 og frem b) normalfordelingen som arealet under den bløde kurve fra 14 For at få samme re- sultat må beregnin- gen i Normalfordelin- gen også starte i 13,5 !
Side Afledte fordelinger Χ 2 v - fordelingen (chi-kvadrat) t v – fordelingen F v - fordelingen Sandsynligheder er afhængig af – v der kaldes antal frihedsgrader v er afhængig af stikprøvens størrelse Jo større v (stikprøve) jo mere kommer de 3 fordelinger til at ligne normalfordelingen, jf. CGS
Side Χ 2 – fordelingen Bruges bl.a. til undersøgelse (test) af, om – populationsvarianser har ændret sig – empiriske data følger en given sandsynlighedsfordeling (f.eks. Normalfordelingen) – Et datamateriale er repræsentativt – Der er afhængighed i krydstabuleringer Fordelingen er baseret på en kvadreret normalfordeling
Side Χ 2 – fordelingen
Side T-fordelingen Bruges bl.a. ved test på middelværdi, hvor populationsvariansen, σ 2 er ukendt T-fordelingen er symmetrisk omkring 0 Fladere end standardnormalfordelingen, Z~N(0, σ 2 ) – D.v.s. større standardafvigelse Afhænger af antal frihedsgrader, v=n-1 T-fordelingen Z~N(0,σ 2 ), når n ∞
Side F-fordelingen Bruges især, når vi tester på, om der er forskel på varianserne i 2 populationer Bemærk, at man altid sætter den største stikprøve- varians i tælleren!