Side 1 18.09.2009 Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger.

Slides:



Advertisements
Lignende præsentationer
Kombinatorik, sandsynlighed og statistik
Advertisements

DASG, ODENSE HYPOTESETEST: DEN EKSPERIMENTELLE METODE
Grundforløbsevaluering elever 2006/ elevsvar 2007/ elevsvar 2008/ elevsvar 2009/10 – 160 elevsvar.
Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt
Anvendt Statistik Lektion 4
Statistik og sandsynlighedsregning
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
 Introduktion til dagen  Afleveringen  Flere Hypoteser  Stikprøver  Evaluering.
Matematikseminar foråret 2009
Akademi Merkonomer Statistik Aften 3
KM2: F221 Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007.
Statistik Lektion 3 Simultan fordelte stokastiske variable
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Statistik og sandsynlighedsregning
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Case.
Anvendt Statistik Lektion 2
Signifikanstest ved (en eller) to stikprøver
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Dagens program Test of Independence (chi-i-anden) Videre med projekt 3
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Sandsynligheder Udfald og hændelser Sandsynligheder Additionsreglen
Statistik for geografer
Globaliseringsredegørelse 18.mar. 11 Kapitel 2 - Viden og kompetencer Globaliseringsredegørelsen 2011.
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Grundlæggende teoretisk statistik
Statistik for geografer
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Økonomistyring og budgettering
Side Driftsøkonomi Kapitel 13 Prispolitik.
Økonomistyring og budgettering
Statistik for geografer
Statistik for geografer
Økonometri 1 Gentagne tværsnit og panel data I 13. november 2006.
Bernoulli og binomial fordelingerne
Kombinatorik, sandsynlighed og statistik
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Kapitel 5 Lineære DB-modeller
Grundlæggende teoretisk statistik
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Eksamen 2009 D. Stokastiske eksperimenter P(”At slå en sekser”) P(”At slå en femmer”) P(”At trække en dame”) P(”At føde en dreng”) P(X=4) = 0,20, når.
Statistik for geografer Lektion 6. Sandsynlighedsregning Statistisk eksperiment Udfald Udfaldsrum Hændelse Statistisk eksperiment Udfald Udfaldsrum Hændelse.
Kombinatorik, sandsynlighed og statistik
Kapitel 6 Produktionsteori
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Grundlæggende teoretisk statistik
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: F151 Økonometri 1 Specifikation og dataproblemer 10. november 2006.
Grundlæggende teoretisk statistik
Kapitel 16 Logistik og Lagerteori
Økonomistyring og budgettering
Statistik Lektion 8 Test for ens varians.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Normalfordelingen og Stikprøvefordelinger
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statistik for geografer
KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.
Kapitel 9: Velfærdsstaten og ulighed
Stikprøve uden tilbagelægning - Hypergeometrisk fordeling
Anvendt Statistik af Kenneth Hansen
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Side Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger

Side Binomialfordeling Population: N G: ”Mærkede” : ”Ikke -mærkede” Stikprøve: n X: Antal ”mærkede” (n-x): Antal ”ikke-mærkede” Tilfældig udvælgelse Uden ordning Konstant udvælgelsessandsynlighed Stokastisk uafhængighed p: Udvælgelsessandsynligheden =

Side Binomialfordeling Binomial fordelingens forudsætninger – Tilfældig udvælgelse – Uden ordning – 2 muligheder (G eller ) – Population Uendelig, d.v.s. tilbagelægning har ingen betydning, eller Endelig population og med tilbagelægning – Forudsætningen omkring population / tilbagelægning  Konstant udvælgelsessandsynlighed = p Stokastisk uafhængighed: – P(G 1 ∩ G 2 ) = P(G 1 ) P(G 2 ) = p·p= p 2

Side Eksempel: Hver 6. person anses for at have for højt blodtryk. Udtag tilfældigt n personer fra befolkningen, og mål antallet (X) i stikprøven med for højt blodtryk 2 udtaget 3 udtaget

Side Eksempel fortsat Hvad skal der stå på spørgsmålstegnets plads? Svar: 4 udtaget

Side Binomialfordeling – Sandsynlighedsfunktionen X~b(n,p): – E(X) = n·p og VAR(X)= n·p·(1-p)

Side Binomialfordelingers form

Side Hypergeometrisk fordeling Population: N (Endelig) G: ”Mærkede” : ”Ikke -mærkede” Stikprøve: n X: Antal ”mærkede” (n-x): Antal ”ikke-mærkede” Tilfældig udvælgelse Uden ordning Uden tilbagelægning Udvælgelsessandsynlighed ændrer sig Stokastisk afhængighed

Side Hypergeometrisk fordeling – Tilfældig udvælgelse – Endelig population – Uden tilbagelægning – Uden ordning – 2 muligheder (G eller ) – Stokastisk afhængighed Sandsynlighedsfunktion, P(X=x) E(X) og VAR(X) Approximation til binomialfordeling ved n/N<0,1 eller – n<0,1*G og n<0,1*(N-G) – se bogen side 76

Side Hypergeometrisk fordeling – Sandsynlighedsfunktionen h(N,G,n): Korrektionsfaktor for store stikprøver

Side Poisson fordeling Poisson fordelingens karakteristika – Baserer sig på binomialfordelingen, hvor n bliver meget stor og p meget lille, således at n*p holdes konstant. – Typisk ved måling af et antal hændelser, der sker indenfor et givet tidsrum – Der er ingen øvre grænse for det antal hændelser der kan ske indenfor det givne tidspunkt – Eksempler Antal fødsler over en dag på en given fødegang Antal biler, der kører for stærkt kl på et givet stykke vej. Kunder, der kommer frem til en kasse / går ind i en forretning de næste E minutter. Antal henvendelser i en help-desk over en dag Antal modtagne klager over en måned. – Typisk kommer hændelser i ’klumper’ – jf. ordsproget ”Én ulykke kommer sjældent alene”

Side Poisson fordeling Grundlaget er binomialfordelingen – et eksempel: – Til en tlf.central er på 180 minutter ankommet 270 kald, d.v.s. 1,5 kald pr. minut i gennemsnit – Hvad er sandsynligheden for, at der de næste 3 minutter kommer x antal kald – E(X) = 4,5 kald i de næste 3 minutter – Perioden på 3 minutter opdeles i n intervaller således at E(X)= n·p = 4,5, og således, at n → ∞ og p → 0 – Herved konvergerer binomialfordelingen mod poisson- fordelingen med parameteren λ = n ·p = 4,5

Side Poisson fordeling (ps) Sandsynlighedsfunktion ps(λ) – E(X) = λ og VAR(X)= λ – Approximation fra b(n,p) til ps(λ), når – n>50 og p< 0,1 (bogen side 78), evt. skærpet til – n>100 og p<0,1 (anden litteratur)

Side Poisson fordelingers form

Side Opgaver Opgavesamling i Statistik 2009 fra Statistica: – Opgave 22 – 28 – Opgave 34 spm. 1-3 og 35 spm. 1 Evt. BWH-Opgavesamling: – Opgavesæt U2 – opgave 1 og 2 side 35

Side Kontinuerte sandsynlighedsfordelinger Hvad er en kontinuert variabel? Normalfordelingen Den centrale grænseværdisætning Approximationer Χ 2 –fordelingen (læs: chi-i-anden) t-fordelingen F-fordelingen

Side Kontinuert stokastisk variabel Stokastisk variabel – Knytter en talværdi til ethvert udfald i et tilfældigt eksperiment – Sandsynligheder knyttes til værdierne af den stokastiske variable, men da en kontinuert variabel kan antage uendelig mange værdier er sandsynligheden for en enkelt af disse naturligvis 0. Sandsynligheder knyttes derfor til et interval – Tæthedsfunktion. Sandsynligheder beregnes som arealer. Arealet under hele kurven er 1 (100%) – Fordelingsfunktion – Interval-beregning

Side Forventning og varians Begrebsapparat – μ x = middelværdi på x - populationen – = gennemsnit. - stikprøven – σ 2 = Variansen - populationen – s 2 = Empirisk varians – (stikprøven) Forventning og varians:

Side Normalfordelingen, N(μ,σ 2 ) Kontinuert Klokkeformet og symmetrisk Tæthedsfunktion og fordelingsfunktion Standardisering Tabeller (Standardnormalfordelingen, Z~ N(0,1)) Approximation fra b(n,p) / ps(λ) – Approximationsbetingelse VAR(X) > 9 (se side 90) – Husk evt. kontinuitetskorrektion

Side Normalfordelingens former Hastigheder på biler måles på en bestemt vej og tidspunkt Hastigheden anta- ges normalfordelt med middelværdi 60 Fordelingens form ved forskellige vari- anser er vist overfor.

Side Standardisering – trin 1

Side Standardisering – trin 2

Side Standardisering

Side Opgaver Opgavesamling i Statistik 2009 fra Statistica: – Opgave 29 – 32 (vedr. Normalfordelingen) BWH-Opgavesamling : – Opgavesæt U2 – opgave 3 side 35

Side Grafisk kontrol Normalfraktildiagram Eksempel med de 55 indkøb i supermarked – Beregn fraktildiagram – Beregn z = NORMSINV i Excel på fraktilerne – Afsæt z og x (indkøbets størrelse) i et koordinatsystem

Side Normalfraktildiagram Normalfraktildiagram er en ret linie, hvis X ∼ N( ,  2 ) Aflæsning af  og  på X-aksen ud for z = 0 hhv. 1

Side Opgaver BWH-Opgavesamling : – Opgavesæt U2 – opgave 4 side 153 – Opgavesæt U3 – opgave 6 side 156

Side Centrale grænseværdisætning (CGS) Lad X 1, X 2,….. X n være identisk fordelte og uafhængige stokastiske variable, hver med en middelværdi på  og varians  2. Summen af de n stokastiske variable vil - når n er tilstrækkelig stor - være approximativ normalfordelt: Gennemsnittet vil derfor være

Side Binomialfordelingers form

Side Poisson fordelingers form

Side Fra b(n,p) til N(μ,σ 2 ) – (μ=np; σ 2 =np(1-p)) kontinuitetskorrektion P(X  14) Beregnes i a) binomialfordelingen som arealet af de blå søjler – d.v.s. området fra 13,5 og frem b) normalfordelingen som arealet under den bløde kurve fra 14 For at få samme re- sultat må beregnin- gen i Normalfordelin- gen også starte i 13,5 !

Side Afledte fordelinger Χ 2 v - fordelingen (chi-kvadrat) t v – fordelingen F v - fordelingen Sandsynligheder er afhængig af – v der kaldes antal frihedsgrader v er afhængig af stikprøvens størrelse Jo større v (stikprøve) jo mere kommer de 3 fordelinger til at ligne normalfordelingen, jf. CGS

Side Χ 2 – fordelingen Bruges bl.a. til undersøgelse (test) af, om – populationsvarianser har ændret sig – empiriske data følger en given sandsynlighedsfordeling (f.eks. Normalfordelingen) – Et datamateriale er repræsentativt – Der er afhængighed i krydstabuleringer Fordelingen er baseret på en kvadreret normalfordeling

Side Χ 2 – fordelingen

Side T-fordelingen Bruges bl.a. ved test på middelværdi, hvor populationsvariansen, σ 2 er ukendt T-fordelingen er symmetrisk omkring 0 Fladere end standardnormalfordelingen, Z~N(0, σ 2 ) – D.v.s. større standardafvigelse Afhænger af antal frihedsgrader, v=n-1 T-fordelingen  Z~N(0,σ 2 ), når n  ∞

Side F-fordelingen Bruges især, når vi tester på, om der er forskel på varianserne i 2 populationer Bemærk, at man altid sætter den største stikprøve- varians i tælleren!