Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Grundlæggende teoretisk statistik

Lignende præsentationer


Præsentationer af emnet: "Grundlæggende teoretisk statistik"— Præsentationens transcript:

1 Grundlæggende teoretisk statistik
Multinomiske modeller

2 Multinomiske modeller
Anvendelsesområder Goodness-of-fit test – Test på om et data-materiale passer på en given fordeling Multinomialfordelingen Binomialfordelingen Poisson-fordelingen Normalfordelingen Test på repræsentativitèt Test på uafhængighed i tabeller Test på homogenitèt i tabeller Kategoriserede data (tabel-data)!

3 Multinomial fordeling
I en Binomial-fordeling er der 2 muligheder Mærkede og Ikke-mærkede Konstant sandsynlighed på p for at udtrække en mærket” i stikprøven på n Antal mærkede, X ~ b(n,p) I en Multinomial-fordeling er der mange (k) muligheder Konstant sandsynlighed på p1, p2, p3,.., pk Stikprøve på n (X1, X2, X3,….Xk) ~ M(n, p1, p2, p3,.., pk)

4 Test i multinomialfordeling
Ovenstående tabel viser antal udrykninger til brand i 2002 fra Beredskabscenter Aalborg Er antal udrykninger til brand ligeligt fordelt over årets 12 måneder? Vi skal altså undersøge: H0: p1= p2= p3=…….. = p12 =1/12 eller om antal udrykninger i de 12 måneder er multinomialfordelt med n=539 og alle pi=1/12

5 Test i multinomialfordeling
Vi beregner det forventede antal udrykninger pr. måned, hvis H0 er sand, d.v.s. 1/12 pr. måned. samt test-statistikken, Q hvor Husk, at alle ei ≥ 5 (3 i BWH!)

6 Test i multinomialfordeling
Q kan nu beregnes til: Ved f=12-1=11 frihedsgrader og 5% signifikansniveau fås den kritiske værdi til 19,68. P-værdi / sign.sandsynligheden beregnes til 0,000002 H0 afvises derfor, og antal udrykninger til brand er ikke ligeligt fordelt over årets 12 måneder

7 Multinomialfordelingstest i Bewi – 4.3a
Fortsættes

8 Multinomialfordelingstest i Bewi
Opgave 59, 64 og 67

9 Repræsentativitets-test
Test i multinomial-fordeling Svarer din stikprøves fordeling til populationens Sjældent en ligelig fordeling Eksempel En stikprøve på 120 er udtaget tilfældigt fra en virksomheds kundedatabase. Stikprøvens fordeling på kundegrupper og disses størrelse er vist i tabellen. Er stikprøven repræsentativ? Luft- transport Sø- Land-transport Kurèr- tjeneste I alt Antal kunder i alt 3.000 1.500 1.000 500 6.000 Antal kunder i stikprøven 42 18 120

10 Repræsentativitets test
Luft- transport Sø- Land-transport Kurèr- tjeneste I alt Antal kunder i alt 3.000 1.500 1.000 500 6.000 Andel af kunder i alt 3000/6000=0,50 1500/6000=0,25 1000/6000=0,167 500/6000= 0,083 1,00 Forventet an-tal kunder i stikprøven, ei 0,50*120 =60 0,25*120 =30 0,167*120=20 0,083*120 =10 120 Antal kunder i stikprøven, fi 42 18

11 Repræsentativitetstest i Bewi-4.3a
Opgave U7-21, E51 Bemærk at andèlene i populationen skal udregnes!

12 Test i normalfordelingen
Tykkelsen af et produceret emne kvalitetskontrolleres for bl.a. tykkelsen. Ovenfor er vist resultatet af målingen i en stikprøve på 25 emner. Spørgsmål: Er tykkelsen af emnet, normalfordelt: X ~ N(μ,σ2) med μ=5 mm og σ = 0,08, som er kvalitetskravet.

13 Test i normalfordelingen
Normalfordelingen deles f.eks. op i 5 stk. 20% intervaller. Det betyder, at vi vil forvente 5 observa-tioner i hvert interval, hvilket er det minimale antal, der skal være i hver ”celle”. (BWH siger dog 3)

14 Test i normalfordelingen
Intervallerne bestemmes således: Herefter tælles antal observationer op i hvert interval:

15 Test i normalfordelingen
Nu kan teststatistikken Q beregnes, som under H0 er chikvadrat fordelt med f = c-a-1, hvor c er antal celler, her 5 a er antal parametre i fordelingen der estimeres. Her estimeres der ikke nogen, men a kan være 2, hvis både μ og σ skal estimeres. Ved et test-/signifikansniveau på α = 0,05 fås den kritiske værdi til 9,49 ved f=4 Hvis Q er mindre end 9,49 accepteres H0 om at tykkelsen af emnet, X ~ N( 5 ; 0,0064)

16 Uafhængighedstest En repræsentativ stikprøve på n=3113 personer.
Der er én forklarende, uafhængig variabel (indkomst) og én forklaret, afhængig variabel (ferieanvendelse). Begge variable er målt på nominal skala. (Den grupperede indkomst dog her på ordinal skala) Den simultane fordeling er en multinomialfordeling med 35 sandsynligheder Spørgsmål: Er der uafhængighed mellem ferieanvendelse og indkomst?

17 Uafhængighedstest Statistisk uafhængighed vil sige at
Altså at de simultane sandsynligheder er de marginale sandsynligheder ganget sammen.

18 Uafhængighedstest I eksemplet overfor er
Hvis der er uafhængighed, vil observationen X31 (fij) derfor teoretisk være lig (rækkesum x søjlesum) / n, som derfor bliver den forventede værdi (eij) i cellen, ved uafhængighed.

19 Uafhængighedstest Husk, at alle Eij ≥ 5 (3 i BWH)
Jo større forskel der er mellem observationen, (fij) og den forventede værdi, (eij) – ved uafhængighed - i hver celle jo mere taler for afhængighed mellem de 2 variable (indkomst og ferieanvendelse) Teststatistikken bliver Husk, at alle Eij ≥ 5 (3 i BWH)

20 Uafhængighedstest Når vi derfor tester
H0: Uafhængighed mellem de 2 variable og antager H0 er sand vil Da r=7 og s=5 fås antal frihedsgrader =(7-1)(5-1)=24 Ved signifikansniveau, α = 0,05 vil den kritiske værdi ved opslag i Bewi 2g, ved fraktilen 0,95 være 36,42. Hvis Q beregnes til en værdi på minimum 36,42 forkastes H0: Uafhængighed.

21 Homogenitetstest I eksemplet nedenfor er udtrukket en stikprøve af kunder fra hvert af en virksomheds 3 markedsområder. Stikprøverne er på hhv. 200, 100 og 50. Kunderne har vurderet firmaets service. Spørgsmålet er nu om kunderne i de 3 markedsområder vurderer firmaets service ens (d.v.s. der er homogenitèt i opfattelsen). Spørgsmålet kan imidlertid også formuleres: Er der uafhængighed mellem opfattelse af servicen og markedsområdet? Homogenitetstesten svarer derfor til uafhængighedstesten, men der er nu tale om sammenligning af flere multinomialfordelinger!

22 Homogenitetstest Hvilken andèl vil vi forvente, der svarer ”Under middel” hvis der ingen forskel er på de 3 markedsområder? Vores bedste estimat er 96/350, altså kolonne-summen delt med den samlede stikprøve. Hvor mange kunder vil vi så forvente der svarer ”Under middel” i hvert markedsområde: Europa: 96/350 ud af 200 Sydamerika: 96/350 ud af 100 Asien: 96/350 ud af 50 Disse størrelser svarer til de forventede værdier i uafhængighedstesten! Beregning af de forventede værdier for opfattelsen ”Middel” og ”Over middel” sker nu på samme måde. Teststatistikken Q beregnes nu - på samme måde som ved uafhængighedstesten!

23 Kapitel H - Opgaver Opgavesamling i Statistik 2009 fra Statistica:
AØT: Opgave 58, 62, 69, E5 BWH: U7-21, U6-34, U9-4 Supplerende opgaver på nettet


Download ppt "Grundlæggende teoretisk statistik"

Lignende præsentationer


Annoncer fra Google