Grundlæggende teoretisk statistik

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Dagens program Resumé - Normalfordelingen χ2-test (chi-i-anden)
Hypotese test – kapitel 6 (Signifikans test)
Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)
Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
Dagens program Kursusevaluering Information Spørgsmål om eksamen
Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Anvendt Statistik Lektion 4
Akademi Merkonomer Statistik Aften 5
Statistik og sandsynlighedsregning
Program Informationer χ2-test (chi-i-anden) Projekt 3
Anvendt Statistik Lektion 6
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Side Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger.
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Grundlæggende teoretisk statistik
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester 2007 Lektion 5, tirsdag den 23. oktober Punkt- og intervalestimering.
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Signifikanstest ved (en eller) to stikprøver
Learning Objectives 5 Steps of a Significance Test Assumptions
1 Dagens program 1.Information –Klaus’ frokost: 11:45-12:30, går 13:15. –Winston Churchill –Sidste forelæsning (19/11): Eksamen, kursus- evaluering, eksperimentelt.
Dagens program Test of Independence (chi-i-anden) Videre med projekt 3
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.
Statistisk inferens Dagens program Grupper, opgave 1
Learning Objectives 5 Steps of a Significance Test Assumptions
Program 1.Påmindelser Pivottabeller og pivotgrafer Omkodning af data (sortering, søg-erstat) Bevar de originale data og lav kontroller 2.Hvem er målgruppen.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Grundlæggende teoretisk statistik
Statistik for geografer
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Grunde til at jeg elsker dig
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Simpel Lineær Regression
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Grundlæggende teoretisk statistik
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: F151 Økonometri 1 Specifikation og dataproblemer 10. november 2006.
Statistik Lektion 8 Test for ens varians.
Kvantitative metoder 2: F31 Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007.
Grundlæggende teoretisk statistik
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.
Statistik II 4. Lektion Logistisk regression.
Anvendt Statistik Lektion 6
Præsentationens transcript:

Grundlæggende teoretisk statistik Multinomiske modeller

Multinomiske modeller Anvendelsesområder Goodness-of-fit test – Test på om et data-materiale passer på en given fordeling Multinomialfordelingen Binomialfordelingen Poisson-fordelingen Normalfordelingen Test på repræsentativitèt Test på uafhængighed i tabeller Test på homogenitèt i tabeller Kategoriserede data (tabel-data)!

Multinomial fordeling I en Binomial-fordeling er der 2 muligheder Mærkede og Ikke-mærkede Konstant sandsynlighed på p for at udtrække en mærket” i stikprøven på n Antal mærkede, X ~ b(n,p) I en Multinomial-fordeling er der mange (k) muligheder Konstant sandsynlighed på p1, p2, p3,.., pk Stikprøve på n (X1, X2, X3,….Xk) ~ M(n, p1, p2, p3,.., pk)

Test i multinomialfordeling Ovenstående tabel viser antal udrykninger til brand i 2002 fra Beredskabscenter Aalborg Er antal udrykninger til brand ligeligt fordelt over årets 12 måneder? Vi skal altså undersøge: H0: p1= p2= p3=…….. = p12 =1/12 eller om antal udrykninger i de 12 måneder er multinomialfordelt med n=539 og alle pi=1/12

Test i multinomialfordeling Vi beregner det forventede antal udrykninger pr. måned, hvis H0 er sand, d.v.s. 1/12 pr. måned. samt test-statistikken, Q hvor Husk, at alle ei ≥ 5 (3 i BWH!)

Test i multinomialfordeling Q kan nu beregnes til: Ved f=12-1=11 frihedsgrader og 5% signifikansniveau fås den kritiske værdi til 19,68. P-værdi / sign.sandsynligheden beregnes til 0,000002 H0 afvises derfor, og antal udrykninger til brand er ikke ligeligt fordelt over årets 12 måneder

Multinomialfordelingstest i Bewi – 4.3a Fortsættes

Multinomialfordelingstest i Bewi Opgave 59, 64 og 67

Repræsentativitets-test Test i multinomial-fordeling Svarer din stikprøves fordeling til populationens Sjældent en ligelig fordeling Eksempel En stikprøve på 120 er udtaget tilfældigt fra en virksomheds kundedatabase. Stikprøvens fordeling på kundegrupper og disses størrelse er vist i tabellen. Er stikprøven repræsentativ? Luft- transport Sø- Land-transport Kurèr- tjeneste I alt Antal kunder i alt 3.000 1.500 1.000 500 6.000 Antal kunder i stikprøven 42 18 120

Repræsentativitets test Luft- transport Sø- Land-transport Kurèr- tjeneste I alt Antal kunder i alt 3.000 1.500 1.000 500 6.000 Andel af kunder i alt 3000/6000=0,50 1500/6000=0,25 1000/6000=0,167 500/6000= 0,083 1,00 Forventet an-tal kunder i stikprøven, ei 0,50*120 =60 0,25*120 =30 0,167*120=20 0,083*120 =10 120 Antal kunder i stikprøven, fi 42 18

Repræsentativitetstest i Bewi-4.3a Opgave U7-21, E51 Bemærk at andèlene i populationen skal udregnes!

Test i normalfordelingen Tykkelsen af et produceret emne kvalitetskontrolleres for bl.a. tykkelsen. Ovenfor er vist resultatet af målingen i en stikprøve på 25 emner. Spørgsmål: Er tykkelsen af emnet, normalfordelt: X ~ N(μ,σ2) med μ=5 mm og σ = 0,08, som er kvalitetskravet.

Test i normalfordelingen Normalfordelingen deles f.eks. op i 5 stk. 20% intervaller. Det betyder, at vi vil forvente 5 observa-tioner i hvert interval, hvilket er det minimale antal, der skal være i hver ”celle”. (BWH siger dog 3)

Test i normalfordelingen Intervallerne bestemmes således: Herefter tælles antal observationer op i hvert interval:

Test i normalfordelingen Nu kan teststatistikken Q beregnes, som under H0 er chikvadrat fordelt med f = c-a-1, hvor c er antal celler, her 5 a er antal parametre i fordelingen der estimeres. Her estimeres der ikke nogen, men a kan være 2, hvis både μ og σ skal estimeres. Ved et test-/signifikansniveau på α = 0,05 fås den kritiske værdi til 9,49 ved f=4 Hvis Q er mindre end 9,49 accepteres H0 om at tykkelsen af emnet, X ~ N( 5 ; 0,0064)

Uafhængighedstest En repræsentativ stikprøve på n=3113 personer. Der er én forklarende, uafhængig variabel (indkomst) og én forklaret, afhængig variabel (ferieanvendelse). Begge variable er målt på nominal skala. (Den grupperede indkomst dog her på ordinal skala) Den simultane fordeling er en multinomialfordeling med 35 sandsynligheder Spørgsmål: Er der uafhængighed mellem ferieanvendelse og indkomst?

Uafhængighedstest Statistisk uafhængighed vil sige at Altså at de simultane sandsynligheder er de marginale sandsynligheder ganget sammen.

Uafhængighedstest I eksemplet overfor er Hvis der er uafhængighed, vil observationen X31 (fij) derfor teoretisk være lig (rækkesum x søjlesum) / n, som derfor bliver den forventede værdi (eij) i cellen, ved uafhængighed.

Uafhængighedstest Husk, at alle Eij ≥ 5 (3 i BWH) Jo større forskel der er mellem observationen, (fij) og den forventede værdi, (eij) – ved uafhængighed - i hver celle jo mere taler for afhængighed mellem de 2 variable (indkomst og ferieanvendelse) Teststatistikken bliver Husk, at alle Eij ≥ 5 (3 i BWH)

Uafhængighedstest Når vi derfor tester H0: Uafhængighed mellem de 2 variable og antager H0 er sand vil Da r=7 og s=5 fås antal frihedsgrader =(7-1)(5-1)=24 Ved signifikansniveau, α = 0,05 vil den kritiske værdi ved opslag i Bewi 2g, ved fraktilen 0,95 være 36,42. Hvis Q beregnes til en værdi på minimum 36,42 forkastes H0: Uafhængighed.

Homogenitetstest I eksemplet nedenfor er udtrukket en stikprøve af kunder fra hvert af en virksomheds 3 markedsområder. Stikprøverne er på hhv. 200, 100 og 50. Kunderne har vurderet firmaets service. Spørgsmålet er nu om kunderne i de 3 markedsområder vurderer firmaets service ens (d.v.s. der er homogenitèt i opfattelsen). Spørgsmålet kan imidlertid også formuleres: Er der uafhængighed mellem opfattelse af servicen og markedsområdet? Homogenitetstesten svarer derfor til uafhængighedstesten, men der er nu tale om sammenligning af flere multinomialfordelinger!

Homogenitetstest Hvilken andèl vil vi forvente, der svarer ”Under middel” hvis der ingen forskel er på de 3 markedsområder? Vores bedste estimat er 96/350, altså kolonne-summen delt med den samlede stikprøve. Hvor mange kunder vil vi så forvente der svarer ”Under middel” i hvert markedsområde: Europa: 96/350 ud af 200 Sydamerika: 96/350 ud af 100 Asien: 96/350 ud af 50 Disse størrelser svarer til de forventede værdier i uafhængighedstesten! Beregning af de forventede værdier for opfattelsen ”Middel” og ”Over middel” sker nu på samme måde. Teststatistikken Q beregnes nu - på samme måde som ved uafhængighedstesten!

Kapitel H - Opgaver Opgavesamling i Statistik 2009 fra Statistica: AØT: Opgave 58, 62, 69, E5 BWH: U7-21, U6-34, U9-4 Supplerende opgaver på nettet