Statistisk inferens Dagens program Grupper, opgave 1

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Dagens program Resumé - Normalfordelingen χ2-test (chi-i-anden)
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Sandsynlighedsfordelinger
Hypotese test – kapitel 6 (Signifikans test)
Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)
Dagens program Kursusevaluering Information Spørgsmål om eksamen
Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Anvendt Statistik Lektion 4
Akademi Merkonomer Statistik Aften 5
Statistik og sandsynlighedsregning
Program Informationer χ2-test (chi-i-anden) Projekt 3
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Population, stikprøve og signifikans Mandag den 19. marts, kl ved.
Eksempel på brug af normalfordelingen
Anvendt Statistik Lektion 6
Statistik og sandsynlighedsregning
Akademi Merkonomer Statistik Aften 6
Case.
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 8
Dagens program Kursusevaluering Repetition One way hhv. two way anova
Statistik Lektion 6 Konfidensinterval for andele og varians
Signifikanstest ved (en eller) to stikprøver
Learning Objectives 5 Steps of a Significance Test Assumptions
1 Dagens program 1.Information –Klaus’ frokost: 11:45-12:30, går 13:15. –Winston Churchill –Sidste forelæsning (19/11): Eksamen, kursus- evaluering, eksperimentelt.
Dagens program Test of Independence (chi-i-anden) Videre med projekt 3
Dagens program 1.Information Alle projekter er godkendt Sumkurve 2.Opsamling T-test 3.Variansanalyse (one-way) ANOVA 4.Intro til projekt 3 (Excels LOPSLAG.
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Learning Objectives 5 Steps of a Significance Test Assumptions
Program 1.Påmindelser Pivottabeller og pivotgrafer Omkodning af data (sortering, søg-erstat) Bevar de originale data og lav kontroller 2.Hvem er målgruppen.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Agenda Informationer Opsamling fra sidst Normalfordelingen
Fejl  Afleveringen  Stikprøvestørrelse  Type I-II Fejl  Styrkefunktionen.
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Inge Henningsen Stat BK uge Sammenligning af regressionslinier Opsummering af regressionsanalyse (Gennemgang af udvidet version af eksamen Blok.
Økonometri 1: F61 Økonometri 1 Inferens i den lineære regressionsmodel 25. september 2006.
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Bernoulli og binomial fordelingerne
Økonometri 1: F81 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 5. oktober 2004.
Simpel Lineær Regression
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Grundlæggende teoretisk statistik
Grundlæggende teoretisk statistik
Kvantitative metoder 2: Inferens i den lineære regressionsmodel1 Kvantitative metoder 2 Inferens i den lineære regressionsmodel 7. marts 2007.
Statistik Lektion 8 Test for ens varians.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 27. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 28. september 2004.
Økonometri 1: F71 Økonometri 1 Inferens i den lineære regressionsmodel 29. september 2006.
Opgave i normalfordeling 2.g, HHX. Grundbegreber Middelværdi, μ (græsk: my) Standardafvigelse, σ(græsk: sigma) X ̴ N(μ,σ)
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statistisk inferens Dagens program Grupper, opgave 1 Opsamling fra sidst Normalfordelingen Sampling distribution Teori og opgaver Konfidensinterval Hypotesetest

Kast med en mønt, P(krone)=0,5; n=12

Om normalfordelingen Normalfordelingen beskrives fuldstændigt ved μ og σ. Den empiriske regel kommer af normalfordelingen. Opslag i normalfordelingen i Excel giver ssh. for at en variabel kaldet X er mindre end et eller andet tal, som vi kan kalder a. Dette skrives P(a<X). P(a<X) svarer til arealet under normalfordelingens kurve. Hele arealet er 1. 3

Eksempel på opslag i normalfordelingen De besøgende på en hjemmeside bruger i gns. 300 sekunder på forsiden, før de klikker videre til en underside. Besøgstiden er normalfordelt med en standardafvigelse på 50 sekunder Hvad er sandsynligheden for at tilfældig besøgende bruger under 250 sekunder på forsiden? X er en variabel, der angiver besøgstiden for en tilfældig besøgende. μ = 300, σ = 50, a=250. Hvad er P(250<X)? Svaret er 0,15865526. 4

Sampling distribution Det centrale grænseværdi teorem (central limit theorem): Hvis alle tænkelige stikprøver udtages simpelt tilfældigt fra en population, så danner deres gennemsnit en normalfordeling (jo større n, des bedre er tilnærmelsen). Uanset populationens fordeling. Sampling distribution: Er en ssh. fordeling, der viser sandsynligheder for udfald af et statistisk mål fra en stikprøve, (f.eks. ū eller s). s er std.afv. på variablen U sū er std.afv. på ū (gns. af U). sū kaldes standard error. sū beregnes efter formlen σ / √ n I praksis kender man ikke σ, hvorfor σ estimeres ved s (standardafvigelsen fra stikprøven) 5

Konfidensinterval Et konfindensinterval er et interval der indeholder de mest sandsynlige værdier for en parameter.f.eks.: “Med 95% sikkerhed ligger parameteren i intervallet mellem 100 og 102” eller “Med 99% sikkerhed ligger parameteren i intervallet mellem 99 og 103” Jo mere sikker man vil være, des større bliver intervallet. 95% af sandsynlighedsmassen i en normalfordeling ligger indenfor μ +/- 1,96 x standardafvigelsen. Med en sandsynlighed på 0,95 vil et gns. falde indenfor: Gns. ± 1,96 x standard error 6 6

Konfidensinterval for en middelværdi Stikprøvens middelværdi er punktestimatet for populationens middelværdi Konfidensintervallet er defineret ved: Gns. ± z x std. error I praksis kender man ikke σ, hvorfor σ estimeres ved s / √ n Formlen gælder for store stikprøver (n>30) fra en hvilken som helst population små n fra en underliggende population som er normalfordelt 7

Eksempel på konfidensinterval for μ Et firma har revideret sit intranet og interesserer sig for, hvor lang tid de ansatte bruger det i løbet af dagen. En undersøgelse blandt 36 besøgende viser, at de er aktive i ca. 15 minutter. Standardafvigelsen i stikprøven er 6 minutter. Et 95% konfidensinterval er gns. ± 1,96 x (s / √ n ) 15 ± 1,96 x (6 / √ 36) = 15 ± 1,96 x (6/6) 15 ± 1,96 x 1 = 15 ± 1,96 = [13,04 – 16,96] 8

Signifikanstest / Hypotesetest Definition: En hypotese er en påstand om en egenskab ved populationen, f.eks. om μ Eksempler: Efter implementering af det nye design opholder de besøgende sig mindst 10 minutter på siden. Brugernes svar på spørgsmålet ”Søgefunktionen giver mig resultater jeg kan bruge” lever op til målsætningen om et gns. på min. 4,0. Efter udskiftningen af links på forsiden, klikker brugerne i gns. på mindst 8 links på siden, før de forlader den igen. 9

Fremgangsmåde i et hypotesetest Antagelser Stikprøven er udtaget simpelt tilfældigt Hvis n > 30 kan normalfordelingen bruges som sampling distribution Hypoteser Nulhypotese, H0: μ = parameterværdi for ”uændret” / ingen effekt Alternativ hypotese, H1: μ ≠, <, > parameterværdi Teststørelse (test statistic) Stikprøvens estimat sml. med nulhypotesens parameterværdi μ Teststørrelsen er z-scoren, z-scoren = (ū-μ)/sū = (ū-μ) / (s/√n) P-værdi Sandsynligheden for at opnå en værdi af teststørrelsen så stor som den observerede eller større, under forudsætning af, at nulhypotesen er sand (forudsætningen skrives ofte ”under H0”) Jo mindre P er, des stærkere er beviserne mod H0 Konklusion P-værdien afrapporteres og der konkluderes. 10

Signifikanstest for en middelværdi Trin 2: Hypoteser Nul hypotesen (H0) har formen: H0: µ = µ0 µ0 er en generel betegnelse for den værdi, vi tester Alternativ hypotesen skrives Ha eller H1 har formen: Ha: µ > µ0 (ensidet test) eller Ha: µ < µ0 (ensidet test) eller Ha: µ ≠ µ0 (tosidet test) 11 11

Formulering af hypoteser Formulering af hypoteser - analogi til en lovlig retssag Nul hypotesen: Den anklagede er uskyldig, der er intet sket, tingene er uændrede, ingen effekt Alternativ hypotesen: Den anklagede er skyldig Hvis juryen frikender den anklagede, betyder det ikke, at juryen accepter den anklagedes påstand om uskyldighed. Kun at beviserne ikke er der. Uskyldighed er plausibel, fordi skyld ikke har kunne bevises udover en rimelig tvivl 12 12

Teststørrelse Vi udtager en stikprøve og beregner en teststørrelse. Trin 3: Test-størrelsen Vi udtager en stikprøve og beregner en teststørrelse. Teststørrelsen angiver hvor langt stikprøvens middelværdi falder fra nul hypotesens værdi µ0, målt i antal ”standard errors. Teststørrelsen er: µ0 er den værdi vi antager under H0 hypotesen Bemærk, at vi går fra Normalfordelingen til t-fordelingen med n-1 frihedsgrader, df, da vi estimerer standardafvigelsen S 13 13

Beslutninger i en hypotese test Trin 4: P-værdi Signifikansniveauet er et tal, hvor vi afviser H0 hvis P-værdien er mindre end eller lig med dette tal I lærebøger bruger vi et signifikansniveau på 0,05 (5%) Når vi afviser H0 siger vi at resultatet er statistisk signifikant på et P-niveau. P-værdi: Beslutning om H0: ≤ α Afvis H0 > α Ikke muligt at afvise H0 14 14

Eksempel på hypotesetest vedr. μ Et it-konsulentfirma har revideret en virksomheds intranet mhp. at øge brugervenligheden. it-konsulent-firmaet har lovet, at de ansatte i gns. vil svare 7 på et spørgsmål om brugervenlighed. En undersøgelse blandt 49 ansatte viser, at de ansattes gns. på spørgsmålet er 6,6 Standardafvigelsen ifølge stikprøven er 1,9. 15

Eksempel på hypotesetest vedr. μ Antagelser Stikprøven er udtaget simpelt tilfældigt Hvis n > 30 kan normalfordelingen bruges som sampling distribution Hypoteser Nulhypotese, H0: μ = 7 Alternativ hypotese, H1: μ < 7 Teststørelse (test statistic) ū = 6,6. s = 1,9. n = 49. √49 = 7, (s/√n) =0,257 Teststørrelsen z = (ū-μ) / (s/√n) z = (6,6 - 7) / 0,257 = - 1,47 P-værdi P (-1,47 < z) = 0,070 Konklusion H0 opretholdes på et 5% niveau 16