Dagens program 1.Information Alle projekter er godkendt Sumkurve 2.Opsamling T-test 3.Variansanalyse (one-way) ANOVA 4.Intro til projekt 3 (Excels LOPSLAG og pivottabel) 5.Forsvar / kritik samt i gang med projekt 3
Eksempel på en problemstiling 1.En virksomhed vil øge trafikken på sin hjemmeside v.hj.a. AdWords. 2.Marketingafdelingen har testet 3 kampanger i løbet af 4 uger: A: Samme type som konkurrenterne B: Teknisk orienterede annoncer C: ”Fjollede” annoncer (med rim) 3.Antallet af klik pr. annoncetype er registreret. 4.Hvad er den afhængige og uafhængige variabel? 5.Hvilke slags variable er der tale om?
Variansanalyse Andre eksempler på problemstillinger –Er brugertilfredsheden på de tre højest placerede hjemmesider i Bedst på Net forskellige? –Er biografforbruget før, under og efter medlemsskab af Biografklub Danmark forskelligt? I variansanalysen sammenligner vi gennemsnit fra flere grupper. –g bruges som betegnelse for antallet af grupper. –Hver gruppe repræsenterer en population. –Responsvariablens g gns. repræsenterer de g middel- værdier i populationerne, som skrives µ 1, µ 2, … µ g
Variansanalysens hypoteser Nul-hypotesen er, at populationernes middelværdier er ens: –H 0 : µ 1 = µ 2 = …= µ g Alternativhypotesen er: –H a : Mindst to af populationernes middel- værdier er forskellige.
Variansanalysens forudsætninger 1.Populationsfordelingerne af de g responsvariable er normalfordelte og har samme standardafvigelse. 2.Randomisering I stikprøvebaserede undersøgelser (surveys) stammer data fra g uafhængige stikprøver (fra de g populationer). I et eksperiment er forsøgsenhederne allokeret tilfældigt (randomly) på de g grupper.
Datagrundlag for de 3 kampanger Gns. fra de 3 stik- prøver repræsenterer gns. fra de tre popu- lationer: µ 1 = gns. for A µ 2 = gns. for B µ 3 = gns. for C Hvad er nul- og alternativhypotesen ? KampangeAntal klik pr. ugenGns.Varians A76, 81, 84, ,3 B88, 92, 101, C112, 115, 124,
Har populationerne samme μ? 1.Herunder ses datasættet fra forrige slide (nederst) og et nyt sæt. 2.I begge datasæt er gns Hvad er forskellen på de to datasæt? 4.I hvilket datasæt er beviserne stærkest mod H 0 : μ 1 = μ 2 = μ 3 ?
ANOVAs teststørrelse F ANOVAs teststørrelse: Jo større variationen er mellem grupper (between groups) i fht. variationen indenfor grupper (within groups), des større bliver teststørrelsen. Teststørrelsen følger en F-fordeling Jo større F er, des stærkere er beviserne mod H 0
F-fordelingen (alfa = 5%)
ANOVA er en signifikanstest Trin 4 og 5 4.Omregning af F til en P-værdi 5.Konklusion. H 0 afvises, da P < 5 %. Middelværdierne må formodes at være forskellige: De 3 kam- panger giver forskelligt antal klik pr. uge.
ANOVA er en signifikanstest Fremgangsmåde – de fem trin 1.Forudsætninger Randomiserede stikprøver (simpel tilfældig udvælgelse) Normalfordelte populationer med ens standardafvigelser 2.Hypoteseformulering H 0 : µ 1 = µ 2 = …= µ g H a : min. to af middelværdierne er forskellige 3.Beregning af teststørrelsen, F 4.Omregning af teststørrelsen til en P-værdi 5.Konklusion
Data og ANOVA i Excel 1.I Excel vælges Data Analyse (efter installation af Analysis ToolPak) og derefter ANOVA (single factor). 2.Dataområdet udpeges og der klikkes OK
ANOVA output fra Excel
Beregning af BETWEEN SS Det samlede gns. er 100. Estimatet på BETWEEN SS beregnes som gruppegns. afvigelser fra det samlede gns. Gr.Gns. Afv. fra 100Afv.^2 x 4 obs. A B C Sum 2.792
Beregning af WITHIN SS Estimatet på WITHIN SS beregnes som den vægtede sum af gruppernes varianser. s 2 = variansen (= std.afv. 2 ) n-1 = df = frihedsgrader Gr. (1) s 2 (2) n-1 (3)(2)x(3) A B C39,33118 Sum 526
Den samlede variation, SS Nr Sum Obs (Obs- 100)^ Gns. af alle obs. er 100
ANOVA på de reviderede data (øverste punkter i figuren herunder) Obs.ABC Gns
Om ANOVA OK med mindre afvigelser på den første af testens forudsætninger (normalfordelte responsvariable med samme standardafvigelse) Testen går galt, hvis –stikprøvefordelingerne er meget skæve og stikprøverne er små. Tjek om der er outliers (begynd med boxplot). –der er store forskelle på standardafvigelserne (er tilfældet hvis den største std.afv. er dobbelt så stor som den mindste). Når der mange grupper, giver F-testen bedre kontrol over type 1 fejlen end et stort antal parvise t-test. F-testen fortæller ikke, hvilke grupper der er forskellige
Om ANOVA One-way ANOVA har: –1 kvantitativ responsvariabel –1 kategoriseret forklarende variabel Two-way ANOVA har: –1 kvantitativ responsvariabel –2 kategoriserede forklarende variable