Niveau 2: Hypotesetestning
Hypotesetestning 1 En faglig hypotese handler om at der findes en sammenhæng mellem nogle variable, eller en forskel mellem nogle grupper Man vil altid finde en vis størrelse når man sammenligner variable. Det er uhyre sjældent at finde en effekt på nøjagtigt 0 Ofte bruger man et ’øjemål’ når man vurderer om effekten er tilstrækkelig stor til at det er af betydning Som regel er ’øjemålet’ misvisende. Statistikken kan derimod fortælle nøjagtigt hvor sikkert det er at der faktisk er en effekt
Hypotesetestning 2 Procedure ved statistisk hypotesetestning Man formulerer nulhypotesen at der ikke er nogen effekt Man beregner en teststørrelse som ved at sammenligne med en teoretisk fordeling kan fortælle hvor stor sandsynligheden er for ingen effekt Hvis denne sandsynlighed er meget lille, regner man der for usandsynligt at der ikke er en effekt. Altså er der i så tilfælde en effekt
Hypotesetestning 3 Sandsynligheden for at der ikke er nogen effekt (altså at nulhypotesen er rigtig) kaldes p Hvis p er mindre end et bestemt kriterium, regnes nulhypotesen for afkræftet Typiske kriterier er p < 0.05 eller p < 0.01 Hvilken statistiske teststørrelse der anvendes afhænger af situationen (eks. t-test, F-test, Ki-i-anden test) p-værdien fortæller hvor sikkert det er at der (ikke) er en effekt, men fortæller ikke hvor stor denne effekt er. En meget lille p-værdi betyder ikke at effekten er stor
Nogle eksempler på teststørrelser Parametriske tests (bruger parametrene fra normalfordelingen) t-test F-test Ikke-parametriske tests (bruger ikke parametre fra teoretiske fordelinger, men kombinatorik og rangorden) Mann-Whitney Wilcoxon McNemar
Eksempel: Forskel på to fordelinger Forskel i gennemsnit mellem to fordelinger: t udregnes som differensen mellem de to fordelingers gennemsnit, divideret med en slags gennemsnit af de to standardafvigelser, set i forhold til samplestørrelsen (SE) Til en bestemt t-værdi svarer (afhængigt af samplestørrelsen) en bestemt p-værdi p-værdien fortæller hvor (u)sandsynligt resultatet er hvis den var tilfældig Hvis den viser sig at være meget usandsynlig, er det nok ikke en tilfældig forskel, men en ikke-tilfældig (signifikant) forskel
t-test mere generelt En værdi divideret med sin standardfejl (SE) Test af forskelle mellem gennemsnit, uparret t-test Test af størrelsen af denne differens (parret t-test) Test af størrelse af regressionskoefficienter* Test af størrelse af loadings i CFA (se senere) *Test af regressionskoefficienter viser kun om de er større end 0, og det er de meget tit – det meste hænger sammen med det meste andet – derfor er det regel ikke vigtigt om en korrelationskoefficient er statistisk signifikant Er dette t-test eller Wald, og hvad er forskellen?
Eksempel: Sammenhæng mellem to variable Sammenhængen udtrykkes som korrelationskoefficienten En perfekt positiv sammenhæng giver en korrelationskoefficient på +1, en negativ -1 Den almindeligt anvendte hedder Phearsons korrelationskoefficient. Den forudsætter kontinuert måleskala Der findes korrelationskoefficienter som kan bruges på mindre gode skalaer. Spearmans korrelationskoefficient bruger rangorden fra skalaerne Signifikanstest for korrelationskoefficienter undersøger typisk om de er større end 0 – ikke meget oplysende
Effektstørrelser
Kritik af hypotesetestning Traditionelt undersøges alle lovmæssigheder med en statistisk test som enten viser en statistisk signifikant effekt, eller ikke (baseret på p-værdi) Imidlertid er p-værdien afhængig af samplestørrelsen, og derfor er statistisk signifikans ikke altid tilstrækkelig beskrivelse Effektstørrelse er vigtig som supplement til hypotesetestning Effektstørrelse er uafhængig af samplestørrelse
Forskellige effektstørrelser Forskel mellem gennemsnit i to grupper: Cohen’s d Standard i psykologisk forskning: 0.20 lille effekt 0.50 mellemstor effekt 0.80 stor effekt Sammenhæng mellem to variable: Korrelationskoefficienten 0.10 lille effekt 0.30 mellemstor effekt 0.50 stor effekt
Andre effektstørrelser Effektstørrelser er definerede for mere komplekse hypotesetestninger. Litteratur: Cohen, J. (1988) Statistical power analysis for the behavioral sciences. Hillsdale NJ: Erlbaum
Målefejl og konfidensgrænser
Usikkerhed i data Standardafvigelsen (SD) viser spredningen (forskelligartetheden) i fordelingen Standardfejlen (SE) viser usikkerheden i et estimat, et talresultat SE er typisk mindre end SD i en tilhørende fordeling Eks. Normalfordelingen gennemsnit og SD har hver en SE som fortæller hvor præcist hhv gennemsnittet og spredningen er bestemt
SE for gennemsnit i normalfordeling SE kan bestemmes ud fra teoretiskfordeling Eks. SEgennemsnit = SD/√¯n SE kan også bestemmes med bootstrapmetoder 1. Der udtrækkes n datapunkter fra et sample med n datapunkter med ’tilbagelægning’ (=hvert datapunkt kan udtrækkes flere gange) og det ønskede tal, f.eks. Gennemsnittet, beregnes 2. Dette gentages et stort antal gange, f.eks. 200 3. De 200 beregnede tal (f.eks. gennemsnit) udgør en lille fordeling, og standardafvigelsen i denne er SE for tallet (gennemsnittet) Metoden kan også bruges til at finde SE for en median, en standardafvigelse eller andre estimater
SE kan bruges til Hypotesetestning Beregning af sikkerhedsgrænser Typisk: t = estimatet divideret med SE Beregning af sikkerhedsgrænser 95% sikkerhedsgrænser: Estimatet ± 1.96* SE (dvs. ca. 2*SE) 99% sikkerhedsgrænser: Estimatet ± 2.58* SE (dvs. ca. 2.5)
Copyright © Jan Ivanouw