Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Databehandling og statistik

Lignende præsentationer


Præsentationer af emnet: "Databehandling og statistik"— Præsentationens transcript:

1 Databehandling og statistik

2 Dagsorden Opsamling fra sidste gang
Databehandling og kvalitetssikring af data Analyse – eksplorativ eller hypotesestyret Estimere parametre og finde sammenhænge Inferens – signifikanstest og konfidensintervaller

3 Sidste gang talte vi om, at…
Indsamling af kvantitativ data Hvordan gennemfører man en spørgeskema undersøgelse Vær opmærksom på, at lave et velfungerende og validt spørgeskema, der måler de ting, I gerne vil måle – formuleringer, rækkefølge osv. Tilrettelæg dataindsamlingen, så I ender med en stikprøve, der er repræsentativ for den population, I gerne vil sige noget om Forhold jer til kvaliteten af det indsamlede data og vær bevidst om jeres begrænsninger, når I konkluderer

4 I dag skal vi snakke om… … hvad I gør, når data er indsamlet.
Hvordan I laver analyser og databehandling Er skåret end, så vi kan nå det i dag.

5 Og nu hvor data er samlet ind.. Hvad så?
Inden I starter databehandlingen og analyserne: Kast et kritisk blik på stikprøven. Er den af en tilfredsstillende kvalitet? Gør rede for jeres observationer og overvejelser

6 Er der besvarelser nok i stikprøven?
Har I nået det samlede, ønskede antal besvarelser? Har I nok besvarelser I hver af de undergrupper, som I gerne vil sige noget om? (mindst 40, men gerne flere) Husk: Jo større behov for at nedbryde resultaterne – jo større stikprøve skal I bruge

7 Hvis stikprøven er for lille
Usikkerheden stiger – I bliver mindre sikre på resultaterne I kan måske ikke udtale jer, om enkelte undergrupper, som I ellers gerne ville sige noget om Man kan generelt blive bekymret for, om der er systematiske skævheder

8 Svarprocenten Hvor stor en andel af dem, man har inviteret til at deltage i undersøgelsen, har besvaret den? En lav svarprocent skaber bekymring om systematisk frafald En generel kvalitetsindikator Bør være mindst 50%

9 Er stikprøven repræsentativ?
Er stikprøven et ”mini-univers” af den population, I gerne vil sige noget om? Hvad ved I om populationen? Har I evt. noget data på populationen, som I kan holde stikprøven op imod? Er der skævheder i stikprøven?

10 Er stikprøven repræsentativ?
Og hvis man ikke kender populationsfordelingerne? Svarprocenten er en god generel kvalitetsindikator Tænk undersøgelses-designet igennem: har jeg virkeligt tænkt på alt? Evt. input fra eksperter, der kender populationen. Ser stikprøven fornuftig ud?

11 Og hvis stikprøven er for lille…
Vil jo ofte skyldes en lav svarprocent Har I mulighed for at lave en rykkerunde? Det er en dårlig løsning bare at sende undersøgelsen ud til flere Alternativt: tag forbehold i fortolkningerne

12 Og hvis stikprøven ikke er repræsentativ…
Nogle grupper er overrepræsenterede og andre underrepræsenterede Hvor slemt er det? Systematisk frafald Hvis svarprocenten er lav – rykkerrunde Ellers må der være noget galt med det undersøgelsesdesign, man bruger Overvej at skifte taktik Ellers: tag forbehold i konklusionerne

13 Efter kvalitetssikringen af stikprøven
Databehandlingen og analysearbejdet kan begynde….

14 Analyse og databehandling
Hvordan vil I arbejde? Hvilken analysetilgang Eksplorativt: Ser, hvad data viser er der noget interessant? Teoretisk/hypotesestyret: Tester hypoteser Afsæt i teori eller forventninger

15 Analyse og databehandling
Ofte arbejder man både eksplorativt og hypotesestyret på samme tid. En ren eksplorativ tilgang kan ende i bevidstløs krydsning af data – husk at have hovedet med Ellers ender I med at finde en masse spuriøse sammenhænge Muligheden for at teste eventuelle hypoteser skal dog være tænkt i undersøgelsesdesignet fra starten Det vil ofte være for sent at komme i tanke om det nu…

16 Analyse og databehandling
De simpleste analyser har en deskriptiv karakter Estimere parametre – andele, gennemsnit ol. ”45 % af de adspurgte er tilfredse med deres job” ”Den gennemsnitlige anciennitet på arbejdspladsen er 3,5 år” Osv.

17 Analyse og databehandling
Skridtet over handler om at afdække sammenhænge og kausaliteter F.eks. sammenhænge mellem baggrundsvariable og holdningsvariable ”De ansatte i HR-afdelingen er markant mere tilfredse med deres job end de øvrige medarbejdere” Finde sammenhænge og blive bedre til at forudsige

18 Analyse og databehandling
I jeres arbejde med at finde sammenhænge i data skal I ikke lave avancerede statistiske analyser Intet mere end frekvens- og krydstabeller I stedet handler det om at bygge et solidt argument op Sandsynliggøre, at der er tale om en sammenhæng

19 Analyse og databehandling
Når I leder efter årsagssammenhænge, skal I huske de tre kriterier, der skal være opfyldt: Tidsrækkefølge, årsag før virkning Statistisk sammenhæng Kontrol for tredjevariabel

20 Analyse og databehandling
Kontrol for tredjevariabel: Sikre, at det virkelige er den uafhængige variabel, der påvirker den afhængige variabel Kontrollere, at der ikke er tale om.. … en spuriøs sammenhæng – en tilfældighed eller en bagvedliggende variabel … En indirekte eller modereret sammenhæng – en tredje variabel … Interaktion

21 Analyse og databehandling
Kontrol for tredjevariabel: Forskellige mere avancerede statistiske analyser kan kontrollere for tredjevariabel Der skal I slet ikke bevæge jer ud I bør dog tænke det ind i jeres forskningsdesign og sikre, at I har mulighed for det – opbygge det gode argument F.eks. Ved at lave nogle krydstabeller og nedbryde data på flere forskellige baggrundsvariable

22 Analyse og databehandling
Statistisk sammenhæng: Værdierne på den afhængige variabel skal ændre sig, når værdierne på den uafhængige variabel ændrer sig Testes statistisk ved hjælp af forskellige sammenhængsmål

23 Analyse og databehandling
Statistisk sammenhæng: I skal ikke ud i statistiske sammenhængsanalyser For jer vil det handle om at at lave krydstabeller og konstatere, at der er en forskel på fordelingerne Husk igen også at kontrollere for tredjevariabel!

24 Inferens Når man går fra stikprøven til populationen
Man undersøger, hvor sikker man kan være på, at estimatet (værdien i stikprøven) er lig med populationsparametren (Værdien i populationen, som man i virkeligheden er interesseret i) Man giver et konkret tal for sandsynligheden herfor eller et interval, hvor indenfor parametren med en vis sandsynlighed befinder sig

25 Inferens Ikke noget I forventes at arbejde med i opgaven
I skal ikke teste for signifikans eller opstille konfidensintervaller Nyttigt begreb at forstå, når I generelt præsenteres for undersøgelser og resultater af undersøgelser

26 Signifikans En signifikanstest siger noget om sandsynligheden for at en sammenhæng man har fundet i sin stikprøve også findes i populationen. Man taler om forskellige signifikansniveauer – typisk 5 % Med et signifikansniveau på 5 % skal sandsynligheden for, at den sammenhæng, vi har fundet i stikprøven også findes i populationen, være større end 95 % Ellers tør vi ikke tro på, at sammenhængen ikke bare er en tilfældighed i vores stikprøve

27 Signifikans Signifikanstesten er en statistisk test, der baserer sig på sandsynlighedsregning Hvis signifikanstesten viser, at en sammenhæng er signifikant på f.eks. et 5% signifikansniveau Så vil det sige, at der kun er en 5 % sandsynlighed for at få det resultat, vi har fundet i stikprøven, hvis sammenhængen ikke også findes i populationen.

28 Signifikans Signifikanstesten fortæller os altså, hvor sikre, vi kan være på resultaterne af vores undersøgelse Det er meget sjældent, at de resultater fra undersøgelser, der bliver gengivet i medierne er blevet signifikanstestet. Så reelt ved man ikke, hvor sikker man kan være på, om den sammenhæng man har fundet, har noget på sig

29 Konfidensinterval Er et bånd rundt om det estimat, man har fundet i stikprøven. Indenfor dette bånd befinder værdien for populationen – ”den sande værdi” sig med en vis sandsynlighed Hvis man har et signifikansniveau på 5% vil værdien for populationen med 95 % sikkerhed befinde sig i kofidensintervallet

30 Konfidensinterval Tænkt eksempel: Hvis man I en stikprøve f.eks. har fundet, at 50,2% af respondenterne angiver at ville stemme på oppositionen, hvis der var valg i morgen, så ligger den sande stemmeandel på oppositionen med 95 % sikkerhed mellem 48,7% og 51,7%

31 Konfidensinterval Hænger sammen med den statistiske usikkerhed
Så jo større en stikprøve, jo smallere bliver båndet – konfidensintervallet Jo større krav man stiller til sandsynligheden for at indfange den sande værdi i intervallet – jo bredere bliver båndet

32 Inferens Konfidensinterval: et bånd omkring den værdi, man har fundet i stikprøven Populationsværdien befinder sig med en vis sandsynlighed indenfor dette bånd

33 Inferens I skal ikke lave avancerede statistiske analyser
Sørg i stedet for at opbygge et solidt argument, der kan sandsynliggøre, at jeres resultater har noget på sig Tjek for tredjevariabel, forhold jer til kvaliteten af jeres stikprøve, undersøgelsesdesignet osv. Vær opmærksom på begreænsingerne

34 Opsamling Inden databehandlingen og analysen – kast et kritisk blik på stikprøven. Er kvaliteten i orden? Eksplorativ eller hypotesestyret analyse I kan estimere parametre – andele og gennemsnit Lede efter årsagssammenhænge I skal ikke lave statistiske analyser – nøjes med frekvenstabeller og krydstabeller Sørg i stedet for at opbygge solide argumenter – tjek for tredjevariabel osv. Signifikanstest og konfidensintervaller er centrale begreber, når man infererer


Download ppt "Databehandling og statistik"

Lignende præsentationer


Annoncer fra Google