Nordisk Evalueringskonference 13. juni 2012

Nordisk Evalueringskonference 13. juni 2012
Svækker eller styrker evidenskampen ”evalueringens” videnskabelige fundering? v. Hanne Kathrine Krogstrup Dekan ved Det Samfundsvidenskabelige Fakultet, Aalborg Universitet

Definition af evaluering
Systematisk retrospektiv vurdering af processer, præstationer og udfald i offentlig politik, som tiltænkes at spille en rolle i praktiske handlingssituationer (Evert Vedung)

Globalisering af evaluering
Udbredelse verden over Tidsskifter, konferencer, internet Organisering i sammenslutninger f.eks. AEA og EES Konkurrence om den ”rigtige evalueringsviden” Evaluering indskrevet i NPM styringsdoktriner Evaluering udvikling sig i bølger Videnskabelige relevanskriterier er kun i begrænset omfang grundlag af metodologi

Evalueringens videnskabelige relevanskriterier
Eksplicitte kriterier Sammenhæng mellem problemets karakter (genstandsfeltet) og metoder = validitet Det ses, at der bestilles evaluering, hvor metodologi er et bestillerkriterium

Tamme problemer Nemme at definere Kan adskilles fra andre problemer
Klare kriterier for bedste løsning Løsningen er af teknisk karakter

Vilde problemer Vanskelige at definere
Vanskelige at adskille fra andre problemer Der er ikke objektive kriterier for den bedste løsning Mange variable er inddraget i løsningen Kontekst har indflydelse på interventionen og på effekterne heraf

Interventioner mod vilde problemer
Komplekse og uregelmæssige Årsagsvirkningssammenhænge kan ikke generes gennem iagttagelse af regelmæssige handlinger Udfordring: Generative mekanismer må identificeres

Generative mekanismer
Alle interventioner er baseret på antagelser om , hvad der virker "Hvad virker, for hvem, hvornår og i hvilken sammenhæng?" Såfremt en effekt ikke opstår, kan det skyldes 1) at interventionsteorien er forkert 2) Implementeringen sker ikke i overensstemmelse med det foreskrevne

Interventionens karakteristika
Interventionsteorier er dynamiske Mange interventionsteorier er i spil Interventioner er ikke lineære Interventioner er indlejret i systemer

Kontekstuafhængig viden/tamme problemer
Interventionen virker uafhængigt af kontekst Resultater kan nemt duplikeres og overføres til en anden kontekst Interventionen er kompleks og mangefacetteret Ingen entydige kausalsammenhænge Vanskelig at identificere entydige kausal- sammenhænge Kontekstafhængig viden/vilde problemer

Deterministisk effekt
Sikker effekt indebærer, at variabel X forårsager Y, hvis og kun hvis X uvægerligt fører til Y. Det betyder, hvis X er til stede, da vil Y nødvendigvis og uundgåeligt forekomme. Sikker effekt udtrykker en lovmæssighed. Et centralt begreb i forbindelse med sikker effekt er” alt andet lige”, så vil X producere Y

Probabilistisk effekt
Sandsynlighedseffekt vil sige, at en forøgelse eller formindskelse af en bestemt faktor tilsvarende vil forøge (eller formindske) sandsynligheden for, at en bestemt effekt er tilstede. Det er således muligt at specificere betingelserne under hvilke X mere eller mindre sandsynligt vil forårsage Y – statistisk og analytisk generalisering

To spor at ”tænke med” Tamme problemer Kontekstuafhængig viden
Entydig Kausalitet Tilnærmelsesvis deterministisk effekt Vilde problemer Kontekstafhængig viden Kompleks og tvetydig kausalitet Probabilistisk effekt

Evalueringsdesign Forskningsbaseret/hverdagsviden
Forskningsbaseret evaluering Eksperimentelle evalueringer Casebaseret evaluering Metaevalueringer Hverdagsevaluering

Eksperimentelle design

Caseorienteret evaluering
Dybde men ikke bredde Hvordan og hvorfor spørgsmål Casestudiet fokusere på særlige tilfælde Kan være multiple (generalisering) Forklaringskraft, når man ved lidt Fokusere på det særlige tilfælde Har ikke eksplicitte metodebindinger

Metaevaluering –eksperimental society
Sammenfatter en række evalueringer Metaevaluering som reviewproces (Cochrane) Udvælgelse af emne Udarbejdelse af forskningsprotokol Godkendelse af protokol Identifikation af primærstudier Selektion af studier, der skal udgå Syntetisering af data Endelig rapport Kontrol af rapportens kvalitet (Foss Hansen og Rieper)

Metaevaluering ”synthesizing”
Problemstilling afklares og præciseres Afsøgning af alle studier og kilder Internet, databaser, personlige kontakter Hypotesegenerering Ny programteori eller forfinelse af eksisterende Syntese: A, be aware of B, take care of C, D can result in both E and F; G and H means …… Formidling helt afgørende (Pawson)

Hverdagsevaluering opfølgning
Præimplementeringsevaluering Metaevaluering Opsummerer antagelser Hurtig vurdering Interview nøgleinformanter Fokusgrupper Observation Survey

Om evidensbegrebet Konflikt om hvad evidensbaseret viden er
Præstationsmålinger har sjældent noget med evidens at gøre Den evidensbaserede viden, der eksisterer anvendes ikke efter hensigten

Evidensbaseret politik
Sammenhængen mellem evidensbaseret politik og evaluering ”Evaluering skal hjælpe beslutningstagere til at udvikle evidensbaseret politik på baggrund af dybtgående videnskabelig viden” (Pawson)

Evidensbegrebets historie
Forskningsoversigter og metaevaluering Organisering af videnskaben Cochrane, Campbell, MTV, Clearinghouse Den medicinske verden USA Kamp i forskersamfundet (Foss Hansen og Rieper)

The Golden Standard-Evidens hierarkiet
Det randomiserede kontrollerede forsøg Quasi-eksperimentelle design Før og efter sammenligninger Procesevaluering, formative studier og aktionsforskning Kvalitative studier og etnografisk design Deskriptive guidelines og eksempler på god praksis Professionelle og ekspertvurderinger Brugervurderinger

Kritik af The Golden Standard
Forskningsresultater giver ikke sikker viden Eksperimentelle og ikke-eksperimentelle studier giver samme resultater Samme intervention udsat for forskellige RKT giver forskellige resultater Kontrol -og indsatsgrupper er i mange sammenhænge ikke mulige at etablere Der er lavet mange årsagsforklaringer uden involvering af eksperimenter Social viden er ikke rationel og entydig men: Fortolket, kontekstuel og dynamisk, midlertidig, inkluderer værdi og ideologi Gennemsnitsviden kan være interessant, men behøver ikke at være det

Evidens begrebets 3 spor
Det eksperimentelle spor Positivisme En virkelighed der kan begribes objektiv, men ikke til fulde Kausalitet er observerbar Det kritiske spor Ikke én virkelighed, men mange virkeligheder Subjektive Kontekst har betydning Kvalitative metoder Neutral og ufortolket viden eksisterer ikke Evaluering er samfundets sociale bevidsthed Maximal effekt negligerer kompleksitet og kontekstuel bunden rationalitet Det pragmatiske spor Objektivitet og subjektivitet er yderpunkter på et kontinuum Metoder afhænger af undersøgelsesspørgsmålet Mange forklaringer, men muligt at identificere kausalsammenhænge Casestudium – kvantitative og kvalitative metoder

Validitet Validitet = gyldighed
” Undersøger forskningen eller evalueringen det den siger, den undersøger” Validitet er et kriterium for logisk test af forskningen Validitetsformer Konstruktionsvaliditet Intern validitet Ekstern validitet Reliabilitet eller pålidelighed

Konstruktionsvaliditet
Operationalisering af det fænomen eller begreb, der studeres i evaluering Udvælgelse af den specifikke forandring, der studeres Sammenhængen mellem mål for intervention og forandring Konstruktionsvaliditet eksperimentelle design Høj konstruktionsvaliditet – fokus på et fænomen- medicinsk forskning enkelt at operationalisere Konstruktionsvaliditet casestudier Vanskelig at etablere og ofte ringe Metoder 1) Mange kilder 2) Test af logiske kæder 3) Prøvelse af den færdige rapport

Intern validitet Relevant når årsagsvirknings- sammenhænge skal identificeres Regler for data skal overholdes sådan, at der ikke etableres falske kausalsammenhænge Hvis det konkluderes, at der er årsagsvirknings- sammenhænge mellem X og Y uden opmærksomhed omkring, at z kunne have forårsaget Y, har resultaterne ikke intern validitet

Det eksperimelle designs interne validitet
Kan være høj Trusler mod intern validitet Ved hvem der modtager behandling Påvirkning af resultater (medicinsk forsknings finansiering af medicinalindustrien) Når kontrol og indsatsgrupper påvirkes forskelligt Frafald der skævvrider sample Utilsigtet forskelle i kontrol- og indsatsgrupper Kontrol- og indsatsgrupper er ofte ikke tilstrækkelige til at beskytte mod systematiske fejl

Casestudiets interne validitet
Casestudiet beskæftiger sig i begrænset omfang med intern validitet En begivenhed giver ikke en følgeslutning – flere begivenheder og inddragelse af kontekst er nødvendig Mangel på intern validitet er så at sige indbygget i casestudiet, og anses for at være en præmis for at studere årsags-virkningssammenhænge i komplekse organisationer

Ekstern validitet Kan resultaterne generaliseres?
Eksperimentelle design har svag fokus på ekstern validitet ”kan generaliseringer ikke gennemføres, ved vi heller ikke, om de virker, og det er problematisk at anvende dem som grundlag for politiske beslutninger” Casestudier (særligt multiple) har høj ekstern validitet

Pålidelighed Vil forskere, der undersøger samme sag, nå frem til samme konklusion? – minimering af fejl og bias Uanset design må pålidelighed søges optimeret gennem beskrivelse af forskningsprotokoller og metoder

Realismen i forestillingen om det evidensbaserede samfund
Evalueringsviden anvendes ikke instrumentelt, men kognitivt og symbolsk Ufuldkommenhed hos forskere Forskningsviden er fragmenteret og ufuldkommen Politiske krav om hurtige resultater skaber overfladisk og kortsigtet viden Metaevalueringer skaber begrænset viden om kontekstspecifikke forhold Ufuldkommenhed hos politikere Anvendelse afhænger af politiske dagsordner og ideologi Vilkårene for kommunikation mellem forskere og politikere er komplicerede: forskellige dagsordner; Skriftlig/mundtlig kommunikation

Autorativ viden/autorative beslutninger
Evidens som forudsætning for bevilling Evalueringsresultater er ofte inkonsistente og modstridende Evidens bæres oppe af magtfulde organisationer Evidens udgør autoritativ viden, der kan lukke eller åbne programmer

Hvad er problemet i det herskende evidensbegreb?
Demokratisk problem at værdier ekskluderes Evidensbaseret viden er ikke nødvendigvis innovativ Evidens implicerer ikke den efterspurgte neutralitet Der er forskel på menneskelig og fysisk aktivitet

Europæiske tendenser versus USA
Ikke samme tendens til at hylde evidens ukritisk Ikke samme fokus på det randomiserede kontrollerede design Højere grad af paradigme-flertydighed En samfundsmæssig kamp mellem evidens og politik (Foss Hansen og Rieper)

Evaluering bør være en videnskabelig disciplin
Tak

Nordisk Evalueringskonference 13. juni 2012

Lignende præsentationer

Præsentationer af emnet: "Nordisk Evalueringskonference 13. juni 2012"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Nordisk Evalueringskonference 13. juni 2012

Lignende præsentationer

Præsentationer af emnet: "Nordisk Evalueringskonference 13. juni 2012"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback