Evaluering og Effektmåling i Praksis

Evaluering og Effektmåling i Praksis
Lars Skipper Anvendt KommunalForskning Dansk Evalueringsselskabs konference 2007

Dansk Evalueringsselskabs konference 2007
Evalueringserfaring AMU-deltagelse for nyledige Intro. af temporære kontrakter i Ecuador Virksomhedstræning i en række afrikanske lande Aktiveringsforanstaltninger Voksen- og Efteruddannelse Forælderskab Vaccinationsprogrammer i Tanzania Dansk Evalueringsselskabs konference 2007

Hvorfor evalueringer? THERE IS NO SHORTAGE OF POLICY PROPOSALS. THERE IS, HOWEVER, A SHORTAGE OF EMPIRICAL EVIDENCE ON THE EFFICACY OF THESE POLICIES… (James Heckman ) Dansk Evalueringsselskabs konference 2007

Evalueringsformer Procesevaluering – blev midler allokeret til et givet projekt også faktisk brugt til dette projekt? Blev de korrekte procedurer fulgt? Effektevaluering – hjalp et givet projekt, behørigt defineret, deltagerne? Var projektet selvfinansierende? Hjalp det eller skadede det nogen, som ikke deltog? Der vil i de næste timer alene blive fokuseret på 2. Dansk Evalueringsselskabs konference 2007

Effekter og Effektevaluering
Politikker og programmer iværksat for at støtte økonomisk eller social udvikling kan have positive effekter eller ingen effekter I nogle tilfælde kan fraværet af positive effekter skyldes Ringe design Utilstrækkelig finansiering I andre tilfælde kan fraværet af en positiv effekt skyldes at programmet alene eksisterer for at kanalisere penge fra skatteyderne over til politisk indflydelsesrige virksomheder, individer eller grupper og hvor »økonomisk udvikling« blot fungerer som dække. Dansk Evalueringsselskabs konference 2007

Når programmer ikke producerer (tilstrækkelige) fordele, så kan en afdækning af dette muliggøre at begrænsede ressourcer får lov at blive anvendt på andre, og mere fordelagtige aktiviteter eller at de bliver sent retur til de evigt plagede skatteydere Når programmer producerer fordele, så kan viden om dette medføre politisk opbakning for programmets fortsættelse eller måske endda ekspansion Dansk Evalueringsselskabs konference 2007

Evidens omkring effektiviteten af økonomiske udviklingsprogrammer og politikker kommer fra evalueringer. Disse timer vil indeholde en diskussion af udviklingen inden for evaluering og effektstudier med praktiske eksempler Den akademiske litteratur har været i en voldsom udvikling i de sidste årtier Desværre er praksis mange steder stadig begravet i 1970’erne Dansk Evalueringsselskabs konference 2007

Oversigt De forskellige økonometriske evalueringsestimatorer. Hovedpointe Valg af behørige estimator givet data til rådighed, (den økonomiske) problemstilling og de institutionelle rammer omkring programmet Heterogene »treatment« effekters betydning for evalueringens design og fortolkning Implikationer af generelle ligevægtseffekter for policy evalueringer Dansk Evalueringsselskabs konference 2007

To vigtige pointer Skal man altid evaluere? Også små programmer? Tiden brugt på at læse litteraturen på gode evalueringer af lignende programmer kan give en større indsigt og bedre resultater end en svag evaluering baseret på ringe data foretaget af en utilstrækkeligt kvalificeret empiriker med upassende metoder Dansk Evalueringsselskabs konference 2007

To vigtige pointer Evalueringer sikrer at projektmanagere fremmer målene for deres øverste chefer, nemlig skatteydere og donorer, og ikke blot overfører ressourcer til magtfulde interessegruppe. I praksis eksisterer en masse lavkvalitets-evalueringer alene som dækning for præcis sådan en adfærd. Vigtigt at være meget klar om, Hvad der udgør en god evaluering? Få designet institutioner, der kan reducere denne strøm af vildledende »evalueringer« Evalueringer, når de tages seriøst, er en metode, der sikrer at projektmanagere og politiske beslutnings-tagere fremmer målene for deres øverste chefer, nemlig skatteydere og donorer, og ikke blot overfører ressourcer til magtfulde interessegruppe som program-operatører, politisk favoriserede virksomheder, eller sig selv. I praksis eksisterer en masse lavkvalitets-evalueringer alene som dækning for præcis sådan en adfærd. Af netop den grund er det vigtig at være meget klar om, hvad der udgør en god evaluering og få designet institutioner, der kan reducere denne strøm af vildledende ”evalueringer” Dansk Evalueringsselskabs konference 2007

Programmer og Parametre
Lokale økonomiske udviklingsprogrammer dækker over en bred vifte af initiativer: Human kapital programmer Finansielle og lignende subsidier til professionelle sportsklubber Regionale udviklingsprogrammer Skattesubsidier som lokkemad til bestemte typer virksomheder OSV OSV OSV Dansk Evalueringsselskabs konference 2007

Påvirkede enheder Direkte påvirkede enheder: »treated« Individer; nogle virksomheder; alle virksomheder i et område; byer; regioner; lande. Indirekte påvirkede enheder (teoretisk guide) Konkurrenceforvridning, positive spill-overs, finansieringen. Dansk Evalueringsselskabs konference 2007

Notation I diskussioner af programmer er fokus ofte på effekterne af disse som om effekterne af et program er en veldefineret enhed. Vigtig pointe i dag: Programmer har en bred vifte af effekter! I faglitteraturen taler man om heterogene effekter. Et programs betydning ændrer sig, når vi erkender, at effekter kan variere over populationen af deltagere og i nogle tilfælde endda påvirke ikke-deltagere Dansk Evalueringsselskabs konference 2007

Notation Lad Y benævne en udfaldsvariabel For hver enhed, i, forestiller vi os to verdener. En verden, hvor enhed i deltager, og en verden hvor enheden ikke deltager. I verden med deltagelse benævnes udfaldet Y1i I verden uden deltagelse benævnes udfaldet Y0i Effekten af et program for person i er givet ved Di = Y1i - Y0i Evalueringsproblemet består i at estimere den manglende af de to udfald. løn, beskæftigelse, helbred for individer; profit, antal ansatte, omsætning for virksomheder; antal indbyggere, luftkvaliteten, økonomisk vækst for regioner. Dansk Evalueringsselskabs konference 2007

Notation Standard praksis i litteraturen er at tage gennemsnit af Di hen over forskellige politik-relevante populationer. Lad D angive deltagelse, så Di = 1 for enheder, der deltager, og Di = 0 ellers. Oftest estimeres »Average treatment on the Treated« Estimat på »ATET« og gennemsnitlige omk. muliggør alt-eller-intet CBA Dansk Evalueringsselskabs konference 2007

Notation Alternativt kunne »Average Treatment Effect« estimeres Besvarer spørgsmål omkring »universal programmer« - Når hidtidige programmer fx gøres obligatoriske, har beslutningstagere behov for estimater på »ATET« OG »ATE« - kan variere betragteligt! Dansk Evalueringsselskabs konference 2007

Notation En tredje parameter er marginale eller lokale »Average Treatment Effects«. Måler effekten af et program blandt en gruppe på en relevant margin. Sammenligninger af »MATE« og marginalomkostninger ved udvidelse eller begrænsninger giver cost benefit omkring ændringer på marginen En »MATE« til hver margin! Dansk Evalueringsselskabs konference 2007

Notation Disse parametre vil nogen gange inkludere generelle ligevægtseffekter – afhænger af design af analysen »GE« effekter kommer fra ændringer i adfærden for ikke-behandlede enheder pga. programmet Kan være direkte – ikke-behandlede ændrer adfærd for at kunne få »treatment« Kan være indirekte – som ved ændringer af relative priser eller ved »displacements« Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Række estimatorer præsenteres Hvordan vælger man mellem disse? De er ikke retter i en buffet! Vælg ikke fordi De har et sejt navn Er opfundet af kendte økonomer eller statistikere Er de jour estimatoren Måske er der ikke en passende estimator givet data? Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Sociale Eksperimenter Mest potente værktøj i evaluatorens værktøjskasse Løser problemet med at finde E(Y0| D = 0) »direkte« Kan ikke besvare alle spørgsmål Randomisering kan nogen gang ikke benyttes Randomisering fanger måske ikke »GE« effekter Giver ikke (uden yderligere antagelser) fordelinger af effekter. Meningen med denne diskussion er ikke at give et påskud for dem, som ikke ønsker at få foretaget eksperimenter, fordi de foretrække auraen af uvidenhed/usikkerhed omkring de programmer, som de elsker (eller har økonomiske interesser i – hvilket ofte er det samme). Det er mere for at sikre, at eksperimenter ikke bliver brugt, når de ikke kan eller vil give et svar på et givet spørgsmål og for at sikre, at de tolkes korrekt, når de bruges. Randomisering: demokrati og økonomisk vækst. Politiske faktorer (randomisering af bloktilskud) Ekstern validitet: Selvselektion af centre, der ønsker / indvilliger i at deltage! Randomiseringsbias: risikoen for at blive randomiseret ud gør at man ændrer adfærd INDEN eksperimentet Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Sociale Eksperimenter Praktiske problemer med implementeringen Ekstern validitet Randomiseringsbias (+ Hawthorne effekter) Fortolkning af resultater ved »drop outs« Hvilken behandling får kontrolpersonerne? Sociale Eksperimenter kræver også antagelser! Ekstern validitet: Selvselektion af centre, der ønsker / indvilliger i at deltage! Randomiseringsbias: risikoen for at blive randomiseret ud gør at man ændrer adfærd INDEN eksperimentet Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Sociale Eksperimenter Varianter af randomisering ved deltagelsestidspunktet ved kvalifikationstidspunktet: »Hurtigt i gang« på marginen: »AMU eksperimentet« Flertrinsrandomisering: burde have været i »Hurtigt i gang« Randomisering af incitamenter for deltagelse Hver variant besvarer sit spørgsmål; nogle metoder er måske politisk mere tålelige end andre Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Sociale Eksperimenter Oplægsholderen forstår ikke, hvorfor det ikke er embedsmændene, der bør argumentere for ikke at udføre sociale eksperimenter ved alle dyre eller vigtige offentlige (med-)finansierede programmer, hvor der er behov for en evaluering og hvor det samtidigt er muligt Samfundsvidenskaberne »mangler« deres thalidomid-katastrofe Etiske betragtninger: Der er konflikter mellem de mennesker, der deltager, og etikken bag at opdrive skatter til finansiering af programmer der ikke virker! Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på observerbare karakteristika Eksperimenter løser evalueringsproblemet med det uobserverede kontrafaktum, E(Y0 | D = 1) direkte ved tvungent, og tilfældigt, at holde D = 1 personer, som ville have deltaget under normale omstændigheder, ude af behandlingen I modsætning til dette løser matching eller regressioner evalueringsproblemet ved at antage, at selektionen er urelateret til det »ikke-deltagende« udfald betinget på et sæt af observerbare variable, X Motivation: RA er ofte umuligt at implementere enten pga. omkostninger eller pga. politiske eller sociale hensyn Andre “treatments” er umulige at evaluere med randomisering: sprog, valg af bopæl (og dog), familie-indkomst, børn… Matching virker ikke som RA på nogen anden måde end enhver anden ikke-eksperimentel evalueringsmetode. Alle sådanne metoder er ”som” RA NÅR antagelserne, der retfærdiggør dem, holder i data Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på observerbare karakteristika Betinget uafhængighed siger blot, at deltagelses-beslutningen bliver tilfældig betinget på et sæt af observerbare variable. Betinget uafhængighed er opfyldt, hvis alle variable, der både påvirker beslutningen om deltagelse, D, og fremtidige udfald, Y, observeres Dette er potentielt en meget streng antagelse! Kan kun testes ved at udføre eksperimenter Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på observerbare karakteristika Bemærk, at betinget uafhængighed kan holde for en gruppe variable men ikke for en anden Men valget af X er ikke arbitrært! Teori og institutionel viden kan guide os i valget af variable Matching er KLART at foretrække fra OLS Fri af (altid forkert specificerede) funktionelle former, inkl. homogen effekt Illustrerer »common support« problemet Hvis betinget uafhængighed holder, men ikke linearitet, så er matching konsistent, mens regression ikke er det. Simpelt: Matching gør det åbenbart, om kompatible ikke-deltagende enheder eksisterer for hver af de deltagende enheder. På den måde hjælper matching til ikke at identificere effekter alene ud fra projektioner ud i områder, hvor der ikke er nogen datapunkter. Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på observerbare karakteristika Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på observerbare karakteristika Er dette plausibelt? Det er op til empirikeren at argumentere for dette! Baseres på Økonomisk (eller anden) teori om hvilke variable, der burde betyde noget for deltagelse og udfald Viden om institutionerne, der påvirker selektions- og udfaldsprocesserne Det til rådighed værende data Den eksisterende viden i litteraturen, inklusiv sammenligninger af effekt estimater baseret på matching og eksperimentelle estimater HUSK SUTVA som ved eksperimenter! Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på uobserverbare karakteristika Paneldata metoder Der eksisterer en periode, t, tilbage i tiden, hvor deltagelse i periode t = 0 ikke påvirker udfaldene Stort praktisk problem: Vi er nødt til at have adgang til data fra en periode tilstrækkeligt langt bagud i tid, hvor beslutningen om den fremtidige deltagelse ikke påvirker adfærden (forventning) OG vi (ikke individerne på dette tidspunkt) skal vide, om der er deltagelse i fremtiden Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på uobserverbare karakteristika Paneldata metoder: Before-After Brug et tidligere udfald for den deltagende enhed som dennes egen kontrol-enhed. Holder hvis Nem at estimere Behøver kun data for deltagere Holder kun, hvis forventet værdi af potentielle udfald ikke ændrer sig over tid. MEGET urealistisk antagelse Fx hvis virksomheder kun vælger at deltage i et subsidie-program, når de har et dårligt år og hvis de fleste dårlige år efterfølges af gode år selv i fraværet af subsidier, så vil en før-efter sammenligning af udfaldene for deltagende virksomheder overdrive effekten af subsidierne på virksomhedernes ”performance” ved at tilskrive den normale ”regression til midten” til subsidie Antager også, at aggregerede ændringer i udfaldene, fx bedre konjunkturer, ikke er mulige Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på uobserverbare karakteristika Paneldata metoder: Before-After Eksisterer i et hav af mere eller mindre parametriske versioner, eks. Fixed effects estimatorer og first difference Alle ude af stand til at håndtere »Ashenfelters Dyk« Eks: Deltagere i aktivering i første uge af 1995 Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på uobserverbare karakteristika Paneldata metoder: Difference-in-Difference Antagelsen om at deltagere kan fungere som deres egne kontrolenheder afhænger af temporær stabilitet af de potentielle udfald. Da dette sjældent er plausibelt, forsøger Dif-in-Dif at »rense« for ændringerne i det potentielle kontrol udfald over tid ved at antage at en anden gruppe eksisterer, der ikke er påvirket af deltagelsen, men er påvirket af de samme ændringer og reagerer på disse ændringer på en måde som deltagerne ville have gjort. Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på uobserverbare karakteristika Paneldata metoder: Difference-in-Difference Næsten lige så simpelt at implementere som BA estimatoren. Tager forskellen mellem den gennemsnitlige ændring i de observerede udfald for deltagerne og ændringen i de observerede udfald for ikke-deltagerne Centrale antagelse: udfaldene for deltagere og ikke-deltagere udvikler sig på den samme måde over tid Eksempel: Aktiverede i 1995 og ledige ikke-deltagere Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på uobserverbare karakteristika Instrumental Variables Også nogen gange benævnt »exclusion restriction« Intuitivt er instrumenter variable, som flytter rundt på sandsynligheden for deltagelse, men som ikke påvirker udfaldsvariablene andet end gennem deres effekt på deltagelse Statistisk er instrumenter variable, der er korrelerede med den endogene variabel, her deltagelsesbeslutningen D, men som ikke er korrelerede med uobserverbare variable i udfaldsligningen Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på uobserverbare karakteristika Instrumental Variables Tre mulige måder at finde gode instrumenter på Teori kombineret med smart dataindsamling: Eks. afstand til universitet Eksogen variation i administrative implementeringer: Eks. sagsbehandler attitude, variation i pasningsgaranti over kommuner Bevist konstruktion: Eks. eksperiment eller lotteri (session). Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Selektion på uobserverbare karakteristika Instrumental Variables Fordele: Nem at implementere. Både Heckman selection model og IV ligger som standard procedurer i de fleste statistikprogrammer. Fortolkningen er ofte lige til og policy-relevant. Ulempe: Mange gange svært at argumentere for uafhængigheden af instrumentet med uobserverede led i udfaldsligningen. Litteraturen er ikke overstrøget med eksempler på instrumenter. Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Regression Discontinuity Design Er estimatoren i øjeblikket i faglitteraturen Idé: Der eksisterer en gruppe af ikke-deltagere, som er tilstrækkelig lig deltagere bortset fra (ofte) én variabel, som reducerer deltagelsessandsynligheden deterministisk (eller »fuzzy« ) til nul Eksempel: Hvis et træningsprogram kun er tilgængeligt for unge under 25, så i det mindste for året, hvor programmet introduceres, vil der være ikke-deltagere på 26, som måske er en god sammen-ligningsgruppe for de 25 årige (forudseenhed?). Andet eksempel: Forbrydelse & Straf Dansk Evalueringsselskabs konference 2007

Dansk Evalueringsselskabs konference 2007

Interpretation: young criminals are either stupid (incorrect information set about punishment or simply irrational), extremely impatient (d way below 0.1), myopic, or all of the above Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Generel Ligevægtsmodeller Fire typer af modeller: Alle ovenstående – antager problemet væk Multiple ligningssystemer – gammeldags og ikke klart hvordan kanalerne virker. Identifikation? »Magiske multiplikatorer«. Sjældent funderet i noget (hvilket selvfølgelig gør dem attraktive). Direkte estimation / kalibrering af strukturel generel ligevægtsmodel Multiple ligningssystemer: svære at holde af, men kravet om tal kombineret med fraværet af simple alternativer holder dem i spil. Husk Arrow og vejrudsigter under 2. verdenskrig Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Strukturel »GE«-model: SSP i Canada. SSP meget lig det danske ”Ret og Pligt til løntilskud” for langtidsledige Stor succes i tidlige 1990’ere som eksperimentelt forsøg Målgruppe: Langtidsledige enlige forældre på kontanthjælp Foranstaltning: Betinget på fuldtidsbeskæftigelse (min 30 t/u) fik man halvdelen af forskellen mellem $3,000 og lønindkomsten pr måned i op til tre år Eksempel: Mor på kontanthjælp får $ 712 pr måned. 30 t/u til $ 5.00 = $650. Modregnes fuldt ud I kontanthjælpen. Men under SSP 0.5*(3, ) = $1,175… $712 vs. $1,825 Result: Imponerende ATET effekter på beskæftigelsen og ssh for kontanthjælpsmodtagelse. Kortsigtseffekt på14 procent points. (En af) de største effekter målt ved eksperimentelle evalueringslitteratur Men ‘kun’ 7 % efter 1½ år Dansk Evalueringsselskabs konference 2007

Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Strukturel »GE«-model: SSP i Canada Kombination af randomisering flere steder i processen samt kon-struktionen af en »GE«-model muliggjorde »komplet« evaluering: Ingen samlet effekt på beskæftigelsen: Dagpengemodtagere oplevede et fald i deres beskæftigelseschancer - BÅDE ligevægtseffekt OG en reaktion på nye incitamenter Et fald i lønniveauet: Man er villig til at acceptere lavere løn som følge af tilskuddet MEN blandt andre lønmodtagere steg lønnen en lille smule. Forhandlingsposition bedre for lønmodtagere! RESULT: CBA konklusioner vendt på hovedet. Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Valg af estimator Sociale eksperimenter mest overbevisende Når dette ikke er muligt, må en af de andre bruges. Faglitteraturen er efterhånden fyldt med eksempler, hvor ikke-eksperimentelle estimatorer har været anvendt på eksperimentelt data. En række forskellige scenarier at vælge imellem. Tidligere var litteraturen i vidt omfang fokuseret på at finde den »magiske økse« der kunne slå panden ind på monstret »selv-selektion« Der er ingen sølvkugle! Som gennemgået, så hviler forskellige ikke-eksperimentelle evalueringsstrategier på forskellige antagelser om karakteren af selektionsprocessen og om tilrådighedværende data. Når disse antagelser holder så vil en given estimator producere konsistente estimater på bestemte interesse-parametre. Når antagelserne ikke er overholdt vil den ikke! Så i stedet for at lede efter en bestemt estimator, der virker ”universelt”, så lægger litteraturen i dag vægt på sammenhængen /mappingen mellem institutioner og data til rådighed i en given kontekst og valget af ikke-ekperimentel strategi. Nogen gange er data bare så ringe, at man ikke KAN gøre noget. Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Valg af estimator »Åbenbare« bemærkninger Hvis man læner sig op ad selektion på observerbare karakteristika, så skal data være rigt! Sammenlign individer fra samme arbejdsmarked, brug samme mål for udfaldsvariablen, brug information om dynamikken i selektionsprocessen. Få forståelse for institutionerne bag selektionen! Hvis man bruger IV, så skal man have et instrument! Hvis man bruger paneldata metoder, så skal man have data i et panel! Dansk Evalueringsselskabs konference 2007

Alternativer til Økonometrisk Evaluering
Deltageres selvevaluering eller oplevet udbytte spørge / interviewe deltagere eller sagsbehandlere direkte om, efter endt deltagelse, programmet havde nogle gavnlige effekter og i bekræftende fald, hvor store disse så var? Dette ville spare folk med ansvar for evalueringerne masser af tid, penge, og indsats, hvis deltagere eller deres sagsbehandlere på troværdig vis kunne evaluere et program direkte. Dansk Evalueringsselskabs konference 2007

Deltageres selvevaluering eller oplevet udbytte Ringe evidens for at dette. For at være valide og brugbare, må respondenterne være i stand til korrekt at estimere kontrafaktum – hvordan det ville være gået hvis ikke de havde deltaget i interventionen – og så foretage en meningsfyldt sammenligning med det faktiske udfald. kognitive begrænsninger af betydning (de fleste af os er dårlige »intuitive statistikere«) problemer af survey-mæssig karakter (den adspurgte ønsker måske ikke at fornærme udspørgeren ved at tilkendegive, at indsatsen var virkningsløs, eller måske oven i købet indrømme over for sig selv, at deltagelsen havde været spild af tid og ressourcer?). Dansk Evalueringsselskabs konference 2007

Deltageres selvevaluering eller oplevet udbytte Dette er selvfølgelig ikke det samme, som at der ikke kan udtrækkes nyttig information fra interviews med involverede aktører årsager til deltagelsen forventningerne til denne mulige bureaukratiske og administrative hindringer, der besværliggør deltagelsen etc. Dansk Evalueringsselskabs konference 2007

Performance Standarder »Reinventing Government« potentielt billigt værktøj til effekt analyser. Består typisk af en række kvantitative mål for en indsats’ output (antallet af rettidigt servicerede klienter, fx) eller udfald (hvor mange af de servicerede klienter havde fundet job seks måneder efter endt deltagelse). Disse mål er som regel en funktion af Y1 Udbredt i offentlige administration. Dansk Evalueringsselskabs konference 2007

Performance Standarder Nogle gange fortæller de alt, hvad man har behov for at vide: Er det opgaven at evaluere om en given socialrådgiverafdeling har kontakt med sine klienter minimum én gang pr tredje måned, så vil et mål, der angiver andelen af klienterne, som kontaktes minimum hver tredje måned give (hvis ikke andet så) et skøn på om forskrifter overholdes. Hvis sagsbehandleres indsats alene består af et output (en samtale) og ikke en effekt, så er mål for output et tilstrækkeligt styringsredskab. Selvfølgelig vil samtalen have adfærdsmæssige effekter på klienten, som interesserer forskere og andre. Sådanne effekter fanges ingenlunde af performance standarder baseret på hverken outcome eller output. Dansk Evalueringsselskabs konference 2007

Hvornår skal man ikke evaluere?
Evalueringer tager tid og ressourcer. Evalueringer, lige som de programmer der evalueres, bør derfor kun foretages, når fordelen ved sådanne har mulighed for at overstige deres omkostninger! I en række situationer vil en evaluering ikke kunne passere et standard »cost-benefit« test, hvorfor pengene, der ville have været brugt på en evaluering heller bør bruges på andre ting. Dansk Evalueringsselskabs konference 2007

Hvis midlerne er små og andre basale administrative funktioner ikke er på plads Før man foretager en evaluering bør program administratorer have en klar idé om hvem der deltager, om deltagerne over-hovedet har ret til dette? Og hvis deltagelse er frivilligt, hvordan ser deltagerne så ud ift. mulige deltagere? Man bør også have et klart billede af hvor mange penge, der bruges på programmet, hvad disse bliver brugt på, og hvilke enheder, som pengene bliver brugt på. Indsamling og undersøgelse af disse informationer bør være et krav til program managere, som optræder som bestyrere af skatteydernes midler Disse pligter bør være overholdt inden man kaster sig ud i en evaluering; Et program der er ikke er under kontrol mht. hvem der deltager og hvad det koster har ikke mange chancer for at producere positive effekter Dansk Evalueringsselskabs konference 2007

Hvis effekten af et program er kendt på forhånd: Måske eksisterer der allerede masser af evalueringer af høj kvalitet af en bestemt type program? Hvis programmet alene eksisterer for at transferere penge til politisk begunstigede individer, firmaer eller interessegrupper og hvor »økonomisk udvikling« bare bruges til at retfærdiggøre dette over for en ligegyldig offentlighed og ubehjælpsomme medier Hvis antallet af deltagere er utilstrækkeligt til statistisk inferens: Et program, der servicerer 20 skoler, fem virksomheder eller 35 ledige kan ikke effektevalueres Subsidier eller andre former for begunstigelser til bestemte virksomheder, man gerne vil have placerer sig i ens nærområde er et eksempel på det sidste. Set fra et nationalt synspunkt kan sådanne programmer allerhøjest have nul effekt, og i det omfang at det medvirker til geografisk fejlallokering af produktion kan det ligefremt være skadeligt. Dansk Evalueringsselskabs konference 2007

Hvis data ikke er til stede eller er dyrt at indsamle: Mange ret dyre evalueringer af større offentlige programmer hviler ofte på survey data med chokerende lave svarprocenter Der eksisterer en nedre grænse for datakvalitet, hvorunder evalueringer bliver meningsløse! Hvis man ikke er i besiddelse af tilstrækkelig ekspertise til at foretage evalueringerne Især ikke, hvis der allerede eksisterer studier på området Svagt udførte evalueringer er ikke pengene (ingen penge) værd »Quick & Dirty« er »GIGO« Dansk Evalueringsselskabs konference 2007

Valg af Evaluator Ikke beskyttet titel! Eksperimenter er sværere end man tror. Hvis man påtænker at udføre et og man ikke har prøvet det før, så få fat i et firma, der ved hvordan det skal gøres. Forskellige evalueringseksperter har forskellige ekspertiser – skal matches med ens behov. Nogle såkaldte eksperter vil gladelig tage imod pengene fra en vunden opgave og aflevere noget – rent ud sagt – makværk. Se Gregory (2000) i Evaluation. Nogen gange kan man få foretaget den statistiske analyse af en evaluering næsten gratis, hvis bare man stiller interessant data til rådighed for forskere og garanterer, at disse må trykkes i videnskabelige tidsskrifter Professionelle firmaer er selvfølgelig dyrest men har også masser af erfaring og leverer et velpoleret produkt til tiden og til lovede pris. Akademikere er ofte billigere, har ofte bedre kendskab til statistik og økonometri men har en lavere sandsynlighed for at aflevere produktet til tiden og det endelige produkt er også mindre velpudset. Dansk Evalueringsselskabs konference 2007

Valg af Evaluator Evalueringer bør også evalueres. Måske sidder man ikke inhouse med den tilstrækkelige viden til at vurdere kvaliteten af en rapport. Ekstern kvalitetskontrol kan være en stor gevinst for evalueringens kvalitet og troværdighed. Dansk Evalueringsselskabs konference 2007

Konklusion RTFM: Læs litteraturen. Store fremskridt i de sidste to årtier. Både mht. metode og praksis; dataindsamling, værdien af administrative data og smarte identifikationsstrategier Der er ingen »magic bullet«: Der eksisterer ingen økonometrisk eller statistisk strategi/estimator, der altid vil give konsistente estimater for vilkårlige kombinationer af data, institutionelle rammer og parametre, man måtte være interesseret i. Heterogene effekter betyder noget! De påvirker valget og fortolkningen af ens empiriske estimater. Tilstedeværelsen af disse forudsætter grundige overvejelser omkring den præcise parameter, som vil kunne svare på et specifikt spørgsmål. Ligevægtseffekter betyder noget. Anbefalinger, der ikke tager højde for sådanne risikerer at gøre mere skade end gavn. Ikke alle programmer kan med fordel evalueres. Overvej dette og foretag en uformel cost-benefit analyse inden selve evalueringen påbegyndes Dansk Evalueringsselskabs konference 2007

Evaluering og Effektmåling i Praksis

Lignende præsentationer

Præsentationer af emnet: "Evaluering og Effektmåling i Praksis"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Evaluering og Effektmåling i Praksis

Lignende præsentationer

Præsentationer af emnet: "Evaluering og Effektmåling i Praksis"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback