25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.

25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi

25. september 2007 Dias 2 Center for Sprogteknologi Fra maskinoversættelsens historie 1966, ALPAC-rapporten: ”There is no immediate or predictable prospect of useful machine translation” ----------- Hvorfor mente de det? Der var ikke noget stort behov for (maskin)oversættelse i USA på det tidspunkt Mangel på fantasi?

25. september 2007 Dias 3 Center for Sprogteknologi MT evaluering - vigtigt at se det i en sammenhæng Man kan ikke evaluere MT (eller noget andet) uden at definere den ramme det skal bruges i Hvis der fx er tale om MT der skal bruges i en virksomhed Formålet med den oversatte tekst bestemmer den kvalitet man går efter Fx oversætte referater hurtigt til internt brug, oversætte manualer til eksternt brug, oversætte salgsmateriale,… Teksttype og domæne Evt. ressourcer som er til stede Andre krav, fx hvor hurtigt oversættelsen skal være færdig, pris mv.

25. september 2007 Dias 4 Center for Sprogteknologi Evalueringsmetoder Oversættelse er en meget kompleks opgave Der er ikke kun ét rigtigt svar, så det er svært at evaluere Der er arbejdet meget med evalueringsmetoder Det er vigtigt for al evaluering at den er Reliable: altid giver samme resultat for samme input Valid: det man måler giver faktisk svar på det man spørger om Human evaluation Automatic evaluation

25. september 2007 Dias 5 Center for Sprogteknologi FEMTI FEMTI - a Framework for the Evaluation of Machine Translation in ISLE http://www.issco.unige.ch:8080/cocoon/femti/st-home.html Et system der bygger på en taksonomi af evalueringsformål, og en taksonomi af evalueringsmetoder, og som kobler de to. (Demo)

25. september 2007 Dias 6 Center for Sprogteknologi Human evaluation Gennem tiderne har man anvendt flere forskellige metoder. Især har man evalueret Intelligibility Adequacy Fluency Er det forståeligt, har det det rigtige indhold, og er det grammatisk? Det viser sig at det kan være svært at adskille de tre kriterier. Vi vil foreslå at gennemføre scoring af Adequacy og Fluency på en skala fra 1 til 3 for en begrænset mængde sætninger. Det giver en god indsigt. Dog stadig subjektivt. Et andet mål er hvor lang tid det tager at efterredigere en tekst. Objektivt.

25. september 2007 Dias 7 Center for Sprogteknologi Automatiske mål – nogle eksempler Fordelen ved automatisk mål er at de er objektive, de er billige og hurtige Spørgsmålet er om de er valid og reliable. Mange af de automatiske mål forudsætter en eller flere referenceoversættelser, som MT-resultatet måles op imod. Det koster noget at lave referenceoversættelser, men materialet kan bruges flere gange.

25. september 2007 Dias 8 Center for Sprogteknologi Automatiske metoder til MT evaluering Papineni et al.: BLEU: A method for automatic evaluation of Machine Translation, IBM report, 2001 Gennembrud for automatisk evaluering Metode: Man får den tekst, man vil bruge som test af sit MT-system, oversat af flere forskellige oversættere (mennesker) Metoden bygger på at man måler (statistisk) overensstemmelsen mellem det MT-oversatte og referenceoversættelserne Hvis der er god overensstemmelse, er MT-oversættelsen god

25. september 2007 Dias 9 Center for Sprogteknologi BLEU fortsat Fordele ved BLEU Automatisk, derfor billigt Objektivt Man har også påstået god korrelation med human judgement Ulemper ved BLEU Bygger på statistiske metoder, favoriserer derfor SMT Måske er korrelationen med human judgement ikke helt så stor som påstået (flere resultater, bl.a. 2005, 2006, 2007) Succesen er meget afhængig af de referenceoversættelser der produceres Er det sikkert at det er rigtigt at en oversættelse er bedre, jo mere den ligner referencerne? (jf. validity) Desuden har der bredt sig en tendens til at nøjes med én referenceoversættelse Men BLEU kan (måske) anvendes til at måle fremskridt inden for et enkelt system

25. september 2007 Dias 10 Center for Sprogteknologi Andre automatiske mål WER – Word Error Rate Målet anvendes i talegenkendelse – og der er det et godt mål I MT måler man hvor mange af ordene i referenceoversættelsen der også findes i MT-oversættelsen Edit Distance Hertil kræves kun 1 referenceoversættelse Brugeren skal rette MT-outputtet så det bliver ækvivalent med referenceoversættelsen (men ikke lig med, det skal blot have samme indhold og være forståeligt sprog) Der findes software der kan måle antallet af operationer der skal til – men det kræver altså både en referenceoversættelse og en human editor der udfører revisionen. Stadig under udvikling, ser lovende ud. (dog problemer derved at den human editor, der reviderer, er ansat af MT-gruppen, så vedkommende udfører rettelserne efter kalkulationer)

25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.

Lignende præsentationer

Præsentationer af emnet: "25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.

Lignende præsentationer

Præsentationer af emnet: "25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback