25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.

25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi

25. september 2007 Dias 2 Center for Sprogteknologi Fra maskinoversættelsens historie 1966, ALPAC-rapporten: ”There is no immediate or predictable prospect of useful machine translation” ----------- Hvorfor mente de det? Der var ikke noget stort behov for (maskin)oversættelse i USA på det tidspunkt Mangel på fantasi?

25. september 2007 Dias 3 Center for Sprogteknologi MT evaluering - vigtigt at se det i en sammenhæng Man kan ikke evaluere MT (eller noget andet) uden at definere den ramme det skal bruges i Hvis der fx er tale om MT der skal bruges i en virksomhed Formålet med den oversatte tekst bestemmer den kvalitet man går efter Fx oversætte referater hurtigt til internt brug, oversætte manualer til eksternt brug, oversætte salgsmateriale,… Teksttype og domæne Evt. ressourcer som er til stede Andre krav, fx hvor hurtigt oversættelsen skal være færdig, pris mv.

25. september 2007 Dias 4 Center for Sprogteknologi Evalueringsmetoder Oversættelse er en meget kompleks opgave Der er ikke kun ét rigtigt svar, så det er svært at evaluere Der er arbejdet meget med evalueringsmetoder Det er vigtigt for al evaluering at den er Reliable: altid giver samme resultat for samme input Valid: det man måler giver faktisk svar på det man spørger om Human evaluation Automatic evaluation

25. september 2007 Dias 5 Center for Sprogteknologi FEMTI FEMTI - a Framework for the Evaluation of Machine Translation in ISLE http://www.issco.unige.ch:8080/cocoon/femti/st-home.html Et system der bygger på en taksonomi af evalueringsformål, og en taksonomi af evalueringsmetoder, og som kobler de to. (Demo)

25. september 2007 Dias 6 Center for Sprogteknologi Human evaluation Gennem tiderne har man anvendt flere forskellige metoder. Især har man evalueret Intelligibility Adequacy Fluency Er det forståeligt, har det det rigtige indhold, og er det grammatisk? Det viser sig at det kan være svært at adskille de tre kriterier. Vi vil foreslå at gennemføre scoring af Adequacy og Fluency på en skala fra 1 til 3 for en begrænset mængde sætninger. Det giver en god indsigt. Dog stadig subjektivt. Et andet mål er hvor lang tid det tager at efterredigere en tekst. Objektivt.

25. september 2007 Dias 7 Center for Sprogteknologi Automatiske mål – nogle eksempler Fordelen ved automatisk mål er at de er objektive, de er billige og hurtige Spørgsmålet er om de er valid og reliable. Mange af de automatiske mål forudsætter en eller flere referenceoversættelser, som MT-resultatet måles op imod. Det koster noget at lave referenceoversættelser, men materialet kan bruges flere gange.

25. september 2007 Dias 8 Center for Sprogteknologi Automatiske metoder til MT evaluering Papineni et al.: BLEU: A method for automatic evaluation of Machine Translation, IBM report, 2001 Gennembrud for automatisk evaluering Metode: Man får den tekst, man vil bruge som test af sit MT-system, oversat af flere forskellige oversættere (mennesker) Metoden bygger på at man måler (statistisk) overensstemmelsen mellem det MT-oversatte og referenceoversættelserne Hvis der er god overensstemmelse, er MT-oversættelsen god

25. september 2007 Dias 9 Center for Sprogteknologi BLEU fortsat Fordele ved BLEU Automatisk, derfor billigt Objektivt Man har også påstået god korrelation med human judgement Ulemper ved BLEU Bygger på statistiske metoder, favoriserer derfor SMT Måske er korrelationen med human judgement ikke helt så stor som påstået (flere resultater, bl.a. 2005, 2006, 2007) Succesen er meget afhængig af de referenceoversættelser der produceres Er det sikkert at det er rigtigt at en oversættelse er bedre, jo mere den ligner referencerne? (jf. validity) Desuden har der bredt sig en tendens til at nøjes med én referenceoversættelse Men BLEU kan (måske) anvendes til at måle fremskridt inden for et enkelt system

25. september 2007 Dias 10 Center for Sprogteknologi Andre automatiske mål WER – Word Error Rate Målet anvendes i talegenkendelse – og der er det et godt mål I MT måler man hvor mange af ordene i referenceoversættelsen der også findes i MT-oversættelsen Edit Distance Hertil kræves kun 1 referenceoversættelse Brugeren skal rette MT-outputtet så det bliver ækvivalent med referenceoversættelsen (men ikke lig med, det skal blot have samme indhold og være forståeligt sprog) Der findes software der kan måle antallet af operationer der skal til – men det kræver altså både en referenceoversættelse og en human editor der udfører revisionen. Stadig under udvikling, ser lovende ud. (dog problemer derved at den human editor, der reviderer, er ansat af MT-gruppen, så vedkommende udfører rettelserne efter kalkulationer)

25. september 2007 Dias 11 Center for Sprogteknologi Del 2 Lidt mere om BLEU Translation Edit rate: TER Resultater fra udviklingstest Forslag til diskussion

25. september 2007 Dias 12 Center for Sprogteknologi Lidt mere om BLEU: metoden Man ”tæller” n-grammer: 1-gram, 2-gram, 3-gram, 4-gram i oversættelsen i forhold til reference-tekster Værdier mellem 0-1 Har ulemper, fordi man ikke helt forstår hvad Bleu måler Ord der har håbløs placering i output end reference straffes ikke Re-evaluating the Role of BLEU in Machine Translation Research Der vægtes ikke mht. indhold – det er også rigtig svært

25. september 2007 Dias 13 Center for Sprogteknologi TER – Translation edit rate Translation Edit Rate Et fejlmål/kvalitetsmål for MT som måler antal nødvendige editeringer der er nødvendige for at ændre system-output til en af reference-oversættelserne Lav værdi bedst! Reference: A Study of Translation Edit Rate with Targeted Human Annotation Matthew Snover and Bonnier Dorr, Procedings of AMTA 2006

25. september 2007 Dias 14 Center for Sprogteknologi TER – Fejltyper Fejltyper: Insertion Deletion Substitution Shift Eksempler på TER-fejltyper fra de modtagne dokumenter fra Interset: Insertion – indsættelse af manglende ord/ordsekvens REF: hvis problemet fortsætter, skal du frakoble strømkilden og kontakte din - forhandler. SMT:hvis problemet fortsætter, skal du fjerner strømforsyningen og kontakte - forhandleren.

25. september 2007 Dias 15 Center for Sprogteknologi TER – Deletion Deletion – sletning af ord/ordsekvens REF:optagetiden ved brug af camcordere, der anvender digital8 -systemet på / standard 8 mm -bånd, udgør 2 / 3 af optagetiden ved brug af en almindelig camcorder, der anvender / standard 8 mm -systemet. SMT: optagetiden, når du anvender camcorderen med digital8 -systemet på / standard 8 mm -bånd, er optagetiden 2 / 3 af optagetiden ved brug af en almindelig camcorder, der anvender / standard 8 mm -systemet.

25. september 2007 Dias 16 Center for Sprogteknologi TER – Substitution Substitution – omplaceret ord/ordsekvens REF: hvis problemet fortsætter, skal du frakoble strømkilden og kontakte din - forhandler. SMT:hvis problemet fortsætter, skal du fjerner strømforsyningen og kontakte – forhandleren.

25. september 2007 Dias 17 Center for Sprogteknologi TER – Shift shift – omplacering af ord eller ordsekvens REF: hvis du ved et uheld indsætter en " " uden en -adapter, skal du holde camcorderen, så " " -åbningen vender nedad. SMT:hvis du vil indsætte en “ ” uden en adapter ved et uheld, hold camcorderen så “ ” åbningen er nedad, og hold dækslet toothpick objekt eller en side med lignende at lade “ ” skub ud. Hvorfor shifts: Shifts: output hvor der er blot er flyttet om på en række ord, straffes ikke så hårdt som ved WER eller BLEU

25. september 2007 Dias 18 Center for Sprogteknologi TER – Translation edit rate Alle fejl tæller som en editering Evalueringen sker automatisk Der benyttes en ”greedy search” Der udregnes iterativt ”min-edit distance (Levenstein) En specifik udgave: HTER HTER (TER with human targeted references) Baseres på at man måler forskelen til en post-editeret version af system-output

25. september 2007 Dias 19 Center for Sprogteknologi Udviklings test: BLEU og TER Reference materiale: tokeniseret og uden ”casing” Meget forskel på resultaterne for de forskellige dele af testmaterialet :Noget lidt bedre, noget lidt dårligere Test dataBLEU baselineTER baselineTER no reord. 1:Camcorder0.576532.4533.17 2:Dan_P11_Enduser0.795614.2014.82 3:DVD_afspillere0.463440.0239.00 4:Lexmarkny0.598027.8124.39 5:Nokia0.701022.6022.69 Total0.681123.9223.80 Total, ingen omrokering0.6822

25. september 2007 Dias 20 Center for Sprogteknologi Udviklings test: TER detaljer Hypothesis File: testd.da.smt.id Reference File: testdu.da.id Ave-Reference File: testdu.da.id Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER ------------------------------------------------------------------------------------- 1:Camcorder | 208 | 160 | 604 | 103 | 137 | 1075.0 | 3313 | 32.448 2:Dan_P11_Endu. | 243 | 209 | 488 | 104 | 223 | 1044.0 | 7353 | 14.198 3:DVD_afspillere | 181 | 146 | 527 | 128 | 147 | 982.0 | 2454 | 40.016 4:Lexmarkny | 103 | 99 | 258 | 110 | 132 | 570.0 | 2050 | 27.805 5:Nokia | 148 | 117 | 387 | 81 | 133 | 733.0 | 3244 | 22.596 ------------------------------------------------------------------------------------- TOTAL | 883 | 731 | 2264 | 526 | 772 | 4404.0 | 18414 | 23.917

25. september 2007 Dias 21 Center for Sprogteknologi Udviklings test: TER detaljer Hypothesis File: testdwp_1lm.da.smt.id Reference File: testdu.da.id Ave-Reference File: testdu.da.id Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER ------------------------------------------------------------------------------------- 1:Camcorder | 150 | 235 | 566 | 106 | 138 | 1057.0 | 3313.000 | 31.905 2:Dan_P11_Endu. | 166 | 290 | 495 | 104 | 209 | 1055.0 | 7353.000 | 14.348 3:DVD_afspillere | 148 | 178 | 512 | 139 | 165 | 977.0 | 2454.000 | 39.813 4:Lexmarkny | 76 | 122 | 262 | 96 113 | 556.0 | 2050.000 | 27.122 5:Nokia | 122 | 188 | 405 | 82 | 140 | 797.0 | 3244.000 | 24.568 ------------------------------------------------------------------------------------- TOTAL | 662 | 1013 | 2240 | 527 | 765 | 4442.0 | 18414 | 24.123 |

25. september 2007 Dias 22 Center for Sprogteknologi Forslag til diskussion Diskussion af: Forskellige under-domæner Udvidelse af træningsmateriale Udnyttelse af pos-tags Hvad skal systemet testes på? Hvilke under-domæner, måske vælge to? 2 personer vurderer fluency og adequacy, skala 1-3 samme 50-100 sætninger vurderes Måske forbedre/opdatere system i testfasen Efterredigering af system output: Brug af HTER Trados <> SMT tidsmåling

25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.

Lignende præsentationer

Præsentationer af emnet: "25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.

Lignende præsentationer

Præsentationer af emnet: "25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback