Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Evaluering af MT SDMT-SMV2 Workshop 2 Bente Maegaard, Lene Offersgaard Center for Sprogteknologi, Københavns Universitet

Lignende præsentationer


Præsentationer af emnet: "Evaluering af MT SDMT-SMV2 Workshop 2 Bente Maegaard, Lene Offersgaard Center for Sprogteknologi, Københavns Universitet"— Præsentationens transcript:

1 Evaluering af MT SDMT-SMV2 Workshop 2 Bente Maegaard, Lene Offersgaard Center for Sprogteknologi, Københavns Universitet bente@cst.dk, loff@cst.dk

2 SDMT-SMV2, september 2007 2 Disposition Evaluering af MT og SMT generelt Human evaluation Bleu TER Resultater fra udvik

3 SDMT-SMV2, september 2007 3 MT evaluering – vigtige spørgsmål Man kan ikke evaluere MT (eller noget andet) uden at definere den ramme det skal bruges i Formålet med evalueringen (forskning, anvendelse, mv.) Hvis der er tale om MT der skal bruges i en virksomhed Formålet med den oversatte tekst (fx oversætte referater hurtigt til internt brug, oversætte manualer til eksternt brug, oversætte salgsmateriale,…) Bestemmer den kvalitet man skal gå efter Teksttype, domæne De ressourcer der er til stede De krav der stilles, fx om hvor hurtigt oversættelsen skal være klar

4 SDMT-SMV2, september 2007 4 Et væsentligt bidrag vedr. evalueringsmetoder Van Slype: Critical Study of Methods for Evaluating the Quality of Machine Translation, Bruxelles 1979 Et hovedbidrag til evalueringslitteraturen Van Slype fastslår at der er to typer evaluering: brugernes og lingvistens Lingvisten taler om hvor mange leksikalske fejl, hvor mange grammatiske fejl, af hvilken type mv. Brugeren er interesseret i, om det kan bruges, hvad det koster, hvad det koster at efterredigere, om det kan hjælpe til at levere varen til tiden mv.

5 SDMT-SMV2, september 2007 5 Papineni et al.: BLEU: A method for automatic evaluation of Machine Translation, IBM report, 2001 Metode: Man får den tekst, man vil bruge som test af sit MT-system, oversat af flere forskellige oversættere (mennesker): referenceoversættelse Metoden bygger på at man måler (statistisk) overensstemmelsen mellem det MT-oversatte og referenceoversættelserne Hvis der er god overensstemmelse, er MT-oversættelsen god Man ”tæller” n-grammer: 1-gram, 2-gram, 3-gram, 4-gram i oversættelsen i forhold til reference-tekster Værdier mellem 0-1 BLEU: Automatisk metode til MT-evaluering

6 SDMT-SMV2, september 2007 6 BLEU 2 Meget brugt mål til evaluering af systemudvikling i forskningen, når fokus er på algoritmer Har ulemper, fordi man ikke helt forstår hvad Bleu måler Ord der har anden placering i output end reference straffes ikke Der vægtes ikke mht. indhold Forbedringer ses måske ikke i Bleu-målet… Re-evaluating the Role of BLEU in Machine Translation Research

7 SDMT-SMV2, september 2007 7 TER – Translation edit rate Translation Error Rate is an error metric for machine translation that messures the number of edits required to change a system output into one of the references. NOTE: HTER (TER with human targeted references) requires post- editing of system output A Study of Translation Edit Rate with Targeted Human Annotation Matthew Snover and Bonnier Dorr, Procedings of AMTA 2006

8 SDMT-SMV2, september 2007 8 Tilpasninger i forhold til pilotsystem Behov for forskellig tilpasning af: tokenisering kommatering ”fixed phrases” Udgangspunktet er det samme system, men der er lavet firmaafhængige tilpasninger. De udfordringer som synes nødvendige at gå videre med hvis systemet skal modnes: Forbedring af oversættelseskvaliteten ved firmaadskilte phrase-tables Markering af uoversættelige segmenter Markering af ukendte ord inden oversættelse Løbende opdatering af phrase-tables med nye oversættelser


Download ppt "Evaluering af MT SDMT-SMV2 Workshop 2 Bente Maegaard, Lene Offersgaard Center for Sprogteknologi, Københavns Universitet"

Lignende præsentationer


Annoncer fra Google