25. sep Dias 1 Center for Sprogteknologi Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007 Inter-set SMT med MOSES og POS
25. sep Dias 2 Center for Sprogteknologi Disposition Lidt mere om BLEU Translation Edit rate: TER Resultater fra udviklingstest Forslag til diskussion
25. sep Dias 3 Center for Sprogteknologi BLEU: Automatisk metode til MT-evaluering Papineni et al.: BLEU: A method for automatic evaluation of Machine Translation, IBM report, 2001 Metode: Man får den tekst, man vil bruge som test af sit MT-system, oversat af flere forskellige oversættere (mennesker): referenceoversættelse Metoden bygger på at man måler (statistisk) overensstemmelsen mellem det MT-oversatte og referenceoversættelserne Hvis der er god overensstemmelse, er MT-oversættelsen god Man ”tæller” n-grammer: 1-gram, 2-gram, 3-gram, 4-gram i oversættelsen i forhold til reference-tekster Værdier mellem 0-1
25. sep Dias 4 Center for Sprogteknologi Bleu 2 Meget brugt mål til evaluering af systemudvikling i forskningen, når fokus er på algoritmer Har ulemper, fordi man ikke helt forstår hvad Bleu måler Ord der har anden placering i output end reference straffes ikke Der vægtes ikke mht. indholdsord Forbedringer ses måske ikke i Bleu-målet… Re-evaluating the Role of BLEU in Machine Translation ResearchRe-evaluating the Role of BLEU in Machine Translation Research
25. sep Dias 5 Center for Sprogteknologi TER – Translation edit rate Translation Edit Rate Et fejlmål/kvalitetsmål for MT som måler antal nødvendige editeringer der er nødvendige for at ændre system-output til en af reference-oversættelserne Lav værdi bedst! Reference: A Study of Translation Edit Rate with Targeted Human Annotation Matthew Snover and Bonnier Dorr, Procedings of AMTA 2006
25. sep Dias 6 Center for Sprogteknologi TER – Fejltyper Fejltyper: Insertion Deletion Substitution Shift Eksempler på TER-fejltyper fra de modtagne dokumenter fra Interset: Insertion – indsættelse af manglende ord/ordsekvens REF: hvis problemet fortsætter, skal du frakoble strømkilden og kontakte din - forhandler. SMT:hvis problemet fortsætter, skal du fjerner strømforsyningen og kontakte - forhandleren.
25. sep Dias 7 Center for Sprogteknologi TER – Deletion Deletion – sletning af ord/ordsekvens REF:optagetiden ved brug af camcordere, der anvender digital8 -systemet på / standard 8 mm -bånd, udgør 2 / 3 af optagetiden ved brug af en almindelig camcorder, der anvender / standard 8 mm -systemet. SMT: optagetiden, når du anvender camcorderen med digital8 -systemet på / standard 8 mm -bånd, er optagetiden 2 / 3 af optagetiden ved brug af en almindelig camcorder, der anvender / standard 8 mm -systemet.
25. sep Dias 8 Center for Sprogteknologi TER – Substitution Substitution – omplaceret ord/ordsekvens REF: hvis problemet fortsætter, skal du frakoble strømkilden og kontakte din - forhandler. SMT:hvis problemet fortsætter, skal du fjerner strømforsyningen og kontakte – forhandleren.
25. sep Dias 9 Center for Sprogteknologi TER – Shift shift – omplacering af ord eller ordsekvens REF: hvis du ved et uheld indsætter en " " uden en -adapter, skal du holde camcorderen, så " " -åbningen vender nedad. SMT:hvis du vil indsætte en “ ” uden en adapter ved et uheld, hold camcorderen så “ ” åbningen er nedad, og hold dækslet toothpick objekt eller en side med lignende at lade “ ” skub ud. Hvorfor shifts: Shifts: output hvor der er blot er flyttet om på en række ord, straffes ikke så hårdt som ved WER eller BLEU
25. sep Dias 10 Center for Sprogteknologi TER – Translation edit rate Alle fejl tæller som en editering Evalueringen sker automatisk Der benyttes en ”greedy search” Der udregnes iterativt ”min-edit distance (Levenstein) En specifik udgave: HTER HTER (TER with human targeted references) Baseres på at man måler forskelen til en post-editeret version af system-output
25. sep Dias 11 Center for Sprogteknologi Udviklings test: BLEU og TER Reference materiale: tokeniseret og uden ”casing” Meget forskel på resultaterne for de forskellige dele af testmaterialet :Noget lidt bedre, noget lidt dårligere Test dataBLEU baselineTER baselineTER no reord. 1:Camcorder :Dan_P11_Enduser :DVD_afspillere :Lexmarkny :Nokia Total Total, ingen omrokering0.6822
25. sep Dias 12 Center for Sprogteknologi Udviklings test: TER detaljer Hypothesis File: testd.da.smt.id Reference File: testdu.da.id Ave-Reference File: testdu.da.id Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER :Camcorder | 208 | 160 | 604 | 103 | 137 | | 3313 | :Dan_P11_Endu. | 243 | 209 | 488 | 104 | 223 | | 7353 | :DVD_afspillere | 181 | 146 | 527 | 128 | 147 | | 2454 | :Lexmarkny | 103 | 99 | 258 | 110 | 132 | | 2050 | :Nokia | 148 | 117 | 387 | 81 | 133 | | 3244 | TOTAL | 883 | 731 | 2264 | 526 | 772 | | |
25. sep Dias 13 Center for Sprogteknologi Udviklings test: TER detaljer Hypothesis File: testdwp_1lm.da.smt.id Reference File: testdu.da.id Ave-Reference File: testdu.da.id Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER :Camcorder | 150 | 235 | 566 | 106 | 138 | | | :Dan_P11_Endu. | 166 | 290 | 495 | 104 | 209 | | | :DVD_afspillere | 148 | 178 | 512 | 139 | 165 | | | :Lexmarkny | 76 | 122 | 262 | | | | :Nokia | 122 | 188 | 405 | 82 | 140 | | | TOTAL | 662 | 1013 | 2240 | 527 | 765 | | | |
25. sep Dias 14 Center for Sprogteknologi Forslag til diskussion Diskussion af: Forskellige under-domæner Udvidelse af træningsmateriale Udnyttelse af pos-tags Hvad skal systemet testes på? Hvilke under-domæner, måske vælge to? 2 personer vurderer fluency og adequacy, skala 1-3 samme sætninger vurderes Måske forbedre/opdatere system i testfasen Efterredigering af system output: Brug af HTER Trados <> SMT tidsmåling