Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

25. sep. 2007 Dias 1 Center for Sprogteknologi Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007 Inter-set.

Lignende præsentationer


Præsentationer af emnet: "25. sep. 2007 Dias 1 Center for Sprogteknologi Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007 Inter-set."— Præsentationens transcript:

1 25. sep. 2007 Dias 1 Center for Sprogteknologi Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007 Inter-set SMT med MOSES og POS

2 25. sep. 2007 Dias 2 Center for Sprogteknologi Disposition Lidt mere om BLEU Translation Edit rate: TER Resultater fra udviklingstest Forslag til diskussion

3 25. sep. 2007 Dias 3 Center for Sprogteknologi BLEU: Automatisk metode til MT-evaluering Papineni et al.: BLEU: A method for automatic evaluation of Machine Translation, IBM report, 2001 Metode: Man får den tekst, man vil bruge som test af sit MT-system, oversat af flere forskellige oversættere (mennesker): referenceoversættelse Metoden bygger på at man måler (statistisk) overensstemmelsen mellem det MT-oversatte og referenceoversættelserne Hvis der er god overensstemmelse, er MT-oversættelsen god Man ”tæller” n-grammer: 1-gram, 2-gram, 3-gram, 4-gram i oversættelsen i forhold til reference-tekster Værdier mellem 0-1

4 25. sep. 2007 Dias 4 Center for Sprogteknologi Bleu 2 Meget brugt mål til evaluering af systemudvikling i forskningen, når fokus er på algoritmer Har ulemper, fordi man ikke helt forstår hvad Bleu måler Ord der har anden placering i output end reference straffes ikke Der vægtes ikke mht. indholdsord Forbedringer ses måske ikke i Bleu-målet… Re-evaluating the Role of BLEU in Machine Translation ResearchRe-evaluating the Role of BLEU in Machine Translation Research

5 25. sep. 2007 Dias 5 Center for Sprogteknologi TER – Translation edit rate Translation Edit Rate Et fejlmål/kvalitetsmål for MT som måler antal nødvendige editeringer der er nødvendige for at ændre system-output til en af reference-oversættelserne Lav værdi bedst! Reference: A Study of Translation Edit Rate with Targeted Human Annotation Matthew Snover and Bonnier Dorr, Procedings of AMTA 2006

6 25. sep. 2007 Dias 6 Center for Sprogteknologi TER – Fejltyper Fejltyper: Insertion Deletion Substitution Shift Eksempler på TER-fejltyper fra de modtagne dokumenter fra Interset: Insertion – indsættelse af manglende ord/ordsekvens REF: hvis problemet fortsætter, skal du frakoble strømkilden og kontakte din - forhandler. SMT:hvis problemet fortsætter, skal du fjerner strømforsyningen og kontakte - forhandleren.

7 25. sep. 2007 Dias 7 Center for Sprogteknologi TER – Deletion Deletion – sletning af ord/ordsekvens REF:optagetiden ved brug af camcordere, der anvender digital8 -systemet på / standard 8 mm -bånd, udgør 2 / 3 af optagetiden ved brug af en almindelig camcorder, der anvender / standard 8 mm -systemet. SMT: optagetiden, når du anvender camcorderen med digital8 -systemet på / standard 8 mm -bånd, er optagetiden 2 / 3 af optagetiden ved brug af en almindelig camcorder, der anvender / standard 8 mm -systemet.

8 25. sep. 2007 Dias 8 Center for Sprogteknologi TER – Substitution Substitution – omplaceret ord/ordsekvens REF: hvis problemet fortsætter, skal du frakoble strømkilden og kontakte din - forhandler. SMT:hvis problemet fortsætter, skal du fjerner strømforsyningen og kontakte – forhandleren.

9 25. sep. 2007 Dias 9 Center for Sprogteknologi TER – Shift shift – omplacering af ord eller ordsekvens REF: hvis du ved et uheld indsætter en " " uden en -adapter, skal du holde camcorderen, så " " -åbningen vender nedad. SMT:hvis du vil indsætte en “ ” uden en adapter ved et uheld, hold camcorderen så “ ” åbningen er nedad, og hold dækslet toothpick objekt eller en side med lignende at lade “ ” skub ud. Hvorfor shifts: Shifts: output hvor der er blot er flyttet om på en række ord, straffes ikke så hårdt som ved WER eller BLEU

10 25. sep. 2007 Dias 10 Center for Sprogteknologi TER – Translation edit rate Alle fejl tæller som en editering Evalueringen sker automatisk Der benyttes en ”greedy search” Der udregnes iterativt ”min-edit distance (Levenstein) En specifik udgave: HTER HTER (TER with human targeted references) Baseres på at man måler forskelen til en post-editeret version af system-output

11 25. sep. 2007 Dias 11 Center for Sprogteknologi Udviklings test: BLEU og TER Reference materiale: tokeniseret og uden ”casing” Meget forskel på resultaterne for de forskellige dele af testmaterialet :Noget lidt bedre, noget lidt dårligere Test dataBLEU baselineTER baselineTER no reord. 1:Camcorder0.576532.4533.17 2:Dan_P11_Enduser0.795614.2014.82 3:DVD_afspillere0.463440.0239.00 4:Lexmarkny0.598027.8124.39 5:Nokia0.701022.6022.69 Total0.681123.9223.80 Total, ingen omrokering0.6822

12 25. sep. 2007 Dias 12 Center for Sprogteknologi Udviklings test: TER detaljer Hypothesis File: testd.da.smt.id Reference File: testdu.da.id Ave-Reference File: testdu.da.id Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER ------------------------------------------------------------------------------------- 1:Camcorder | 208 | 160 | 604 | 103 | 137 | 1075.0 | 3313 | 32.448 2:Dan_P11_Endu. | 243 | 209 | 488 | 104 | 223 | 1044.0 | 7353 | 14.198 3:DVD_afspillere | 181 | 146 | 527 | 128 | 147 | 982.0 | 2454 | 40.016 4:Lexmarkny | 103 | 99 | 258 | 110 | 132 | 570.0 | 2050 | 27.805 5:Nokia | 148 | 117 | 387 | 81 | 133 | 733.0 | 3244 | 22.596 ------------------------------------------------------------------------------------- TOTAL | 883 | 731 | 2264 | 526 | 772 | 4404.0 | 18414 | 23.917

13 25. sep. 2007 Dias 13 Center for Sprogteknologi Udviklings test: TER detaljer Hypothesis File: testdwp_1lm.da.smt.id Reference File: testdu.da.id Ave-Reference File: testdu.da.id Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER ------------------------------------------------------------------------------------- 1:Camcorder | 150 | 235 | 566 | 106 | 138 | 1057.0 | 3313.000 | 31.905 2:Dan_P11_Endu. | 166 | 290 | 495 | 104 | 209 | 1055.0 | 7353.000 | 14.348 3:DVD_afspillere | 148 | 178 | 512 | 139 | 165 | 977.0 | 2454.000 | 39.813 4:Lexmarkny | 76 | 122 | 262 | 96 113 | 556.0 | 2050.000 | 27.122 5:Nokia | 122 | 188 | 405 | 82 | 140 | 797.0 | 3244.000 | 24.568 ------------------------------------------------------------------------------------- TOTAL | 662 | 1013 | 2240 | 527 | 765 | 4442.0 | 18414 | 24.123 |

14 25. sep. 2007 Dias 14 Center for Sprogteknologi Forslag til diskussion Diskussion af: Forskellige under-domæner Udvidelse af træningsmateriale Udnyttelse af pos-tags Hvad skal systemet testes på? Hvilke under-domæner, måske vælge to? 2 personer vurderer fluency og adequacy, skala 1-3 samme 50-100 sætninger vurderes Måske forbedre/opdatere system i testfasen Efterredigering af system output: Brug af HTER Trados <> SMT tidsmåling


Download ppt "25. sep. 2007 Dias 1 Center for Sprogteknologi Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007 Inter-set."

Lignende præsentationer


Annoncer fra Google