25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.

Slides:



Advertisements
Lignende præsentationer
Fokusgruppe Hvad er en fokusgruppe?
Advertisements

VMS data Geografisk og tidsmæssig udvikling af indsatsen i tobisfiskeriet v/ dataspecialist Josefine Egekvist Sekretariat for myndighedsbetjening.
Atomer Et programmeret forløb. En måde at lære på.
1 Test 2 Klik for at begynde. 2 Hvor skal du klikke for at få vist tabelværktøjer?
Funktioner Grundbegreber.
Forsiden 1.Denne knap bruges når du vil taste dagens resultater ind. 2.Denne knap skal kun bruges hvis du allerede har gemt data og du finder ud af at.
Hjemmesidekonstruktion Tjekspørgsmål 1.Hvad er et markup-sprog – hvad bruges det til? 2.Hvad er forskellen mellem et markup-sprog og et scriptsprog? 3.Hvad.
Torbenfeldvej Vallensbæk strand Tlf.: – – dagligt brug af vores hjemmeside •AGEN LYS har en stor og omfattende.
BUREAU FOR MARKEDSANALYSER Din genvej til viden, indsigt & overblik Man får et hurtigt overblik ved at kigge på farverne. De grønne farver viser, at her.
Kredsløbstræning
WP 5.2 Kortlægning af eksisterende resurcer/collections
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Hvordan virker et digitalkamera? Brændvidde Blænde
v/ Professor Lars Ehlers, Aalborg Universitet
1 Belastningsprøve Fredag 16. september Agenda Kl. 08:00Velkomst v. Allan Harding Status på Imerco projekt, v. Allan Harding Oplæg til belastningsprøve,
Formularer (Access, del 3)
Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.
Bolig selskabernes Landsforening– Almene lejeboliger - Maj/Juni Almene lejeboliger - Danmarkspanelet - Maj/Juni 2010.
Analyse for Ældre Sagen: Trafikundersøgelse: Cykel, cykelhjelm mv Rapport Marts 2010.
Trivselsundersøgelse og ledelsesevaluering
Strategi Interoperabilitet Web service – nye standarder danZIG-mødet Leif Andresen Biblioteksstyrelsen.
Evaluering af SMT (statistisk maskinoversættelse) brugt på patenttekster. Erfaringer med systemudviklingen SDMT-SMV-projektet Lene Offersgaard, Bente Maegaard.
SDMT-SMV Workshop 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet
SEO PÅ AU.
Problemer med at bruge tympanometri? Slagelse og Middelfart okt.-nov
25. sep Dias 1 Center for Sprogteknologi Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007 Inter-set.
Arbejdsmarkedsuddannelser – også for personer med læse-, skrive- og regnevanskeligheder Oplæg fra AMU-Fyn Konference d. 22/5 -07.
Søgning - et værktøj til videndeling Inspirationsseminar 31. oktober 2006.
Signalbehandling og matematik (Tidsdiskrete signaler og systemer)
Hanne-Pernille Stax, ph.d
Kursus om borger.dk og brugen af digital signatur
Introduktion til Access (Access, del 1)
Opslagsfelter (Access, del 6). RHS – Informationsteknologi 2 Udgangspunkt Vi er ofte i den situation, at valg af en type for et felt ikke begrænser vores.
Hvordan virker et digitalkamera? Brændvidde Blænde
September Evalueringsmodeller v/Civilingeniør, cand. jur. Jørgen Egholm.
Titel: Arial, fed, skriftstr. 20, mørkegrå. Tekst: Arial, normal, fed eller kursiv, skriftstr. 10, 12 og 14 til print – 16 og 18 til projektor – mørkegrå.
Økonometri 1: Dummy variable
: 2CBS LL "Hvad bliver man kastet ud i når man forsøger at planlægge og køre virtuel undervisning" Robin Cheesman
Backup/Storage Søren Helmer Jensen.
Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.
Readability test i praksis Gitte Matzen. Baggrund Parallelregistrering indsendt nov Original: Ukompliceret kendt tabletprodukt (hvor der ikke.
Start test 1 KLIK HER. Hvilken tast skal du bruge for at redigere en celle direkte? 2 F1 F2 F5 F7.
1 Test i Word 2007 Klik her for at begynde. 2 Hvor skal du klikke for at gemme dit dokument?
Trivselsundersøgelse og ledelsesevaluering Anæstesiologisk Afdeling Flere ledere
VVM redegørelsen - hvordan arbejder vi for en højere kvalitet? GRUPPEOPGAVE 1: HVAD ER KVALITETEN AF REDEGØRELSEN? Miljøvurderingsdag
Dagbladet Information Agenda for onsdag den IT-Universitet og faget usability Brugerproblemer ved information.dk Overordnet anbefalinger Kortsortering.
25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.
1 HMAK XMLRelationel model og XMLNOEA / PQC 2005 SQLServer og XML Hent data via URL Generering af xml –Raw –Auto –Explicit Hent data via template Evt.
P0 erfaringsopsamling Program 8.15: Introduktion
Globaliseringsredegørelsen 24.mar. 14 Figurer fra Danmark tiltrækker for få udenlandske investeringer i Sådan ligger landet
1 Sortering I elementære metoder. 2 Plan Terminologi Elementære metoder til sortering -sortering ved udvælgelse -sortering ved indsættelse -Shellsort.
1 Vi ser nu på en general graf Men antager at alle afstande er heltallige (Det er ikke så restriktivt) Algoritmen leder efter den mindst mulige dækningsdistance.
MSBuild & Team Build i C#/C++ solutions VSTS ERFA d. 25 November.
Rapporter (Access, del 5). RHS – Informationsteknologi – Udgangspunkt Vi har oprettet en database Vi har defineret en eller flere tabeller, og.
1 USB Gennemgang af installering af USB driver til ICT. Er fortaget på Windows XP.
It i de gymnasiale uddannelser Udstyr og anvendelse, 2010.
Grunde til at jeg elsker dig
Tilføj hjælpelinjer: 1.Højreklik et sted i det grå område rundt om dette dias 2.Vælg "Gitter og hjælpelinjer" 3.Vælg "Vis hjælpelinjer på skærm" Oplæg.
Fundamentale datastrukturer
Opslagsfelter (Access, del 6). RHS – Informationsteknologi – Udgangspunkt Vi er ofte i den situation, at valg af en type for et felt ikke begrænser.
Introduktion til Access (Access, del 1). RHS – Informationsteknologi – Fra design til udvikling Vi ved nu, hvordan vi finder et design for en database,
Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.
1 Team Build med Team Foundation Server 2008 Konfiguration og udvidelse af build jobs Kort præsentation Hvorfor bruge Team Build Afvikling af et build.
10.mar. 15 Udvikling i løn, priser og konkurrenceevne Dansk Industri.
Evaluering af MT SDMT-SMV2 Workshop 2 Bente Maegaard, Lene Offersgaard Center for Sprogteknologi, Københavns Universitet
1 Fundamentale datastrukturer. 2 Definitioner: abstrakt datatype, datastruktur Elementære datastrukturer og abstrakte datatyper : arrays, stakke, køer,
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Oprettelse af tabeller (Access, del 2)
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
A tool for the assessment of strengths and weaknesses in NGOs
Præsentationens transcript:

25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi

25. september 2007 Dias 2 Center for Sprogteknologi Fra maskinoversættelsens historie 1966, ALPAC-rapporten: ”There is no immediate or predictable prospect of useful machine translation” Hvorfor mente de det? Der var ikke noget stort behov for (maskin)oversættelse i USA på det tidspunkt Mangel på fantasi?

25. september 2007 Dias 3 Center for Sprogteknologi MT evaluering - vigtigt at se det i en sammenhæng Man kan ikke evaluere MT (eller noget andet) uden at definere den ramme det skal bruges i Hvis der fx er tale om MT der skal bruges i en virksomhed Formålet med den oversatte tekst bestemmer den kvalitet man går efter Fx oversætte referater hurtigt til internt brug, oversætte manualer til eksternt brug, oversætte salgsmateriale,… Teksttype og domæne Evt. ressourcer som er til stede Andre krav, fx hvor hurtigt oversættelsen skal være færdig, pris mv.

25. september 2007 Dias 4 Center for Sprogteknologi Evalueringsmetoder Oversættelse er en meget kompleks opgave Der er ikke kun ét rigtigt svar, så det er svært at evaluere Der er arbejdet meget med evalueringsmetoder Det er vigtigt for al evaluering at den er Reliable: altid giver samme resultat for samme input Valid: det man måler giver faktisk svar på det man spørger om Human evaluation Automatic evaluation

25. september 2007 Dias 5 Center for Sprogteknologi FEMTI FEMTI - a Framework for the Evaluation of Machine Translation in ISLE Et system der bygger på en taksonomi af evalueringsformål, og en taksonomi af evalueringsmetoder, og som kobler de to. (Demo)

25. september 2007 Dias 6 Center for Sprogteknologi Human evaluation Gennem tiderne har man anvendt flere forskellige metoder. Især har man evalueret Intelligibility Adequacy Fluency Er det forståeligt, har det det rigtige indhold, og er det grammatisk? Det viser sig at det kan være svært at adskille de tre kriterier. Vi vil foreslå at gennemføre scoring af Adequacy og Fluency på en skala fra 1 til 3 for en begrænset mængde sætninger. Det giver en god indsigt. Dog stadig subjektivt. Et andet mål er hvor lang tid det tager at efterredigere en tekst. Objektivt.

25. september 2007 Dias 7 Center for Sprogteknologi Automatiske mål – nogle eksempler Fordelen ved automatisk mål er at de er objektive, de er billige og hurtige Spørgsmålet er om de er valid og reliable. Mange af de automatiske mål forudsætter en eller flere referenceoversættelser, som MT-resultatet måles op imod. Det koster noget at lave referenceoversættelser, men materialet kan bruges flere gange.

25. september 2007 Dias 8 Center for Sprogteknologi Automatiske metoder til MT evaluering Papineni et al.: BLEU: A method for automatic evaluation of Machine Translation, IBM report, 2001 Gennembrud for automatisk evaluering Metode: Man får den tekst, man vil bruge som test af sit MT-system, oversat af flere forskellige oversættere (mennesker) Metoden bygger på at man måler (statistisk) overensstemmelsen mellem det MT-oversatte og referenceoversættelserne Hvis der er god overensstemmelse, er MT-oversættelsen god

25. september 2007 Dias 9 Center for Sprogteknologi BLEU fortsat Fordele ved BLEU Automatisk, derfor billigt Objektivt Man har også påstået god korrelation med human judgement Ulemper ved BLEU Bygger på statistiske metoder, favoriserer derfor SMT Måske er korrelationen med human judgement ikke helt så stor som påstået (flere resultater, bl.a. 2005, 2006, 2007) Succesen er meget afhængig af de referenceoversættelser der produceres Er det sikkert at det er rigtigt at en oversættelse er bedre, jo mere den ligner referencerne? (jf. validity) Desuden har der bredt sig en tendens til at nøjes med én referenceoversættelse Men BLEU kan (måske) anvendes til at måle fremskridt inden for et enkelt system

25. september 2007 Dias 10 Center for Sprogteknologi Andre automatiske mål WER – Word Error Rate Målet anvendes i talegenkendelse – og der er det et godt mål I MT måler man hvor mange af ordene i referenceoversættelsen der også findes i MT-oversættelsen Edit Distance Hertil kræves kun 1 referenceoversættelse Brugeren skal rette MT-outputtet så det bliver ækvivalent med referenceoversættelsen (men ikke lig med, det skal blot have samme indhold og være forståeligt sprog) Der findes software der kan måle antallet af operationer der skal til – men det kræver altså både en referenceoversættelse og en human editor der udfører revisionen. Stadig under udvikling, ser lovende ud. (dog problemer derved at den human editor, der reviderer, er ansat af MT-gruppen, så vedkommende udfører rettelserne efter kalkulationer)

25. september 2007 Dias 11 Center for Sprogteknologi Del 2 Lidt mere om BLEU Translation Edit rate: TER Resultater fra udviklingstest Forslag til diskussion

25. september 2007 Dias 12 Center for Sprogteknologi Lidt mere om BLEU: metoden Man ”tæller” n-grammer: 1-gram, 2-gram, 3-gram, 4-gram i oversættelsen i forhold til reference-tekster Værdier mellem 0-1 Har ulemper, fordi man ikke helt forstår hvad Bleu måler Ord der har håbløs placering i output end reference straffes ikke Re-evaluating the Role of BLEU in Machine Translation Research Der vægtes ikke mht. indhold – det er også rigtig svært

25. september 2007 Dias 13 Center for Sprogteknologi TER – Translation edit rate Translation Edit Rate Et fejlmål/kvalitetsmål for MT som måler antal nødvendige editeringer der er nødvendige for at ændre system-output til en af reference-oversættelserne Lav værdi bedst! Reference: A Study of Translation Edit Rate with Targeted Human Annotation Matthew Snover and Bonnier Dorr, Procedings of AMTA 2006

25. september 2007 Dias 14 Center for Sprogteknologi TER – Fejltyper Fejltyper: Insertion Deletion Substitution Shift Eksempler på TER-fejltyper fra de modtagne dokumenter fra Interset: Insertion – indsættelse af manglende ord/ordsekvens REF: hvis problemet fortsætter, skal du frakoble strømkilden og kontakte din - forhandler. SMT:hvis problemet fortsætter, skal du fjerner strømforsyningen og kontakte - forhandleren.

25. september 2007 Dias 15 Center for Sprogteknologi TER – Deletion Deletion – sletning af ord/ordsekvens REF:optagetiden ved brug af camcordere, der anvender digital8 -systemet på / standard 8 mm -bånd, udgør 2 / 3 af optagetiden ved brug af en almindelig camcorder, der anvender / standard 8 mm -systemet. SMT: optagetiden, når du anvender camcorderen med digital8 -systemet på / standard 8 mm -bånd, er optagetiden 2 / 3 af optagetiden ved brug af en almindelig camcorder, der anvender / standard 8 mm -systemet.

25. september 2007 Dias 16 Center for Sprogteknologi TER – Substitution Substitution – omplaceret ord/ordsekvens REF: hvis problemet fortsætter, skal du frakoble strømkilden og kontakte din - forhandler. SMT:hvis problemet fortsætter, skal du fjerner strømforsyningen og kontakte – forhandleren.

25. september 2007 Dias 17 Center for Sprogteknologi TER – Shift shift – omplacering af ord eller ordsekvens REF: hvis du ved et uheld indsætter en " " uden en -adapter, skal du holde camcorderen, så " " -åbningen vender nedad. SMT:hvis du vil indsætte en “ ” uden en adapter ved et uheld, hold camcorderen så “ ” åbningen er nedad, og hold dækslet toothpick objekt eller en side med lignende at lade “ ” skub ud. Hvorfor shifts: Shifts: output hvor der er blot er flyttet om på en række ord, straffes ikke så hårdt som ved WER eller BLEU

25. september 2007 Dias 18 Center for Sprogteknologi TER – Translation edit rate Alle fejl tæller som en editering Evalueringen sker automatisk Der benyttes en ”greedy search” Der udregnes iterativt ”min-edit distance (Levenstein) En specifik udgave: HTER HTER (TER with human targeted references) Baseres på at man måler forskelen til en post-editeret version af system-output

25. september 2007 Dias 19 Center for Sprogteknologi Udviklings test: BLEU og TER Reference materiale: tokeniseret og uden ”casing” Meget forskel på resultaterne for de forskellige dele af testmaterialet :Noget lidt bedre, noget lidt dårligere Test dataBLEU baselineTER baselineTER no reord. 1:Camcorder :Dan_P11_Enduser :DVD_afspillere :Lexmarkny :Nokia Total Total, ingen omrokering0.6822

25. september 2007 Dias 20 Center for Sprogteknologi Udviklings test: TER detaljer Hypothesis File: testd.da.smt.id Reference File: testdu.da.id Ave-Reference File: testdu.da.id Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER :Camcorder | 208 | 160 | 604 | 103 | 137 | | 3313 | :Dan_P11_Endu. | 243 | 209 | 488 | 104 | 223 | | 7353 | :DVD_afspillere | 181 | 146 | 527 | 128 | 147 | | 2454 | :Lexmarkny | 103 | 99 | 258 | 110 | 132 | | 2050 | :Nokia | 148 | 117 | 387 | 81 | 133 | | 3244 | TOTAL | 883 | 731 | 2264 | 526 | 772 | | |

25. september 2007 Dias 21 Center for Sprogteknologi Udviklings test: TER detaljer Hypothesis File: testdwp_1lm.da.smt.id Reference File: testdu.da.id Ave-Reference File: testdu.da.id Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER :Camcorder | 150 | 235 | 566 | 106 | 138 | | | :Dan_P11_Endu. | 166 | 290 | 495 | 104 | 209 | | | :DVD_afspillere | 148 | 178 | 512 | 139 | 165 | | | :Lexmarkny | 76 | 122 | 262 | | | | :Nokia | 122 | 188 | 405 | 82 | 140 | | | TOTAL | 662 | 1013 | 2240 | 527 | 765 | | | |

25. september 2007 Dias 22 Center for Sprogteknologi Forslag til diskussion Diskussion af: Forskellige under-domæner Udvidelse af træningsmateriale Udnyttelse af pos-tags Hvad skal systemet testes på? Hvilke under-domæner, måske vælge to? 2 personer vurderer fluency og adequacy, skala 1-3 samme sætninger vurderes Måske forbedre/opdatere system i testfasen Efterredigering af system output: Brug af HTER Trados <> SMT tidsmåling