Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.

Slides:



Advertisements
Lignende præsentationer
KiMs – Maj KiMs SMAGSTEST - franske kartofler - Maj 2012.
Advertisements

VMS data Geografisk og tidsmæssig udvikling af indsatsen i tobisfiskeriet v/ dataspecialist Josefine Egekvist Sekretariat for myndighedsbetjening.
Atomer Et programmeret forløb. En måde at lære på.
1 Test 2 Klik for at begynde. 2 Hvor skal du klikke for at få vist tabelværktøjer?
GAF Samrating & Statistik.
CoDriver Afslut 1 Tastaturet Her kan du få lidt at vide om tastaturet og tasternes funktion. Klik på knapperne nederst til venstre for at bladre frem og.
Hvad viser de foreløbige progressionsdata på tværs af landet? Michael Rosholm Aarhus universitet.
Løntermometer° Vedligehold dit lønsystem. Løntermometeret Mange virksomheder oplever, at et ellers godt lønsystem efter nogle år ikke længere har den.
Torbenfeldvej Vallensbæk strand Tlf.: – – dagligt brug af vores hjemmeside •AGEN LYS har en stor og omfattende.
Hvordan virker Backoffice Hvilken strategi og taktik skal man anvende
1 Center for Undervisningsmidler PowerPoint 2007 Kursus Enkle præsentationer.
Udlægning af en ny cache
Kredsløbstræning
WP 5.2 Kortlægning af eksisterende resurcer/collections
17. januar 2009Teknik event i det mørke Jylland III - CacheMate 1 Geocaching med CacheMate  Hvad er CacheMate?  Indlæsning af Cachebeskrivelser  Bruger.
v/ Professor Lars Ehlers, Aalborg Universitet
Hvem er vi? •Vi er organiseret i KBH Amts behandlingscenter for stofbrugere. •Vi er 3 år gamle. •Hjulpet i gang af fokus på Ecstasy. •Hjulpet i gang af.
1 DSB og Bibliotekerne Personlige interview foretaget 20. til 25. januar respondenter Holdning til evt. ny portal.
Klik på Aktivér redigering i meddelelseslinjen,
Beretning for år 2001 Fremtiden.
Blu-ray Mystery Shopping Analyse 6. Maj 2010
Iterativ udvikling og UP
  A business of Usability test metoder IT-Højskolen
Formularer (Access, del 3)
Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.
19 April 2006 Virksomheds Dialog Gruppen Mødeleder Valdemar Thomsen 1 Om at forstå praksis fælleskaber / netværk og hvorfor de forandrer.
Bolig selskabernes Landsforening– Almene lejeboliger - Maj/Juni Almene lejeboliger - Danmarkspanelet - Maj/Juni 2010.
Analyse for Ældre Sagen: Trafikundersøgelse: Cykel, cykelhjelm mv Rapport Marts 2010.
Dias 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet WP 5.2 Kortlægning af eksisterende resurcer/collections.
Trivselsundersøgelse og ledelsesevaluering
Evaluering af SMT (statistisk maskinoversættelse) brugt på patenttekster. Erfaringer med systemudviklingen SDMT-SMV-projektet Lene Offersgaard, Bente Maegaard.
Co-funded by the 7th Framework Programme of the European Commission through the contract T4ME, grant agreement no.: Præsentation af METASHARE –
Introduktion til indholdsfortegnelser j Tryk derefter på F5, eller klik på Slideshow > Fra begyndelsen for at starte kurset. Klik på Aktivér redigering.
NP struktur - Eller hvordan engelsk er nominelt, mens dansk er verbalt.
1. Ordreside: Køretøjerside: Brugereside: Timesedlerside: Beskederside: Oversigtskortside: Themeside: 19.
SDMT-SMV Workshop 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet
E-bøger gennem PrioInfo - oversigt v/ Claes Olsson.
25. sep Dias 1 Center for Sprogteknologi Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007 Inter-set.
25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.
Velkommen til E-business

Artikel præsentation Kenneth Pedersen DESIGN SCIENCE IN INFORMATION SYSTEMS RESEARCH Hevner, A. R., March, S. T., Jinsoo, P. and Ram, S. (2004)
Representations for Path Finding in Planar Environments.
Søgning - et værktøj til videndeling Inspirationsseminar 31. oktober 2006.
Biostatistics mm5 SPSS crash course II. But why? Hvorfor læser vi videnskabelig litteratur? Hvordan læser vi?
Kursus om borger.dk og brugen af digital signatur
Introduktion til Access (Access, del 1)
Opslagsfelter (Access, del 6). RHS – Informationsteknologi 2 Udgangspunkt Vi er ofte i den situation, at valg af en type for et felt ikke begrænser vores.
Hvordan virker et digitalkamera? Brændvidde Blænde
Titel: Arial, fed, skriftstr. 20, mørkegrå. Tekst: Arial, normal, fed eller kursiv, skriftstr. 10, 12 og 14 til print – 16 og 18 til projektor – mørkegrå.
Struktur og processer I alle studier af innovationssucceser og fiaskoer er det konstateret, at de største årsager til manglende succes er: 1.Manglende.
Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.
Start test 1 KLIK HER. Hvilken tast skal du bruge for at redigere en celle direkte? 2 F1 F2 F5 F7.
Antal registrerede selvmord i Danmark ( )
Trivselsundersøgelse og ledelsesevaluering Anæstesiologisk Afdeling Flere ledere
Barrierer i og for forbedringsprojekter Udenom, indenom, henover eller igennem barriererne Hvilken vej vil du? 12. oktober C2E netværk.
25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.
Det semantiske web Costanza Navarretta Center for Sprogteknologi, Københavns Universitet
Vinterman seminar 2. Maj SIDE 2 Vinterman seminar 2. maj Ca. 85 personer: 34 kommuner (30 Vinterman, 2-Light og 2-Melding) Færøerne Vintercentralen.
Commentor A/S – Hørkær 24 – 2730 Herlev - (+45) Tel : (+45) Fax : (+45) – Praktisk Brug af Work Items Thomas.
Matematik B 1.
XML og Skemaer Costanza Navarretta Center for Sprogteknologi, Københavns Universitet
Rapporter (Access, del 5). RHS – Informationsteknologi – Udgangspunkt Vi har oprettet en database Vi har defineret en eller flere tabeller, og.
It i de gymnasiale uddannelser Udstyr og anvendelse, 2010.
Grunde til at jeg elsker dig
Tilføj hjælpelinjer: 1.Højreklik et sted i det grå område rundt om dette dias 2.Vælg "Gitter og hjælpelinjer" 3.Vælg "Vis hjælpelinjer på skærm" Oplæg.
Opslagsfelter (Access, del 6). RHS – Informationsteknologi – Udgangspunkt Vi er ofte i den situation, at valg af en type for et felt ikke begrænser.
Introduktion til Access (Access, del 1). RHS – Informationsteknologi – Fra design til udvikling Vi ved nu, hvordan vi finder et design for en database,
Evaluering af MT SDMT-SMV2 Workshop 2 Bente Maegaard, Lene Offersgaard Center for Sprogteknologi, Københavns Universitet
Oprettelse af tabeller (Access, del 2)
Præsentationens transcript:

Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV systemet Afsluttende workshop for SDMT-SMV2-projektet

Dias 2 Center for Sprogteknologi Evaluering af maskinoversættelse (MT) – nogle vigtige forudsætninger Man kan ikke evaluere MT (eller noget andet, fx en bil) uden at definere den ramme det skal bruges i. Rammen defineres af faktorer som disse: Hvor skal MT bruges? (organisatorisk) fx i en virksomhed - af direktøren, af informationsafdelingen, af oversættelsesafdelingen - eller til private formål, til forskning, … Formålet med den oversatte tekst fx oversætte referater hurtigt til internt brug, oversætte manualer til eksternt brug, oversætte salgsmateriale,… Teksttype, domæne Nogle teksttyper og domæner egner sig bedre end andre De ressourcer der er til stede Både sprogressourcer og mennesker Tidsfrister og andre krav fx om hvor hurtigt oversættelsen skal være klar

Dias 3 Center for Sprogteknologi To forskellige synspunkter på evaluering Det er ikke blot rammen der bestemmer kriterierne for hvad man er interesseret i ved evalueringen Udvikleren/lingvisten Brugeren Udvikleren/lingvisten taler om hvor mange leksikalske fejl, hvor mange grammatiske fejl, af hvilken type mv. Formål: forstå systemet, forbedre systemet, - forstå oversættelsens natur Brugeren er interesseret i, om det kan bruges, hvad det koster, hvad det koster at efterredigere, om det kan hjælpe til at levere varen til tiden mv. Formål: få forretningen til at løbe rundt

Dias 4 At sætte et evalueringssystem op Bestemme rammen Teksttype, domæne Bestemme evaluatorsynspunktet Etablere kriterier der kan bedømmes objektivt (samme resultat hver gang) faktisk måler det man er interesseret i

Dias 5 Center for Sprogteknologi Projektets kriterier og målemetode – brugerevaluering Formål: objektiv, relevant evaluering Oversættelseskvalitet tre kriterier Usability (er det værd at efterredigere?) På en skala fra 1 til 3 1: For dårlig til at efterredigere, det vurderes at det er hurtigere at oversætte fra input end at efterredigere 2: Kan redigeres 3: OK Adequacy (har den samme betydning?) På en skala fra 1 til 4 Fluency (er den grammatisk?) På en skala fra 1 til 4 Måle efterredigeringstiden

Dias 6 Værktøj til indtastning og opsummering (udlånt fra Philipp Koehn, Edinburgh Univ.)

Dias 7 Center for Sprogteknologi Metoder til evaluering – automatisk evaluering Formål: objektiv evaluering Automatisk evaluering er billigere og hurtigere Kan automatiske metoder anvendes? – Hvad kan man måle? Vi har anvendt BLEU som anvendes meget i forskningsverdenen I BLEU måles afstanden mellem MT-outputtet og en referenceoversættelse/det efterredigerede resultat Vi har anvendt TER ”Translation Edit Rate”(Snover et al, 2006) I TER måles hvor mange editeringer der skal foretages før outputtet er magen til referencen/det efterredigerede resultat

Dias 8 Center for Sprogteknologi Teksttypen manualer Oversættelse fra engelsk til dansk Arbejdet med tekster fra 5 forskellige typer af tekst Manualer til: Videokameraer Software DVD-afspillere Kontormaskiner Mobiltelefoni Testmateriale Udviklingstest: lige meget fra alle fem områder Evaluering: filer fra et område

Dias 9 Center for Sprogteknologi SMT: Statistiske resurser Oversættelses workflow Auto. forbehandling Engelsk tekst Oversætterkerne Auto. efterbehandling Dansk tekst Efter- redigering Sprogmodel ngram 5 Phrase tables MOSES Decoder Vi har koncentreret os om den statistiske oversætterkerne Træning af denne kræver parallelle tekster indenfor de ønskede domæner Forbehandling og efterbehandling kan automatiseres meget mere

Dias 10 Center for Sprogteknologi Resultater fra tre typer af evaluering Oversætterne har vurderet oversættelseskvaliteten sætning for sætning og givet karakter til hver sætning Automatisk evaluering af forskel mellem MT-outputtet og det efterredigerede resultat Efterredigeringstiden: hvor dyrt er det at gøre teksten færdig?

Dias 11 Center for Sprogteknologi Oversætternes evaluering Kriterier: Usability: kan sætningen efterredigeres? Skalaen er 1-3 Adequacy: har den samme betydning? Fluency: er den grammatisk? Skalaen er 1-4 Kun for sætninger på over 3 ord Testtekst Antal sætn. UsabilityAdequacyFluency ,942,302,18 HS1172,022,351,89 GPS(u.domæne)1971,802,381,59

Dias 12 Center for Sprogteknologi BLEU: A method for automatic evaluation of Machine Translation, Papineni et al., 2001 Metoden bygger på at man måler overensstemmelsen mellem det MT- oversatte og referenceoversættelser vurderet på ordniveau. Her måles for hvor stor forskel der er mellem MT-outputtet og det efterredigerede resultat, skalaen er 0-1 BLEU for samme tekst oversat af flere oversættere er jf. lit ofte % Giver ikke noget billede af hvilke ændringer der skal udføres. Kan bruges af udvikleren til at udpege problemsætninger. Automatisk evaluering vha. BLEU BLEU 6131 (SMT <>efterred.)0,57 HS (SMT <>efterred.)0,51 Udviklingstest <> Ref0,68

Dias 13 Center for Sprogteknologi A Study of Translation Edit Rate with Targeted Human Annotation Snover et al, 2006 I TER måles hvor mange editeringer der skal foretages før outputtet er magen til referencen/det efterredigerede resultat. Der måles ”insertions” ”deletion” ”substitutions” ”shifts”&”words shifted” i forhold til antal ord i referencen, skalaen er 0-100% Kan bruges til at se hvilken type af editering der skal til. Kan bruges af udvikleren til at udpege problemsætninger Sent Id | Ins | Del | Sub | Shft| WdSh| NumEr | NumWd | TER Testfil6131 | 340| 335| 1072| 135| 156| | | TestfilHS | 106| 108| 370| 62| 74| 646.0| | Udvik.test | 662| 1013| 2240| 527| 765| | | Automatisk evaluering vha. Translation Edit Rate

Dias 14 Center for Sprogteknologi Hvor lang tid skal man bruge på at rette teksten? Tallene her dækker fejlrettelser og justering af store/små bogstaver. Efterredigeringstid Teksttype Antal sætn.Efterred.tid/sætning (min) ,03 HS1171,03

Dias 15 Center for Sprogteknologi Hvordan fordeler matches i TM sig i forhold til evalueringen? fordeling af sætninger i forhold til “match”-% fordeling af sætninger i forhold til “usability”-scoring Selvom 67-81% sætninger giver “no match” i TM, så har vi kun % sætninger, der får scoren usability=1. Sammenligning med Translation Memory: Usability Teksttype6131 %sæt. HS %sæt. 95%-100% ”3” %-94% ”2” 1711 ”No match” ”1” 6781 ”Gennemsnit”1,491,25 Teksttype6131 %sæt. HS %sæt. Usability ”3” 1720 Usability ”2” 5961 Usability ”1” 2319 Gennemsnit1,942,02

Dias 16 Center for Sprogteknologi Eksempler på oversættelser og demo SMV Engelsk: Enter the emergency number, then press the call key. The wireless device described in this guide is approved for use on the EGSM 850, 900, 1800 and 1900 networks. Automatisk oversættelse: Indtast alarmnummeret, og tryk derefter på tasten opkald. Den trådløse enhed, der beskrives i denne brugervejledning, er godkendt til brug i egsm 850, 900-, 1800 og 1900-netværk. Efterredigeret tekst: Indtast alarmnummeret, og tryk derefter på tasten Ring op. Den trådløse enhed, der beskrives i denne brugervejledning, er godkendt til brug i EGSM 850-, 900-, og 1900-netværk.

Dias 17 Center for Sprogteknologi Eksempler på oversættelser og demo Engelsk: This applies to your device but also to any enhancements marked with this symbol. Press the end key as many times as needed to clear the display and return to the start screen. Automatisk oversættelse: Dette gælder for din enhed men også til billedforbedringer markeret med dette symbol. Tryk slutdatoen indtaste så mange gange, det er nødvendigt for at rydde displayet og tilbage til start skærmen. Efterredigeret tekst: Dette gælder selve enheden, men også ekstraudstyr, som er mærket med dette symbol. Tryk på tasten Afslut så mange gange, det er nødvendigt for at rydde displayet og returnere til startskærmen.

Dias 18 Center for Sprogteknologi Erfaringer fra udviklingen -1 SMV2-projektet har givet en mulighed for direkte samarbejde mellem forskere og virksomheder: virkelige data: både til træning og til test oversætternes evaluering og efterredigering Tekstmaterialet er opdelt i forskellige emneområder/domæner Typisk vil man gerne have meget tekst Blanding af emneområder giver uønsket variation i oversættelser Med lille domæne-tekstmængde fås Fokus har været på kernen i oversættelsesprocessen Fremtidige insatsområder for kernen: Færre kongruensfejl opnås vha. øget brug af lingvistisk viden Bedre hvis visse xml-tags kan udgøre en konstituent i sætningen Øvrige forbedringer: Ballanceret brug af data fra forskellige emneområder Mere data

Dias 19 Center for Sprogteknologi SMT: Statistiske resurser Erfaringer fra udviklingen -2 Auto. forbehandling Engelsk tekst Oversætterkerne Auto. efterbehandling Dansk tekst Efter- redigering Sprogmodel ngram 5 Phrase tables MOSES Decoder Integration i virksomhedens workflow kræver: Parallelle tekster af god kvalitet til opbygning af de statistiske ressourcer, helst flere mill. ord grupperet i domæner Hjælpeværktøj uden om kernen til: Løbende opdatering af de statistiske ressourcer

Dias 20 Center for Sprogteknologi Moses er open-source software til træning af “phrase tables” og til oversættelse af tekster Sprogmodellen kan også trænes ved brug af open-source sw. MOSES giver mulighed for anvende phrase-tables og sprogmodeller, der er ikke blot baserer sig på ord, men også kan omfatte part- of-speech, morfologi osv. Vi har udnyttet det under opbygning af phrase-tables, kan udnyttes langt mere… Brug af MOSES (Koehn et al. 2007)

Dias 21 Center for Sprogteknologi Opsummering – Statistisk MT En statistisk oversættelseskerne er et opnåeligt aktiv for oversættelsesvirksomheder bygges på firmaets egne tekstressourcer og afspejler dermed firmaets sprogpolitik er ikke omkostningstung i oprettelse kan oprettes for nye domæner og nye sprogkombinationer kernen i det demonstrerede system er open-source integration med TM vil give ekstra gevinst