Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.

Slides:



Advertisements
Lignende præsentationer
Automatiseret GUI-test Lars Kjølholm Testnet maj 2009.
Advertisements

Anskaffelse af ny teknologi
SharePoint /36 2 General SettingsPermissions and ManagementCommunications Titel, description and navigation Versioning settings Advanced settings.
IT Projekt Portefølje Management: styringsmæssige og koordineringsmæssige problemer i en offentlig organisation.
WP 5.2 Kortlægning af eksisterende resurcer/collections
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Krænkelse og håndhævelse. 2© Plougmann & Vingtoft Skruekravet 1. An elongated fastening means adapted to be inserted into an object and comprising an.
IM-Strategi.
Formularer (Access, del 3)
Bolig selskabernes Landsforening– Almene lejeboliger - Maj/Juni Almene lejeboliger - Danmarkspanelet - Maj/Juni 2010.
Date :31 1.
Dias 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet WP 5.2 Kortlægning af eksisterende resurcer/collections.
Trivselsundersøgelse og ledelsesevaluering
Evaluering af SMT (statistisk maskinoversættelse) brugt på patenttekster. Erfaringer med systemudviklingen SDMT-SMV-projektet Lene Offersgaard, Bente Maegaard.
Co-funded by the 7th Framework Programme of the European Commission through the contract T4ME, grant agreement no.: Præsentation af METASHARE –
Introduktion til indholdsfortegnelser j Tryk derefter på F5, eller klik på Slideshow > Fra begyndelsen for at starte kurset. Klik på Aktivér redigering.
NP struktur - Eller hvordan engelsk er nominelt, mens dansk er verbalt.
1 Velkommen! Informationssøgningsprocessen:  Hvordan kan I gribe det an (strategier)  Omdanne jeres emne til søgeord  Søgeteknik  Bruge søgeordene.
Fremtidens ledelse af en kulturvirksomhed
SDMT-SMV Workshop 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet
Sundhedsprofessionelles forståelser af patientinddragelse
E-bøger gennem PrioInfo - oversigt v/ Claes Olsson.
25. sep Dias 1 Center for Sprogteknologi Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007 Inter-set.
25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.
Statistik.

Artikel præsentation Kenneth Pedersen DESIGN SCIENCE IN INFORMATION SYSTEMS RESEARCH Hevner, A. R., March, S. T., Jinsoo, P. and Ram, S. (2004)
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Representations for Path Finding in Planar Environments.
Søgning - et værktøj til videndeling Inspirationsseminar 31. oktober 2006.
Biostatistics mm5 SPSS crash course II. But why? Hvorfor læser vi videnskabelig litteratur? Hvordan læser vi?
Beskyt & bevar kontrol med information CRM LOB ERP Find information, viden & øget indsigt i forretning Enklere samarbejde mellem mennesker Reducerede.
Introduktion til Access (Access, del 1)
Opslagsfelter (Access, del 6). RHS – Informationsteknologi 2 Udgangspunkt Vi er ofte i den situation, at valg af en type for et felt ikke begrænser vores.
Økonometri 1: Dummy variable
Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.
1 Test i Word 2007 Klik her for at begynde. 2 Hvor skal du klikke for at gemme dit dokument?
AGWAPLAN Seminarer.dk september 2007 Side 1 · · AGWAPLAN – et pilotprojekt for implementering af Vandrammedirektivet - Samarbejdsstrukturer Seminarer.dk.
Trivselsundersøgelse og ledelsesevaluering Anæstesiologisk Afdeling Flere ledere
25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.
Globaliseringsredegørelsen 24.mar. 14 Figurer fra Danmark tiltrækker for få udenlandske investeringer i Sådan ligger landet
Christian Backer Mogensen, Poul Kjældgaard, Charlotte Jensen and Ming Chen, Akutforskningsenheden, Sygehus Sønderjylland MRSA screening in ED detects a.
Commentor A/S – Hørkær 24 – 2730 Herlev - (+45) Tel : (+45) Fax : (+45) – Praktisk Brug af Work Items Thomas.
MSBuild & Team Build i C#/C++ solutions VSTS ERFA d. 25 November.
Rapporter (Access, del 5). RHS – Informationsteknologi – Udgangspunkt Vi har oprettet en database Vi har defineret en eller flere tabeller, og.
Grunde til at jeg elsker dig
Tilføj hjælpelinjer: 1.Højreklik et sted i det grå område rundt om dette dias 2.Vælg "Gitter og hjælpelinjer" 3.Vælg "Vis hjælpelinjer på skærm" Oplæg.
Fundamentale datastrukturer
Objekter og klasser Rasmus D. Lehrmann DM
Opslagsfelter (Access, del 6). RHS – Informationsteknologi – Udgangspunkt Vi er ofte i den situation, at valg af en type for et felt ikke begrænser.
Introduktion til Access (Access, del 1). RHS – Informationsteknologi – Fra design til udvikling Vi ved nu, hvordan vi finder et design for en database,
Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.
DIEB14.1 Kursusgang 14 Tidsforbrug til en usability-evaluering Oversigt: Sidste kursusgang Opgaver Aktiviteter Erfaringer med tidsforbrug Instant Data.
Evaluering af MT SDMT-SMV2 Workshop 2 Bente Maegaard, Lene Offersgaard Center for Sprogteknologi, Københavns Universitet
1 Fundamentale datastrukturer. 2 Definitioner: abstrakt datatype, datastruktur Elementære datastrukturer og abstrakte datatyper : arrays, stakke, køer,
DNA baseret taksonomi?. International Commission on Zoological Nomenclature (ICZN) International Association for Plant Taxonomy (IAPT)
Usability ITU, forår 2008 Usability ITU Forår 2008 ’Teori 2’ 3. kursusgang, 14. februar 2008.
DB analyse og modellering Jesper Tørresø DAB1 F Februar 2008.
DIEB12.1 Kursusgang 12 Feedback fra en usability-evaluering Oversigt: Sidste kursusgang Opgaver Feedback Are Usability Reports Any Good? Alternativer til.
Sted og dato (Indsæt --> Diasnummer) Dias 1 Navn på enhed (Indsæt --> Diasnummer) Davenport et al. (2000) Vs Adelman et. Al (2002) Possible states for.
OPERATIONEL ANALYSE AF WEBADFÆRD OAW – LEKTIONSGANG 4.
2 minutter om tid (og rum) Lisbeth Klastrup 7. kursusgang 23. oktober.
On the Essential Contexts of Artefacts or on the Proposition that ”Design Is Making Sense (of Things)” Af Klaus Krippendorff 1989.
23. juni 2015 Det Semantiske Web Mads Carlsen. 23. juni 2015 Problemer med det nuværende Internet Ingen semantiske specifikationer. Søgning giver mange.
Definition Kriterier Design og evaluering
Skift Typografi Marker tekst og klik TAB for at hoppe til næste typografi Klik SHIFT + TAB for at hoppe tilbage i typografierne 1. OVERSKRIFT 2. UNDEROVERSKRIFT.
Ledende oversygeplejerske Arne Brehm Høj Afdeling for Operation og Anæstesiologi Sydvestjysk Sygehus.
Begrebsafklaring Co–production og co-creation. Hvad er hvad?  Co - production  Co – creation  To paradigmer og normative forståelser Effektivitets.
Automatisk oversættelse af
Software Testing Software testing.
Præsentationens transcript:

Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV systemet Afsluttende workshop for SDMT-SMV2-projektet

Dias 2 Center for Sprogteknologi Evaluering af maskinoversættelse (MT) – nogle vigtige forudsætninger Man kan ikke evaluere MT (eller noget andet, fx en bil) uden at definere den ramme det skal bruges i. Rammen defineres af faktorer som disse: •Hvor skal MT bruges? (organisatorisk) •fx i en virksomhed - af direktøren, af informationsafdelingen, af oversættelsesafdelingen - eller •til private formål, til forskning, … •Formålet med den oversatte tekst •fx oversætte referater hurtigt til internt brug, oversætte manualer til eksternt brug, oversætte salgsmateriale,… •Teksttype, domæne •Nogle teksttyper og domæner egner sig bedre end andre •De ressourcer der er til stede •Både sprogressourcer og mennesker •Tidsfrister og andre krav •fx om hvor hurtigt oversættelsen skal være klar

Dias 3 Center for Sprogteknologi To forskellige synspunkter på evaluering Det er ikke blot rammen der bestemmer kriterierne for hvad man er interesseret i ved evalueringen •Udvikleren/lingvisten •Brugeren Udvikleren/lingvisten taler om hvor mange leksikalske fejl, hvor mange grammatiske fejl, af hvilken type mv. •Formål: forstå systemet, forbedre systemet, - forstå oversættelsens natur Brugeren er interesseret i, om det kan bruges, hvad det koster, hvad det koster at efterredigere, om det kan hjælpe til at levere varen til tiden mv. •Formål: få forretningen til at løbe rundt

Dias 4 At sætte et evalueringssystem op Bestemme rammen •Teksttype, domæne Bestemme evaluatorsynspunktet Etablere kriterier der •kan bedømmes objektivt (samme resultat hver gang) •faktisk måler det man er interesseret i

Dias 5 Center for Sprogteknologi Projektets kriterier og målemetode – brugerevaluering Formål: objektiv, relevant evaluering Oversættelseskvalitet •tre kriterier Usability (er det værd at efterredigere?) •På en skala fra 1 til 3 •1: For dårlig til at efterredigere, det vurderes at det er hurtigere at oversætte fra input end at efterredigere •2: Kan redigeres •3: OK Adequacy (har den samme betydning?) •På en skala fra 1 til 4 Fluency (er den grammatisk?) •På en skala fra 1 til 4 Måle efterredigeringstiden

Dias 6 Værktøj til indtastning og opsummering (udlånt fra Philipp Koehn, Edinburgh Univ.)

Dias 7 Center for Sprogteknologi Metoder til evaluering – automatisk evaluering Formål: objektiv evaluering Automatisk evaluering er billigere og hurtigere •Kan automatiske metoder anvendes? – Hvad kan man måle? •Vi har anvendt BLEU som anvendes meget i forskningsverdenen •I BLEU måles afstanden mellem MT-outputtet og en referenceoversættelse/det efterredigerede resultat •Vi har anvendt TER ”Translation Edit Rate”(Snover et al, 2006) •I TER måles hvor mange editeringer der skal foretages før outputtet er magen til referencen/det efterredigerede resultat

Dias 8 Center for Sprogteknologi Teksttypen manualer Oversættelse fra engelsk til dansk Arbejdet med tekster fra 5 forskellige typer af tekst Manualer til: •Videokameraer •Software •DVD-afspillere •Kontormaskiner •Mobiltelefoni

Dias 9 Center for Sprogteknologi SMT: Statistiske resurser Oversættelses workflow Auto. forbehandling Engelsk tekst Oversætterkerne Auto. efterbehandling Dansk tekst Efter- redigering Sprogmodel ngram 5 Phrase tables MOSES Decoder Vi har koncentreret os om den statistiske oversætterkerne Træning af denne kræver parallelle tekster indenfor de ønskede domæner Forbehandling og efterbehandling kan automatiseres meget mere

Dias 10 Center for Sprogteknologi Resultater fra tre typer af evaluering Oversættererne har vurderet oversættelseskvaliteten sætning for sætning og givet karakter til hver sætning Automatisk evaluering af forskel mellem MT-outputtet og det efterredigerede resultat Efterredigeringstiden: hvor dyrt er det at gøre teksten færdig?

Dias 11 Center for Sprogteknologi Oversætternes evaluering Kriterier: •Usability: skal den postediteres •Skalaen er 1-3 •Adequacy: har den samme betydning? •Fluency: er den grammatisk? •Skalaen er 1-4 1,592,381,80197GPS 1,892,352,02117HS 2,182,301, FluencyAdequacyUsabilityAntal sætn.Teksttype

Dias 12 Center for Sprogteknologi BLEU: A method for automatic evaluation of Machine Translation, Papineni et al., 2001 Metoden bygger på at man måler overensstemmelsen mellem det MT- oversatte og referenceoversættelser vurderet på ordniveau. Her måles for hvor stor forskel der er mellem MT-outputtet og det efterredigerede resultat, skalaen er 0-1 Kan bruges til at se hvor der er størst behov for at ændre ord. Giver ikke noget billede af hvilke ændringer der skal udføres. Kan bruges af udvikleren til at udpege problemsætninger Automatisk evaluering vha. BLEU 0,790,61Krav 0,710,76Eksempler 0,65 Beskrivelse BLEU(MT – efterred.)

Dias 13 Center for Sprogteknologi A Study of Translation Edit Rate with Targeted Human Annotation Snover et al, 2006 I TER måles hvor mange editeringer der skal foretages før outputtet er magen til referencen/det efterredigerede resultat. Der må les ”insertions” ”deletion” ”substitutions” ”shifts”&”words shifted” i forhold til antal ord i referencen, skalaen er 0-100% Kan bruges til at se hvilken type af editering der skal til Giver et vist billede af hvilke ændringer der skal udføres. Kan bruges af udvikleren til at udpege problemsætninger Automatisk evaluering vha. Translation Edit Rate 0,23,8Udviklingstest 0,34,5HS 0,32,16131 TER (MT output<>HR)

Dias 14 Center for Sprogteknologi Hvor lang tid skal man bruge på at rette teksten? Tallene her dækker fejlrettelser, ikke korrektion af formatet Efterredigeringstid 1,0Gennemsnit 16K 1,0117HS 1, Efterred.tid/sætning (min)Antal sætn.Teksttype

Dias 15 Center for Sprogteknologi Hvordan fordeler matches i TM sig i forhold til evalueringen? 309 1,43 1,25 1,94 2,02 To helt forskellige opgaver, så sprogrevisoren må opøve sit blik for fejltyperne Sammenligning med Translation Memory: Usability ”Gennemsnit” ”No match” ”1” %-94% ”2” 1195%-100% ”3” HS6131Teksttype

Dias 16 Center for Sprogteknologi Eksempler på oversættelser og demo SMV Engelsk: Heteroaryl diazacycloalkanes, their preparation and use The present invention relates to novel heteroaryl diazacycloalkane derivatives which are cholinergic ligands at nicotinic ACh receptors. Automatisk oversættelse: Heteroaryl diazacycloalkanes, deres fremstilling og anvendelse Den foreliggende opfindelse angår hidtil ukendte heteroaryl diazacycloalkane derivater, der er cholinerge ligander ved nikotine ACh receptorer. Efterredigeret tekst: Heteroaryldiazacycloalkanes, deres fremstilling og anvendelse Den foreliggende opfindelse angår hidtil ukendte heteroaryldiazacycloalkanderivater, som er cholinerge ligander ved nicotin-ACh-receptorer.

Dias 17 Center for Sprogteknologi Eksempler på oversættelser og demo Engelsk: The compounds of the invention are useful for the treatment of conditions or disorders or diseases involving the cholinergic system of the central or peripheral nervous system, pain, inflammatory diseases, diseases caused by smooth muscle contractions and as assistance in the cessation of chemical substance abuse. Automatisk oversættelse: Forbindelserne ifølge opfindelsen er nyttige til behandling af tilstande eller lidelser eller sygdomme, der involverer den cholinerge system af det centrale eller periferære nervesystem, smerte, inflammatoriske sygdomme, sygdomme forårsaget af glatte muskler sammentrækninger og som assistance i ophør af kemiske stofmisbrug. Efterredigeret tekst: Forbindelserne ifølge opfindelsen er nyttige til behandling af tilstande eller lidelser eller sygdomme, der involverer det cholinerge system af det centrale eller perifere nervesystem, smerter, inflammatoriske sygdomme, sygdomme forårsaget af sammentrækning af glat muskulatur og som assistance ved ophør af kemiske stofmisbrug.

Dias 18 Center for Sprogteknologi Eksempler på oversættelser og demo Engelsk: Indeed several CNS disorders can be attributed to a cholinergic deficiency, a dopaminergic deficiency, an adrenergic deficiency or a serotonergic deficiency. A reduction in the number of nicotinic ACh receptors is also observed with the progression of Alzheimer&jis disease. Automatisk oversættelse: Faktisk adskillige CNS-lidelser kan være tilskrives en cholinerge mangel, en dopaminerge mangel, en adrenerge mangel eller en serotonerge østrogenmangel. En reduktion i antallet af nikotine ACh receptorer er også observeret med fremadskridenen af Alzheimer&jis sygdom. Efterredigeret tekst: Faktisk kan adskillige CNS-lidelser tilskrives en cholinerge mangel, en dopaminerge mangel, en adrenerg mangel eller en serotonerg østrogenmangel. En reduktion i antallet af nicotin-ACh-receptorer er også observeret med fremadskridenen af Alzheimers sygdom.

Dias 19 Center for Sprogteknologi Eksempler på oversættelser og demo Engelsk: Alzheimer&jis disease is characterised by a profound loss of memory and cognitive functions caused by a severe depletion of cholinergic neurons, i.e. neurons that release acetylcholine. Automatisk oversættelse: Alzheimer&jis sygdom er kendetegnet ved en omfattende tab af hukommelse og kognitive funktioner, der er forårsaget af en alvorlig depletering af cholinerge neuroner, dvs. neuroner, at frigivelse acetylcholin. Efterredigeret tekst: Alzheimers sygdom er kendetegnet ved et omfattende tab af hukommelses- og kognitive funktioner, der er forårsaget af en alvorlig depletering af cholinerge neuroner, dvs. neuroner, der frigiver acetylcholin.

Dias 20 Center for Sprogteknologi Erfaringer fra udviklingen -1 SMV2-projektet har givet en ny mulighed for direkte samarbejde mellem forskere og virksomheder: •virkelige data •oversætternes evaluering og efterredigering Vi kombinerede tekstmaterialet fra begge patentfirmaer for at opnå meget tekst •giver uønsket variation i oversættelserne Fokus har været på kernen i oversættelsesprocessen Ønsker til kernen: •Forbedring af output f.eks. færre kongruensfejl vha. brug af lingvistisk viden

Dias 21 Center for Sprogteknologi Erfaringer fra udviklingen -2 Integration i virksomhedens workflow kræver: Parallelle tekster af god kvalitet til opbygning af de statistiske ressourcer, helst flere mill. ord Hjælpeværktøj uden om kernen til: •håndtering af ”Faste vendinger” •markering af ord der ikke ønskes oversat •Formler og henvisninger, især i patenttekster!! Forbehandling Engelsk Patent- dokument Statistisk oversætter Efterbehandling Statistiske ressourcer: ”phrasetable” ”sprogmodel” Dansk Patent- dokument Tekst- revision

Dias 22 Center for Sprogteknologi Opsummering - Patenttekster En statistisk oversættelseskerne er patentfirmaets eget aktiv •bygget på firmaets egne tekstressourcer og afspejler dermed firmaets sprogpolitik •er ikke omkostningstung i oprettelse •kan oprettes for nye domæner og nye sprogkombinationer

Dias 23 Center for Sprogteknologi MOSES Open source system replacing Pharaoh (Koehn et al. 2007) State-of-the-art phrase-based approach Using factored translation models Comparison Pharao and Moses decoder Reuse of statistical resources possible Adding linguistic information to SMT: MOSES

Dias 24 Center for Sprogteknologi Using factored translation models Makes it possible to build translation models based on surface forms, part-of-speech, morphology etc. We use: Translation model: word->word, pos->pos Generation model determine the output Adding linguistic information using MOSES InputOutput word pos+morf word pos+morf

Dias 25 Center for Sprogteknologi Results adding pos-tags – by inspection With inclusion of morpho-syntactic information: (lit:… control of the full spectrum)... kontrol af det fulde spektrum (gender agreement) (lit: … the active ingredients)... de aktive bestanddele (number agreement) (lit:... this constant erosion)... denne konstante erosion (definiteness agreement)

Dias 26 Center for Sprogteknologi Using factored translation models Makes it possible to build translation models based on surface forms, part-of-speech, morphology etc. We use: Translation model: word->word, pos->pos Generation model determine the output Adding linguistic information using MOSES InputOutput word pos+morf word pos+morf