Evaluering af MT SDMT-SMV2 Workshop 2 Bente Maegaard, Lene Offersgaard Center for Sprogteknologi, Københavns Universitet

Slides:



Advertisements
Lignende præsentationer
Taskbaseret sprogundervisning
Advertisements

Gode råd og eksempler på faldgruber
WP 5.2 Kortlægning af eksisterende resurcer/collections
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Hvad er lean Konstant fokus på spild i alle processer. Nedbringe lagre, gennemløbstider og mindske omkostninger. Sikre en høj kvalitet af produkter og.
KPLL minisymposium 2012 HbA1c udført i almen praksis til diagnostik? Peter Felding.
Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.
Dias 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet WP 5.2 Kortlægning af eksisterende resurcer/collections.
Evaluering af SMT (statistisk maskinoversættelse) brugt på patenttekster. Erfaringer med systemudviklingen SDMT-SMV-projektet Lene Offersgaard, Bente Maegaard.
Co-funded by the 7th Framework Programme of the European Commission through the contract T4ME, grant agreement no.: Præsentation af METASHARE –
Input FMEA Output Shit in = Shit out FMEA
NP struktur - Eller hvordan engelsk er nominelt, mens dansk er verbalt.
SDMT-SMV Workshop 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet
Sundhedsprofessionelles forståelser af patientinddragelse
25. sep Dias 1 Center for Sprogteknologi Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007 Inter-set.
25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.
1 The Case Research Strategy in Studies of Information Systems Af:Izak Benbasat, David K. Goldstein og Melissa Mead Publiceret: MIS Quaterly i 1987.
Forbrugsgenetik - Etiske aspekter Mickey Gjerris Lektor, Ph.d. Medlem af Det Etiske Råd.
COMPARISON OF EMPIRICAL TESTING AND WALKTHROUGH METHODS IN USER INTERFACE EVALUATION Af Clare Marie Karat, Robert Campbel og Tarra Fiegel IBM T.J. Watson.
1 FM4 Feltstudier og etnografi – Lars Michael Kjeldskov, J. and Stage, J. (2003) The Process of Developing a Mobile Device for Communication in a Safety-Critical.
Artikel præsentation Kenneth Pedersen DESIGN SCIENCE IN INFORMATION SYSTEMS RESEARCH Hevner, A. R., March, S. T., Jinsoo, P. and Ram, S. (2004)
Tema for kompetenceudvikling Hvordan får vi flere studerende? Forslag fra (initialer) LH, CP, DH, HF Formål Overlevelse Faget Centret Dygtigere humanister.
Søgning - et værktøj til videndeling Inspirationsseminar 31. oktober 2006.
Hanne-Pernille Stax, ph.d
Intern kommunikation PR og presse
Evaluering af dagtilbud Oplæg til DLO’s konference København 25. april 2007 Anne Kjær Olsen og Pia Vinther Dyrby konsulenter på Danmarks Evalueringsinstitut.
Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.
IMODUS Faser og nøglebegreber Karsten Gynther Leder af Educationlab Forskningsprogram for TEKNOLOGI, UDDANNELSE og VELFÆRD Forskning og Innovation University.
Nyt fra forskningen – med fokus på kvalitet og kvalitetssikring Lone Kørnøv ’Miljøvurderingsdag 2014’, august /14Lone Kørnøv, DCEA.
Ordnet og tesaurusser Patrizia Paggio Center for Sprogteknologi Københavns Universitet
VVM redegørelsen - hvordan arbejder vi for en højere kvalitet? GRUPPEOPGAVE 1: HVAD ER KVALITETEN AF REDEGØRELSEN? Miljøvurderingsdag
Quality Management Systems
25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.
Change Triangle – “Learning by Playing” as a tool for change - example from the Altiplano in Bolivia.
Peer learning i Ortopædkirurgisk afdeling
XML og Skemaer Costanza Navarretta Center for Sprogteknologi, Københavns Universitet
Læger uden Sponsor Præsentation ved IRF’s ALKE-møde maj 2006 Hotel Munkebjerg, Vejle.
Evidens, evaluering & dokumentation - skærpet ansvarsfordeling og skærpet faglighed Børne- og Kulturchefernes årsmøde, 15. november 2007 Merete Konnerup,
Forbedringsprojekt om målinger - SCKK 2004 Måleovervejelser Overvejelser inden I beslutter jer for en måletype Præsentation af hovedmåletyper Oplæg til.
Dias 1 Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet Udvikling og evaluering af SMT-SMV.
Kursusintroduktion Elektronisk Patient Journal?. Kursusbeskrivelsen – formål: Viden om informationssystemer på hospitaler/sygehuse – specielt billeddannende.
Introduktion til KVIK Modellen Tovholderens rolle og opgaver
Baresso.
Usability ITU, forår 2008 Usability ITU Forår 2008 ’Teori 2’ 3. kursusgang, 14. februar 2008.
IKT omstilling af undervisningsinstitutioner Forskning og udvikling på AAU V. Tom Nyvang
DIEB12.1 Kursusgang 12 Feedback fra en usability-evaluering Oversigt: Sidste kursusgang Opgaver Feedback Are Usability Reports Any Good? Alternativer til.
DIEB15.1 Kursusgang 15 Omkostninger ved usability-arbejde Oversigt: Sidste kursusgang Opgaver Cost justification Use Case Evaluation.
 Jens Bennedsen 2002Objektorienteret systemudvikling GRASP mønstre Basale ansvarsplaceringsregler.
KFUM-Spejderne i Danmark General assembly KFUM-Spejderne i Danmark Conditions time spent in the conference hall should be minimized everybody should.
Ændr 2. linje i overskriften til AU Passata Light 23. AUGUST 2016ADJUNKT HANNE BALSBY THINGHOLM AARHUS UNIVERSITET AU ELEVAKTIVERENDE UNDERVISNING ‘ACTIVE.
Sproglig opmærksomhed & sproglig bevidsthed. Forudsætninger for at lære sprog Input - en forudsætning for at kunne finde mønstre og for at have noget.
At du kan forklare og anvende sundhedsfaglig dokumentation, formidle observationer samt anvende fagsprog i skrift og tale.
KNÆK KODEN Det samfundsfaglige område Opgaveformulering 1 - Frivillighed.
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Center for Naturvidenskabernes og Matematikkens Didaktik NAMADI Netværk om udvikling af naturvidenskabelige og matematiske studieretningsprojekter Erfaringer.
Center for Offentlig Innovation har udviklet denne spredningsguide for at hjælpe offentlige arbejdspladser med at dele egne innovationer og genbruge andres.
Automatisk oversættelse af
Dokumentation, evaluering og evidens
KNÆK KODEN Samfundsfaglige område
Livsstilsanalyse i Danmark
KANDIDAT- UDDANNELSE 2017.
Teater – ramme om en kulturel dimension i vores liv
SUF - gevinstrealisering
Software Testing Software testing.
DIGHUMLAB Forskning i tema1 – Sproglige materialer
Thesis Critique Københavns Universitet er én institution – men det er langt fra en ensartet institution. De mange forskningsområder og forskellige uddannelser.
Kursusgang 12 Feedback fra en usability-evaluering Oversigt:
Forbedringsmodellen Test og læring Hvad ønsker vi at opnå? Mål
European data sources – a (lost) opportunity and a challenge
Organisatorisk Implementering af Machine Learning
Præsentationens transcript:

Evaluering af MT SDMT-SMV2 Workshop 2 Bente Maegaard, Lene Offersgaard Center for Sprogteknologi, Københavns Universitet

SDMT-SMV2, september Disposition Evaluering af MT og SMT generelt Human evaluation Bleu TER Resultater fra udvik

SDMT-SMV2, september MT evaluering – vigtige spørgsmål Man kan ikke evaluere MT (eller noget andet) uden at definere den ramme det skal bruges i Formålet med evalueringen (forskning, anvendelse, mv.) Hvis der er tale om MT der skal bruges i en virksomhed Formålet med den oversatte tekst (fx oversætte referater hurtigt til internt brug, oversætte manualer til eksternt brug, oversætte salgsmateriale,…) Bestemmer den kvalitet man skal gå efter Teksttype, domæne De ressourcer der er til stede De krav der stilles, fx om hvor hurtigt oversættelsen skal være klar

SDMT-SMV2, september Et væsentligt bidrag vedr. evalueringsmetoder Van Slype: Critical Study of Methods for Evaluating the Quality of Machine Translation, Bruxelles 1979 Et hovedbidrag til evalueringslitteraturen Van Slype fastslår at der er to typer evaluering: brugernes og lingvistens Lingvisten taler om hvor mange leksikalske fejl, hvor mange grammatiske fejl, af hvilken type mv. Brugeren er interesseret i, om det kan bruges, hvad det koster, hvad det koster at efterredigere, om det kan hjælpe til at levere varen til tiden mv.

SDMT-SMV2, september Papineni et al.: BLEU: A method for automatic evaluation of Machine Translation, IBM report, 2001 Metode: Man får den tekst, man vil bruge som test af sit MT-system, oversat af flere forskellige oversættere (mennesker): referenceoversættelse Metoden bygger på at man måler (statistisk) overensstemmelsen mellem det MT-oversatte og referenceoversættelserne Hvis der er god overensstemmelse, er MT-oversættelsen god Man ”tæller” n-grammer: 1-gram, 2-gram, 3-gram, 4-gram i oversættelsen i forhold til reference-tekster Værdier mellem 0-1 BLEU: Automatisk metode til MT-evaluering

SDMT-SMV2, september BLEU 2 Meget brugt mål til evaluering af systemudvikling i forskningen, når fokus er på algoritmer Har ulemper, fordi man ikke helt forstår hvad Bleu måler Ord der har anden placering i output end reference straffes ikke Der vægtes ikke mht. indhold Forbedringer ses måske ikke i Bleu-målet… Re-evaluating the Role of BLEU in Machine Translation Research

SDMT-SMV2, september TER – Translation edit rate Translation Error Rate is an error metric for machine translation that messures the number of edits required to change a system output into one of the references. NOTE: HTER (TER with human targeted references) requires post- editing of system output A Study of Translation Edit Rate with Targeted Human Annotation Matthew Snover and Bonnier Dorr, Procedings of AMTA 2006

SDMT-SMV2, september Tilpasninger i forhold til pilotsystem Behov for forskellig tilpasning af: tokenisering kommatering ”fixed phrases” Udgangspunktet er det samme system, men der er lavet firmaafhængige tilpasninger. De udfordringer som synes nødvendige at gå videre med hvis systemet skal modnes: Forbedring af oversættelseskvaliteten ved firmaadskilte phrase-tables Markering af uoversættelige segmenter Markering af ukendte ord inden oversættelse Løbende opdatering af phrase-tables med nye oversættelser