Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

SDMT-SMV Workshop 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet

Lignende præsentationer


Præsentationer af emnet: "SDMT-SMV Workshop 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet"— Præsentationens transcript:

1 SDMT-SMV Workshop 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet loff@cst.dk

2 Lene Offersgaard, SDMT-SMV, september 2006 2 Et generelt billede af SMT-systemet Smt- præprocessor Language model Moses decoder (Oversættelseskerne) Phrase-table Oversættelsesklart dokument Tokenisering, lowercasing? Tab af layout Råoversat dokument Smt postprocessor, evt. recasing Sentence aligned korpus, en Sprogmodel- træning (srilm eller irstlm) Phrase-table træning, (Giza++, mkcls, Moses) Ini.fil Sentence aligned korpus, da

3 Lene Offersgaard, SDMT-SMV, september 2006 3 Om dokumentlayout og SMT Dokumentformater “ Layout”-information forsvinder i på vej ind i SMT systemet: Fed, kursiv, hævet og sænket skrift S pecielle tegn i input forsvinder hvis man ikke gør noget … der betegnes henholdsvis δ …µg/ml… Forskellige windows-tegn … De skal eksplicit konverteres, gemmes fra MSWord kan man vælge tillad tegnerstatning og så går det ofte godt. Input og output format for oversættelseskernen: Vesteuropæisk ISO/latin1 eller utf8

4 Lene Offersgaard, SDMT-SMV, september 2006 4 Status konvertering

5 Lene Offersgaard, SDMT-SMV, september 2006 5 Status træningsmaterialet Hvad er der leveret til os som træningsmateriale? Hvordan har I udvalgt det?

6 Lene Offersgaard, SDMT-SMV, september 2006 6 Præprocessering Tokenisering Udført ensartet, men sætningssegmenteringen lidt forskellig. ”Casing” Normalt laves lowercasing på tekster Lige nu er oprindelig ”casing” fastholdt pga. de mange stoffer og navne. I en kommende version bør sætningsindledere konverteres til små bogstaver

7 Lene Offersgaard, SDMT-SMV, september 2006 7 Træning og Test Træning 143400 sætninger Sætningslængde i træningsmaterialet: < 50 ord Test 600 sætninger sætningslængde i testmaterialet: < 50 ord Testresultater Nogle eksempler nu Vise et interface der kan bruges til små test

8 Lene Offersgaard, SDMT-SMV, september 2006 8 Testresultater (1) Da-out:Type 2-diabetes, der også betegnes som diabetes mellitus ( NIDDM ), rammer mellem 80 og 90 % af alle diabetespatienter i non-insulin afhængige udviklede lande. Da-ref: Type 2-diabetes, også omtalt som ikke-insulinafhængig diabetes mellitus ( NIDDM ), rammer mellem 80 og 90 % af alle ? diabetespatienter / diabetikere i udviklede lande. En:Type 2 diabetes, also referred to as non-insulin dependent diabetes mellitus ( NIDDM ), afflicts between 80 and 90 % of all diabetic patients in developed countries.

9 Lene Offersgaard, SDMT-SMV, september 2006 9 Testresultater (2) Da-out:I USA ca. 15 millioner mennesker på verdensplan var mere end 100 millioner påvirkes. alene, og Da-ref:I USA alene rammes ca. 15 millioner mennesker, og mere end 100 millioner rammes på verdensplan. En: In the United States alone, approximately 15 million people, and more than 100 million worldwide, are affected.

10 Lene Offersgaard, SDMT-SMV, september 2006 10 Testresultater - tegn Da-out: En repræsentativ for denne gruppe, der er kendt af estrogent stoffer, der er 1,3, 5 og 15, 16, 17&xp-tetrol, også kendt navnene af estetrol, oestetrol ved en 15&xk ( 10 ) -estratrien-3, a-hydroxyestriol. Da-ref: Et kendt eksempel på denne gruppe af østrogenstoffer er 1,3, 5 ( 10 ) - estratrien-3, 15&xk, 16 a, 17&xp-tetrol, også kendt under navnene estetrol, østetrol og 15 a-hydroxyøstriol. Da-ref uden koder: Et kendt eksempel på denne gruppe af østrogenstoffer er 1,3, 5 ( 10 ) -estratrien-3, 15, 16 a, 17β-tetrol, også kendt under navnene estetrol, østetrol og 15 a-hydroxyøstriol. En:A known representative of this group of estrogenic substances is 1,3, 5 ( 10 ) - estratrien-3, 15&xk, 16 a, 17&xp-tetrol, also known by the names of estetrol, oestetrol and 15 a-hydroxyestriol.

11 Lene Offersgaard, SDMT-SMV, september 2006 11 Testresultater – formler Da-out: M er valgt fra gruppen bestående af Zn, OR&dw7 )&dw2, og AlOR&dw7 hvor R&dw7 er valgt fra gruppen bestående af H og Si ( C&dw1-15 alkyl ; Da-ref: M er valgt fra gruppen bestående af Zn, Si ( OR&dw7 )&dw2 og AlOR&dw7, hvor R&dw7 er valgt fra gruppen bestående af H og C&dw1-15 alkyl ; En: M is chosen in the group consisting of Zn, Si ( OR&dw7 )&dw2 and AlOR&dw7 wherein R&dw7 is chosen in the group consisting of H and C&dw1-15 alkyl ;

12 Lene Offersgaard, SDMT-SMV, september 2006 12 Demo En lille bitte demo… måske… hvis vi har tid… http://cst.dk/cgi-bin/smv/smtsystem.cgi


Download ppt "SDMT-SMV Workshop 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet"

Lignende præsentationer


Annoncer fra Google