WP 5.2 Kortlægning af eksisterende resurcer/collections Lene Offersgaard Center for Sprogteknologi, Københavns Universitet loff@cst.dk
Første indsamling af information om resurser/collections Center for Sprogteknologi Første indsamling af information om resurser/collections Indledende runde af informationindsamling Fokus på DK-CLARIN-partnere Forsøg på typeinddeling Eksisterende resurcer Basisoplysninger og kontaktpersoner Tak for alle bidrag fra alle partnere Opsummering af Typer og fordeling i forhold til typer Copyright Metadata Målgrupper og brugertyper Næste skridt
Opdeling i typer Skrevet sprog 5.Tale/Audio 6.Multimodale 4.Billeder(obj) Multimodal u. transskrip. u. anno. Billeddatabaser Audio u. transskrip. 1.Monolingvale tekstsamlinger Audio m. transskrip. Multimodal m. transskrip. u/m anno. 2.Multlingvale tekstsamlinger 3.Ord-collections 7. Andet
Fordeling i forhold til typer Center for Sprogteknologi Fordeling i forhold til typer Antal Type Beskrivelse 5 1a Monolingvale tekstsamlinger/korpusser: tekster, tekster med håndskrifter/originaler(digitaliseringer), tekster med noter, med/uden annoteringer 4 1b Monolingvale tekstsamlinger/korpusser: tekstsamlinger, som er tilgængeliggjort vha. et særligt interface, eller med særlige værktøjer tilknyttet f.eks. ADL eller korpus2000 2 2a Multilingvale tekstsamlinger/korpusser: Parallelle tekster på to eller flere sprog. tekster med håndskrifter/originaler(digitaliseringer), tekster med noter, med/uden annoteringer 3 2b Multilingvale tekstsamlinger/korpusser: tekstsamlinger, som er tilgængeliggjort vha. et særligt interface, eller med særlige værktøjer tilknyttet 6 Ord-collections, fx ordbøger el. leksikalske ordsamlinger med lingvistisk annotation 20 1,2,3 Total skrevet tekst 4
Fordeling i forhold til typer Center for Sprogteknologi Fordeling i forhold til typer Antal Type Beskrivelse 1 4 Billed-collections, fx databaser med billeder og tekst 3 5a Audio-collections: med transskription 5b Audio-collections: uden transskription 5 Total type 5 1+ 6a Multimodale collections, med transskription 6b Multimodale collections, uden transskription 6c Multimodale collections, med transskriptioner og annotationer 6d Multimodale collections, uden transskription eller annotationer 6 Total type 6 7 Andet 5
Tilpasning af SMT-systemet SMT-systemet lige nu: Standalone-applikation, kører på linux-server, Demo: web-adgang ”Flad” tekst håndtering Kan køre med forskellige oversættelsesmodeller: nu ”manualer”, Systemet kan blive bedre med mere domæneafgrænsede data For at opnå integration med workflow: Input til SMT-systemet og fra SMT-systemet kan leveres i Tag-editor-format Der trænes oversættelsesmodeller for de domæner hvor man ønsker at anvende SMT-systemet
Opgaver, bl.a. Fastlæggelse af domæne Center for Sprogteknologi Opgaver, bl.a. Fastlæggelse af domæne Levering af TM til træning – Inter-Set Træning af oversættelsesmodel – CST Samarbejdsaftale Fastlæggelse af testscenarie Konvertering til/fra TagEditor-format – CST Krav til web-applikation Implementering af web-applikation – CST Krav til opdatering af oversættelsesmodel Opdateringfacilitet til model implementeres - CST Funktionel test Eksperimenter med match% Test af oversættelseskvalitet Tilpasning til drift Samlet test
Eksempler på oversættelser og demo Center for Sprogteknologi Eksempler på oversættelser og demo http://192.38.108.139/SDMT/SMV/php/smtdemo.php SMV Engelsk: Enter the emergency number, then press the call key. The wireless device described in this guide is approved for use on the EGSM 850, 900, 1800 and 1900 networks. Automatisk oversættelse: Indtast alarmnummeret, og tryk derefter på tasten opkald. Den trådløse enhed, der beskrives i denne brugervejledning, er godkendt til brug i egsm 850, 900-, 1800 og 1900-netværk. Efterredigeret tekst: Indtast alarmnummeret, og tryk derefter på tasten Ring op. Den trådløse enhed, der beskrives i denne brugervejledning, er godkendt til brug i EGSM 850-, 900-, 1800- og 1900-netværk.