Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

WP 5.2 Kortlægning af eksisterende resurcer/collections

Lignende præsentationer


Præsentationer af emnet: "WP 5.2 Kortlægning af eksisterende resurcer/collections"— Præsentationens transcript:

1 WP 5.2 Kortlægning af eksisterende resurcer/collections
Lene Offersgaard Center for Sprogteknologi, Københavns Universitet

2 Første indsamling af information om resurser/collections
Center for Sprogteknologi Første indsamling af information om resurser/collections Indledende runde af informationindsamling Fokus på DK-CLARIN-partnere Forsøg på typeinddeling Eksisterende resurcer Basisoplysninger og kontaktpersoner Tak for alle bidrag fra alle partnere Opsummering af Typer og fordeling i forhold til typer Copyright Metadata Målgrupper og brugertyper Næste skridt

3 Opdeling i typer Skrevet sprog 5.Tale/Audio 6.Multimodale
4.Billeder(obj) Multimodal u. transskrip. u. anno. Billeddatabaser Audio u. transskrip. 1.Monolingvale tekstsamlinger Audio m. transskrip. Multimodal m. transskrip. u/m anno. 2.Multlingvale tekstsamlinger 3.Ord-collections 7. Andet

4 Fordeling i forhold til typer
Center for Sprogteknologi Fordeling i forhold til typer Antal Type Beskrivelse 5 1a Monolingvale tekstsamlinger/korpusser: tekster, tekster med håndskrifter/originaler(digitaliseringer), tekster med noter, med/uden annoteringer 4 1b Monolingvale tekstsamlinger/korpusser: tekstsamlinger, som er tilgængeliggjort vha. et særligt interface, eller med særlige værktøjer tilknyttet f.eks. ADL eller korpus2000 2 2a Multilingvale tekstsamlinger/korpusser: Parallelle tekster på to eller flere sprog. tekster med håndskrifter/originaler(digitaliseringer), tekster med noter, med/uden annoteringer 3 2b Multilingvale tekstsamlinger/korpusser: tekstsamlinger, som er tilgængeliggjort vha. et særligt interface, eller med særlige værktøjer tilknyttet 6 Ord-collections, fx ordbøger el. leksikalske ordsamlinger med lingvistisk annotation 20 1,2,3 Total skrevet tekst 4

5 Fordeling i forhold til typer
Center for Sprogteknologi Fordeling i forhold til typer Antal Type Beskrivelse 1 4 Billed-collections, fx databaser med billeder og tekst 3 5a Audio-collections: med transskription 5b Audio-collections: uden transskription 5 Total type 5 1+ 6a Multimodale collections, med transskription 6b Multimodale collections, uden transskription 6c Multimodale collections, med transskriptioner og annotationer 6d Multimodale collections, uden transskription eller annotationer 6 Total type 6 7 Andet 5

6 Tilpasning af SMT-systemet
SMT-systemet lige nu: Standalone-applikation, kører på linux-server, Demo: web-adgang ”Flad” tekst håndtering Kan køre med forskellige oversættelsesmodeller: nu ”manualer”, Systemet kan blive bedre med mere domæneafgrænsede data For at opnå integration med workflow: Input til SMT-systemet og fra SMT-systemet kan leveres i Tag-editor-format Der trænes oversættelsesmodeller for de domæner hvor man ønsker at anvende SMT-systemet

7 Opgaver, bl.a. Fastlæggelse af domæne
Center for Sprogteknologi Opgaver, bl.a. Fastlæggelse af domæne Levering af TM til træning – Inter-Set Træning af oversættelsesmodel – CST Samarbejdsaftale Fastlæggelse af testscenarie Konvertering til/fra TagEditor-format – CST Krav til web-applikation Implementering af web-applikation – CST Krav til opdatering af oversættelsesmodel Opdateringfacilitet til model implementeres - CST Funktionel test Eksperimenter med match% Test af oversættelseskvalitet Tilpasning til drift Samlet test

8 Eksempler på oversættelser og demo
Center for Sprogteknologi Eksempler på oversættelser og demo SMV Engelsk: Enter the emergency number, then press the call key. The wireless device described in this guide is approved for use on the EGSM 850, 900, 1800 and 1900 networks. Automatisk oversættelse: Indtast alarmnummeret, og tryk derefter på tasten opkald. Den trådløse enhed, der beskrives i denne brugervejledning, er godkendt til brug i egsm 850, 900-, 1800 og 1900-netværk. Efterredigeret tekst: Indtast alarmnummeret, og tryk derefter på tasten Ring op. Den trådløse enhed, der beskrives i denne brugervejledning, er godkendt til brug i EGSM 850-, 900-, og 1900-netværk.


Download ppt "WP 5.2 Kortlægning af eksisterende resurcer/collections"

Lignende præsentationer


Annoncer fra Google