Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Dias 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet WP 5.2 Kortlægning af eksisterende resurcer/collections.

Lignende præsentationer


Præsentationer af emnet: "Dias 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet WP 5.2 Kortlægning af eksisterende resurcer/collections."— Præsentationens transcript:

1 Dias 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet loff@cst.dk WP 5.2 Kortlægning af eksisterende resurcer/collections

2 Dias 2 Center for Sprogteknologi Første indsamling af information om resurser/collections Indledende runde af informationindsamling •Fokus på DK-CLARIN-partnere •Forsøg på typeinddeling •Eksisterende resurcer •Basisoplysninger og kontaktpersoner •STOR TAK for alle bidrag fra alle partnere Opsummering af •Typer og fordeling i forhold til typer •Copyright •Metadata •Målgrupper

3 Dias 3 Opdeling i typer Skrevet sprog5.Tale/Audio6.Multimodale4.Billeder(obj) 1.Monolingvale tekstsamlinger 2.Multlingvale tekstsamlinger 3.Ord-collections Audio m. transskrip. Audio u. transskrip. Multimodal u. transskrip. u. anno. 7. Andet Multimodal m. transskrip. u/m anno. Billeddatabaser

4 Dias 4 Center for Sprogteknologi Fordeling i forhold til typer -1 AntalTypeBeskrivelse 51a Monolingvale tekstsamlinger/korpusser: tekster, tekster med håndskrifter/originaler(digitaliseringer), tekster med noter, med/uden annoteringer 61b Monolingvale tekstsamlinger/korpusser: tekstsamlinger, som er tilgængeliggjort vha. et særligt interface, eller med særlige værktøjer tilknyttet f.eks. ADL eller korpus2000 32a Multilingvale tekstsamlinger/korpusser: Parallelle tekster på to eller flere sprog. tekster med håndskrifter/originaler(digitaliseringer), tekster med noter, med/uden annoteringer 12b Multilingvale tekstsamlinger/korpusser: tekstsamlinger, som er tilgængeliggjort vha. et særligt interface, eller med særlige værktøjer tilknyttet 73 Ord-collections, fx ordbøger el. leksikalske ordsamlinger med lingvistisk annotation 22 1,2,3 Total skrevet tekst

5 Dias 5 Center for Sprogteknologi Fordeling i forhold til typer - 2 AntalTypeBeskrivelse 1(2)4Billed-collections, fx databaser med billeder og tekst 3+5aAudio-collections: med transskription 05bAudio-collections: uden transskription 3+5Total type 5 1+6aMultimodale collections, med transskription 06bMultimodale collections, uden transskription 06c Multimodale collections, med transskriptioner og annotationer 06d Multimodale collections, uden transskription eller annotationer 1+6Total type 6 17Andet

6 Dias 6 Rapporterede typer Skrevet sprog5.Tale/Audio6.Multimodale4.Billeder(obj) 1.Monolingvale Tekstsamlinger 11stk 2.Multilingvale Tekstsamlinger 4stk 3.Ord-collections 7stk Audio m. transskrip. >3stk Audio u. transskrip. Multimodal u. transskrip. u. anno. 7. Andet Multimodal m. transskrip. u/m anno. >1stk Billeddatabaser 1(2)stk Dækker de rapporterede typer hele CLARINS verden? Det antager vi indtil videre…

7 Dias 7 Center for Sprogteknologi Copyright – opsummering Copyright(fra jeres informationer): •For alle (6) •For alle, men kan kun se uddrag af tekster, eller uddrag af oplysninger (2) •Til ikke-kommercielle formål (5) •Til forskningsformål (9) •Copyright hos 3. part (1) •Skal registrere sig (5) •Skal udfylde erklæring om fortrolighed (1) •Licens (1) •Til intern brug (2) •Uafklaret (7)

8 Dias 8 Center for Sprogteknologi Metadata Forskellige angivelser ~ forskellig anvendelse af data XML er næsten et “fællestræk” :-) • Egne formater • Tilpasning af standarder til specifik brug • Standarder: nogle nævnt: TEI, CES, IPA, MATE/GROME- Poesio, mv. Det er nok ikke realistisk at have en fælles metadatabeskrivelse for alle collections/resurser Vigtigt at opnå en fælles metadatabeskrivele for hver type af collection/resurse

9 Dias 9 Begyndelsen TAK for jeres feedback i denne første runde af indsamling af information Kun lige starten på at finde ud af hvad CLARIN kan rumme Der kommer mange flere spørgsmål og debatter…


Download ppt "Dias 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet WP 5.2 Kortlægning af eksisterende resurcer/collections."

Lignende præsentationer


Annoncer fra Google