Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Dias 1 Stormøde 7. okt. 2009 DK-CLARIN WP5 Lene Offersgaard, Bart Jongejan WP5 Metadata, ressourcetyper, og værktøjer DK-CLARIN stormøde 7. okt. 2009.

Lignende præsentationer


Præsentationer af emnet: "Dias 1 Stormøde 7. okt. 2009 DK-CLARIN WP5 Lene Offersgaard, Bart Jongejan WP5 Metadata, ressourcetyper, og værktøjer DK-CLARIN stormøde 7. okt. 2009."— Præsentationens transcript:

1 Dias 1 Stormøde 7. okt. 2009 DK-CLARIN WP5 Lene Offersgaard, Bart Jongejan WP5 Metadata, ressourcetyper, og værktøjer DK-CLARIN stormøde 7. okt. 2009

2 Dias 2 DK-CLARIN stormøde 7. okt. 2009 Overblik Metadata -Vores definition af metadata -Udfordring: mange anvendelser -Metadata, typer af metadata -Status Ressourcetyper -Oversigt over ressourcetyper -Formater -Status Værktøjer -Eksterne og integrerede værktøjer -Integration af værktøjer: web-services -Eksempel og status Opsummering

3 Dias 3 DK-CLARIN stormøde 7. okt. 2009 Metadata DK-CLARIN Metadata: • Beskrivende og administrative • Annoteringer er IKKE metadata Metadata har flere funktioner • beskrive ressourcen ved import • bruges i søgning • beskrive ressourcen ved eksport • beskrive relationer til andre ressourcer

4 Dias 4 DK-CLARIN stormøde 7. okt. 2009 Metadata: udfordringer Forskellige ressourcer har mulighed for forskellige metadata Forskellige brugere er interesseret i forskellige metadata Gerne en så ensartet tilgang til ressourcer som muligt Opdele ressourcerne i forskellige typer Generelle metadata, heraf er nogle obligatoriske Typespecifikke metadata, heraf kan nogle være obligatoriske Brug af standarder (og de facto standarder) hvis muligt

5 Dias 5 DK-CLARIN stormøde 7. okt. 2009 Generelle obligatoriske metadata Generelle metadata med udgangspunkt i Dublin Core-standarden Dublin Core Metadata Initiative (DCMI): Dublin Core Metadata Element Set – 15 kerneelementer Udvidelse med DCMI Metadata Terms Metadatahøstning vha. OAI-PMH-protokollen benytter også DC Generelle obligatoriske metadataelementer ved import : • Type • Title • Language • Format • Publisher • PublicationDate • Rights(license) • Context(accessRights) Repositoriet tilføjer desuden nogle metadata, bl.a. PID

6 Dias 6 DK-CLARIN stormøde 7. okt. 2009 Optionelle generelle metadata Optionelle generelle metadataelementer, bl.a: • Creator(forfatter/værktøj) • Description • Source • HasVersion (relation) • ConformsTo(fx link til xml-schema) • InfoAbout (link til dokumentation) Kraftig anbefaling om at udfylde ‘Creator’ og ‘Description’ For visse ressourcetyper er de obligatoriske!

7 Dias 7 DK-CLARIN stormøde 7. okt. 2009 Ressourcespecifikke metadata Hver ressourcetype kan have sine særlige metadata-elementer Som en del af WP5.2 har hver arbejdspakke selv ansvaret for at fastlægge disse metadata. Fx har WP2 valgt at definere metadata for tekster vha. et uddrag af Text Encoding Initiative Standarden TEI-P5 “Standard” i DK-CLARIN: TEI-P5-WP2 Specifikation af metadata i flere detaljer: Se også http://www.cst.dk/dk-clarin/?q=WP5.2_task5_metadatahttp://www.cst.dk/dk-clarin/?q=WP5.2_task5_metadata

8 Dias 8 DK-CLARIN stormøde 7. okt. 2009 Metadata – status WP2 har opnået enighed om metadata for WP2-tekster i TEI-P5 format. Justering af værdier for metadatafelter i gang. WP4 har opnået enighed om metadata-elementer, metadata specificeres på ordbogsniveau. Primært genbrug af EU-CLARIN metadata- elementer vedr. Leksika. Metadata for værktøjer(WP5.2): Der skal foretages justeringer i nuværende specifikation for at komme tættere på EU-CLARIN (NEERI’09) EU-CLARIN promoverer ISOcat: Data Category Registry (ISO 12620) De fleste metadata-elementer i DK-CLARIN vil komme/er allerede i ISOcat. Vi overvejer om vi skal sætte de resterende ind. EU-CLARIN får mulighed for at høste DK-CLARIN’s metadata vha. OAI-PMH-protokollen

9 Dias 9 DK-CLARIN stormøde 7. okt. 2009 Ressourcetyper Siden sidste stormøde har vi arbejdet med definition af DK-CLARINs ressourcetyper og –formater. Basisressourcer: Tekst, Lyd, Video, Billede, Leksikon, Data Annotationsressourcer: Tekstannotation, Lydannotationer, Videoannoteringer Samlinger: Homogene samlinger: fx tekstsamling Heterogene samlinger: fx en video og de annoteringsressourcer, der hører til denne video Se oversigt i afsnit 2.5 i kravsspecifikationen: http://cst.dk/dk- clarin/files/Clarin%20kravspec%20051009.dochttp://cst.dk/dk- clarin/files/Clarin%20kravspec%20051009.doc

10 Dias 10 DK-CLARIN stormøde 7. okt. 2009 Ressourceformater Tak til alle arbejdspakker for input til specifikationen af formater. Se detaljer i kravsspecifikationen kapitel 3. ‘Data’: Den eneste ressourcetype som ikke har tilknyttet format-krav TypeFormatkrav TekstTEI-P5-XML TEI-P2-WP2-XML Lyd.wav.mp3 Video.mov.avi i mpeg4-format BilledeTIFF JPEG2000 LeksikonXML rdf/owl csv Data TekstannoteringTEI-P5-XML XML XCES Lydannotering.TextGrid.cha Videoannotering.cha ELAN Anvil

11 Dias 11 DK-CLARIN stormøde 7. okt. 2009 Ressourcetyper og –formater - status Specifikationen dækker de ressourcetyper og –formater der kommer i spil i DK-CLARIN’s projektperiode. Der skal være plads til alle ovennævnte formater. Et værktøj kan have begrænsninger mht. hvilke input/output formater der kan anvendes. Indhold i DK-CLARIN: Oversigt over ressourcer og værktøjer: http://www.cst.dk/dk- clarin/?q=WP5.2_task5_indholdsoversigthttp://www.cst.dk/dk- clarin/?q=WP5.2_task5_indholdsoversigt • 12 web-services • 11 andre værktøjer(foreløbig) • Ca 25 ressourcer Vi vil gerne høre om ekstra ressourcer som kan lægges I DK-CLARIN Nogle har allerede svaret tilbage, tak for det!

12 Dias 12 DK-CLARIN stormøde 7. okt. 2009 Værktøjer – eksterne og integrerede Eksterne værktøjer værktøjer som der kun registreres i DK-CLARIN med metadata kan ikke kaldes direkte fra infrastrukturen Integrerede værktøjer værktøjer der er integreret som web-services Web-services To mulige standarder for implementering: REST(+WADL) eller SOAP (+WSDL) REST vil med sikkerhed blive benyttet Ingen meldinger fra partnere om at SOAP er nødvendig, så om muligt vil vi derfor nøjes med REST-baserede web-services

13 Dias 13 DK-CLARIN stormøde 7. okt. 2009 Integration af værktøjer – et eksempel Opgave: Lemmatisere en tekst vha. web-service WP2-baseformat anvendes Web-service Cst- lemmatizer Lemma- tisering tekst Tokeni sering POS- annote ring options

14 Dias 14 DK-CLARIN stormøde 7. okt. 2009 Eksempel: input til web-service: 2 ressourcer Input 1: Ressource med tokens stormen har lagt sig Input 2: Annotation af ressourcen: ordklasser N_DEF_SING V_PRES V_PARTC_PAST PRON_PERS

15 Dias 15 DK-CLARIN stormøde 7. okt. 2009 storm have lægge sig Output: lemmatisering Eksempel: lemmatisér ressource Flet ressource+annotation sammen: stormen/N_DEF_SING har/V_PRES lagt/V_PARTC_PAST sig/PRON_PERS Lav ny annotation: lemmatiser stormen:storm har:have lagt:lægge sig:sig Separer ny annotation fra ressource: storm have lægge sig

16 Dias 16 DK-CLARIN stormøde 7. okt. 2009 Integration af værktøjer - status Prototypen på lemmatizeren som web-service kan ses i drift på http://cst.dk/bart/php/examplehttp://cst.dk/bart/php/example WP5 arbejder videre med web-grænsefladespecifikation Dernæst skal de enkelte partnere specificere deres web-services. Planen er at WP5.2 inviterer til et møde om web- service-integration ultimo november. Derefter specificeres integrationen af de enkelte web- services af de enkelte partnere

17 Dias 17 Opsummering Der arbejdes videre på metadata-specifikationen for værktøjer parallelt med web-service-arbejdet. Feedback på metadata-specifikation ønskes i oktober. Information om eksisterende ressoucer eller værktøjer som ønskes integreret i DK-CLARIN modtages gerne, også fra eksterne partnere Ultimo 2009 justeres arbejdsplanen for WP5.2, herunder planer for prioritering af integration af eksisterende ressourcer og web-services, samt prioritering af ekstra værktøjer som kunne være nice-to-have. DK-CLARIN stormøde 7. okt. 2009


Download ppt "Dias 1 Stormøde 7. okt. 2009 DK-CLARIN WP5 Lene Offersgaard, Bart Jongejan WP5 Metadata, ressourcetyper, og værktøjer DK-CLARIN stormøde 7. okt. 2009."

Lignende præsentationer


Annoncer fra Google