Dias 1 Stormøde 7. okt. 2009 DK-CLARIN WP5 Lene Offersgaard, Bart Jongejan WP5 Metadata, ressourcetyper, og værktøjer DK-CLARIN stormøde 7. okt. 2009.

Slides:



Advertisements
Lignende præsentationer
Katalog over nationale standarder på sundhedsområdet.
Advertisements

Trehøje-Pigerne Side 1 Vejledning til brug af hjemmesiden Det er slet ikke så vanskeligt – så brug hjemmesiden flittigt… Det er.
Teststrategi Engrosmodellen
Værdistrømsanalyser.
Arkitektur - data.
WP 5.2 Kortlægning af eksisterende resurcer/collections
Cuneco – en del af bips.
Hjemmeside Tirsdag den 5. oktober 2010.
Implementering af it-system
PDF/A Skal - Skal ikke? v/ René Mittå Specialkonsulent
Sikring af tilgængelighed er en proces!
‘Et kig ind i fremtiden: Mobile og pervasive systemer’ (Pervasive Healthcare i Holstebro) Simon Bo Larsen Ole Langvad Wessby Alexandra Instituttet Sekoia.
Teststrategi Engrosmodellen
Retningslinjer for Fjernlån Fjernlånskonferencen og 29. maj 2009 Leif Andresen Styrelsen for Bibliotek og Medier.
DDB Hindsgavl den 26. maj 2011 René Birkemark Olesen
Dias 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet WP 5.2 Kortlægning af eksisterende resurcer/collections.
DigiTool Köpenhamn november 2004 Kristian Wallin.
Strategi Interoperabilitet Web service – nye standarder danZIG-mødet Leif Andresen Biblioteksstyrelsen.
Co-funded by the 7th Framework Programme of the European Commission through the contract T4ME, grant agreement no.: Præsentation af METASHARE –
Indsæt billede her WMS og INSPIRE i Kortforsyningen Etablering af WMS service metadata for Kortforsyningstjenester omfattet af INSPIREs bilag.
Implementering af brandingstrategi på nettet
Arbejdet med åbne standarder – fokus på implementeringen af B 103 Oplæg ved 3. workshop for it-governance 21. februar 2007.
Fra Internet til semantisk web via taksonomier AF:Hosein Askari ITST.
SkoleIntra i fremtiden – hvordan kan det integreres med andre tjenester og systemer Ole Windeløv, UNI-C.
Giv medarbejderne adgang til centrale systemer – lige ind i Office Inspirationsseminar 31. oktober 2006.
Masterpages/Otto Knudsen 1 Master Pages Master Pages i ASP.NET 2.0.
Udvikling af skole/hjemsamarbejdet på Højmeskolen
DK-CLARIN Workspace Struktur - Arbejdsbænk / Workbench Værktøj Ressource Ny ressourceEgen mappe 1DKClarin (KMIV)
Vejledning i testfunktionen på Absalon Testfunktionen er et værktøj som kan bruges til eksamen, status af de studerendes standspunkt eller som de studerende.
Kursus i tilgængelighed for webmastere, informationsmedarbejdere, redaktører, indkøbere og it-chefer.
Portalintegrationsprojektet Claus Andreasen PL, portalintegrationsprojektet.
Footer med basic Clarin info ( , adresse, …) DKClarin header Forside Mockup - DEMO Søgning på websiden SØG Hjælp / Demo Ressourcer Værktøj Formater.
1 Webdesign - De første trin Grundliggende begreber Internettet (1969-): En fællesbetegnelse for netværk eller tjenester der benytter samme.
Datastrukturer og Collections Rasmus D. Lehrmann DM
Rammeformater og indholdsformater
Dias 1 Center for Sprogteknologi, Københavns Universitet Workshop WP5 18. maj 2009 Resurser, værktøjer, typer og formater, oversigt over.
Effektiv adgang til data Niels Mørck, Carl Bro GIS & IT  Carl Bro GIS og IT  Problemstillingen  Nordjyllands Amts Blanketsystem  Centralisering / decentralisering.
1 HMAK XMLRelationel model og XMLNOEA / PQC 2005 SQLServer og XML Hent data via URL Generering af xml –Raw –Auto –Explicit Hent data via template Evt.
FOVITS: Informationshåndtering på nettet - sprogteknologiske løsninger 9933 RDF I XML og RDFS Costanza Navarretta Center for Sprogteknologi, Københavns.
OPI EFFEKTMÅLINGSVÆRKTØJ
DKABM som grundlag for en samlet og konsistent adgang til den arkivalske kulturarv ODA 13/
Distribueret programming, specielt Web Services Forskel på.Net og web Forsigtig med arkitektektur SOAP - Simple Object Access Protocol Rasmus D. Lehrmann1.
ALEPH og XML. eLib Seminar 18 – 19 november 2004 ALEPH og XML Status  Print system arbejder med XML lignende mellem filer.  Færdige printfiler kan gemmes.
XML Rasmus D. Lehrmann DM Indhold Hvad er XML? XML standarder Hvor bruges XML? XML struktur Træ struktur Element & Attribute Syntaks i XML Stylesheets.
XML og Skemaer Costanza Navarretta Center for Sprogteknologi, Københavns Universitet
Skolebestyrelses seminar 19/ Hvad vil vi med denne dag ? Sikre fælles kendskab og accept af vores udgangspunkt Nuværende situation og værdigrundlag.
MSBuild & Team Build i C#/C++ solutions VSTS ERFA d. 25 November.
Serviceorienteret arkitektur SOA. SOA bygger på Der findes en serviceleverandør, som udstiller en formåen til at udføre en veldefineret og afgrænset aktivitet,
Produkter, planer og visioner Nye produkter, planer og visioner for de kommende år v/ Ole Windeløv
Fundamentale datastrukturer
Objekter og klasser Rasmus D. Lehrmann DM
1 Fundamentale datastrukturer. 2 Definitioner: abstrakt datatype, datastruktur Elementære datastrukturer og abstrakte datatyper : arrays, stakke, køer,
DIEB4.1 Kursusgang 4 Oversigt: Sidste kursusgang Opgaver Aktivitet 2: Generer design (fortsat) Design af interaktionselementer.
ECDL2008 Anders Conrad. Vigtige/interessante emner Digital curation and workflows (Carol Goble): workflows as ”first class” assets, encapsulation of process,
Fremstilling af Simple WEB steder [ITPL] Foråret 2004
Anvendelse af produktmodeller i byggebranchen
ASP.NET – web site publish. ASP.NET – site-version.
Web services SOA, SOAP og WSDL. Disposition Inledning / Definition SOAP Standard SOAP Beskeder WSDL.
EndNote X7 Mandag, d. 13. april Workflow Mac Library mode – Online Search Mode – Intergrated Library & Online Search Windows Library mode – Online.
OIOREST workshop 22. april 2008 Finn Jordal Centeret for Serviceorienteret Infrastruktur IT- og Telestyrelsen.
Dagens gang Komponenter Projektetablering Opgave i komponenter til næste gang.
23. juni 2015 Det Semantiske Web Mads Carlsen. 23. juni 2015 Problemer med det nuværende Internet Ingen semantiske specifikationer. Søgning giver mange.
DOMS IT-stormøde 16 november 2009 Kåre Fiedler Christiansen.
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Standardiserede tilbudslister - og tilbudslister.dk
Oplæg til Elark seminar
Digital humaniora på KB
De nye it-konsulent- og projektaftaler
DIGHUMLAB Forskning i tema1 – Sproglige materialer
Præsentationens transcript:

Dias 1 Stormøde 7. okt DK-CLARIN WP5 Lene Offersgaard, Bart Jongejan WP5 Metadata, ressourcetyper, og værktøjer DK-CLARIN stormøde 7. okt. 2009

Dias 2 DK-CLARIN stormøde 7. okt Overblik Metadata -Vores definition af metadata -Udfordring: mange anvendelser -Metadata, typer af metadata -Status Ressourcetyper -Oversigt over ressourcetyper -Formater -Status Værktøjer -Eksterne og integrerede værktøjer -Integration af værktøjer: web-services -Eksempel og status Opsummering

Dias 3 DK-CLARIN stormøde 7. okt Metadata DK-CLARIN Metadata: • Beskrivende og administrative • Annoteringer er IKKE metadata Metadata har flere funktioner • beskrive ressourcen ved import • bruges i søgning • beskrive ressourcen ved eksport • beskrive relationer til andre ressourcer

Dias 4 DK-CLARIN stormøde 7. okt Metadata: udfordringer Forskellige ressourcer har mulighed for forskellige metadata Forskellige brugere er interesseret i forskellige metadata Gerne en så ensartet tilgang til ressourcer som muligt Opdele ressourcerne i forskellige typer Generelle metadata, heraf er nogle obligatoriske Typespecifikke metadata, heraf kan nogle være obligatoriske Brug af standarder (og de facto standarder) hvis muligt

Dias 5 DK-CLARIN stormøde 7. okt Generelle obligatoriske metadata Generelle metadata med udgangspunkt i Dublin Core-standarden Dublin Core Metadata Initiative (DCMI): Dublin Core Metadata Element Set – 15 kerneelementer Udvidelse med DCMI Metadata Terms Metadatahøstning vha. OAI-PMH-protokollen benytter også DC Generelle obligatoriske metadataelementer ved import : • Type • Title • Language • Format • Publisher • PublicationDate • Rights(license) • Context(accessRights) Repositoriet tilføjer desuden nogle metadata, bl.a. PID

Dias 6 DK-CLARIN stormøde 7. okt Optionelle generelle metadata Optionelle generelle metadataelementer, bl.a: • Creator(forfatter/værktøj) • Description • Source • HasVersion (relation) • ConformsTo(fx link til xml-schema) • InfoAbout (link til dokumentation) Kraftig anbefaling om at udfylde ‘Creator’ og ‘Description’ For visse ressourcetyper er de obligatoriske!

Dias 7 DK-CLARIN stormøde 7. okt Ressourcespecifikke metadata Hver ressourcetype kan have sine særlige metadata-elementer Som en del af WP5.2 har hver arbejdspakke selv ansvaret for at fastlægge disse metadata. Fx har WP2 valgt at definere metadata for tekster vha. et uddrag af Text Encoding Initiative Standarden TEI-P5 “Standard” i DK-CLARIN: TEI-P5-WP2 Specifikation af metadata i flere detaljer: Se også

Dias 8 DK-CLARIN stormøde 7. okt Metadata – status WP2 har opnået enighed om metadata for WP2-tekster i TEI-P5 format. Justering af værdier for metadatafelter i gang. WP4 har opnået enighed om metadata-elementer, metadata specificeres på ordbogsniveau. Primært genbrug af EU-CLARIN metadata- elementer vedr. Leksika. Metadata for værktøjer(WP5.2): Der skal foretages justeringer i nuværende specifikation for at komme tættere på EU-CLARIN (NEERI’09) EU-CLARIN promoverer ISOcat: Data Category Registry (ISO 12620) De fleste metadata-elementer i DK-CLARIN vil komme/er allerede i ISOcat. Vi overvejer om vi skal sætte de resterende ind. EU-CLARIN får mulighed for at høste DK-CLARIN’s metadata vha. OAI-PMH-protokollen

Dias 9 DK-CLARIN stormøde 7. okt Ressourcetyper Siden sidste stormøde har vi arbejdet med definition af DK-CLARINs ressourcetyper og –formater. Basisressourcer: Tekst, Lyd, Video, Billede, Leksikon, Data Annotationsressourcer: Tekstannotation, Lydannotationer, Videoannoteringer Samlinger: Homogene samlinger: fx tekstsamling Heterogene samlinger: fx en video og de annoteringsressourcer, der hører til denne video Se oversigt i afsnit 2.5 i kravsspecifikationen: clarin/files/Clarin%20kravspec% dochttp://cst.dk/dk- clarin/files/Clarin%20kravspec% doc

Dias 10 DK-CLARIN stormøde 7. okt Ressourceformater Tak til alle arbejdspakker for input til specifikationen af formater. Se detaljer i kravsspecifikationen kapitel 3. ‘Data’: Den eneste ressourcetype som ikke har tilknyttet format-krav TypeFormatkrav TekstTEI-P5-XML TEI-P2-WP2-XML Lyd.wav.mp3 Video.mov.avi i mpeg4-format BilledeTIFF JPEG2000 LeksikonXML rdf/owl csv Data TekstannoteringTEI-P5-XML XML XCES Lydannotering.TextGrid.cha Videoannotering.cha ELAN Anvil

Dias 11 DK-CLARIN stormøde 7. okt Ressourcetyper og –formater - status Specifikationen dækker de ressourcetyper og –formater der kommer i spil i DK-CLARIN’s projektperiode. Der skal være plads til alle ovennævnte formater. Et værktøj kan have begrænsninger mht. hvilke input/output formater der kan anvendes. Indhold i DK-CLARIN: Oversigt over ressourcer og værktøjer: clarin/?q=WP5.2_task5_indholdsoversigthttp:// clarin/?q=WP5.2_task5_indholdsoversigt • 12 web-services • 11 andre værktøjer(foreløbig) • Ca 25 ressourcer Vi vil gerne høre om ekstra ressourcer som kan lægges I DK-CLARIN Nogle har allerede svaret tilbage, tak for det!

Dias 12 DK-CLARIN stormøde 7. okt Værktøjer – eksterne og integrerede Eksterne værktøjer værktøjer som der kun registreres i DK-CLARIN med metadata kan ikke kaldes direkte fra infrastrukturen Integrerede værktøjer værktøjer der er integreret som web-services Web-services To mulige standarder for implementering: REST(+WADL) eller SOAP (+WSDL) REST vil med sikkerhed blive benyttet Ingen meldinger fra partnere om at SOAP er nødvendig, så om muligt vil vi derfor nøjes med REST-baserede web-services

Dias 13 DK-CLARIN stormøde 7. okt Integration af værktøjer – et eksempel Opgave: Lemmatisere en tekst vha. web-service WP2-baseformat anvendes Web-service Cst- lemmatizer Lemma- tisering tekst Tokeni sering POS- annote ring options

Dias 14 DK-CLARIN stormøde 7. okt Eksempel: input til web-service: 2 ressourcer Input 1: Ressource med tokens stormen har lagt sig Input 2: Annotation af ressourcen: ordklasser N_DEF_SING V_PRES V_PARTC_PAST PRON_PERS

Dias 15 DK-CLARIN stormøde 7. okt storm have lægge sig Output: lemmatisering Eksempel: lemmatisér ressource Flet ressource+annotation sammen: stormen/N_DEF_SING har/V_PRES lagt/V_PARTC_PAST sig/PRON_PERS Lav ny annotation: lemmatiser stormen:storm har:have lagt:lægge sig:sig Separer ny annotation fra ressource: storm have lægge sig

Dias 16 DK-CLARIN stormøde 7. okt Integration af værktøjer - status Prototypen på lemmatizeren som web-service kan ses i drift på WP5 arbejder videre med web-grænsefladespecifikation Dernæst skal de enkelte partnere specificere deres web-services. Planen er at WP5.2 inviterer til et møde om web- service-integration ultimo november. Derefter specificeres integrationen af de enkelte web- services af de enkelte partnere

Dias 17 Opsummering Der arbejdes videre på metadata-specifikationen for værktøjer parallelt med web-service-arbejdet. Feedback på metadata-specifikation ønskes i oktober. Information om eksisterende ressoucer eller værktøjer som ønskes integreret i DK-CLARIN modtages gerne, også fra eksterne partnere Ultimo 2009 justeres arbejdsplanen for WP5.2, herunder planer for prioritering af integration af eksisterende ressourcer og web-services, samt prioritering af ekstra værktøjer som kunne være nice-to-have. DK-CLARIN stormøde 7. okt. 2009