Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Dias 1 Center for Sprogteknologi, Københavns Universitet Workshop WP5 18. maj 2009 Resurser, værktøjer, typer og formater, oversigt over.

Lignende præsentationer


Præsentationer af emnet: "Dias 1 Center for Sprogteknologi, Københavns Universitet Workshop WP5 18. maj 2009 Resurser, værktøjer, typer og formater, oversigt over."— Præsentationens transcript:

1 Dias 1 Center for Sprogteknologi, Københavns Universitet leneo@hum.ku.dk Workshop WP5 18. maj 2009 Resurser, værktøjer, typer og formater, oversigt over arbejdspakkernes bidrag

2 Dias 2 Center for Sprogteknologi Intro Indholdsoversigt: http://www.cst.dk/dk-clarin/?q=WP5.2_task5_indholdsoversigt Opsummering 12 web-services 11 andre værktøjer(foreløbig) Ca 25 ressourcer Muligt mål: At DK-CLARIN’s WP’s ressourcer og værktøjer er “inde” At andre også kan aflevere ressourcer både nu og senere At der er en måde hvorpå nye værktøjer kan integreres At grænsefladen stadig er brugbar når der lægges nye ting ind.

3 Dias 3 Center for Sprogteknologi Krav til formater i DK-CLARIN (1) Nogle værktøjer kan håndtere flere formater. Nogle kan selv opdage hvilket format er anvendt. Men værktøjer har krav til fil-formater Fx. lemmatiser, speech-scanner, WP3.2’s søgeværktøj Nogle værktøjer har desuden krav til data-formater og forprocessering, Fx pos-tagger, lemmatiser : afhænger af hvordan ord er xml-opmærket, herunder tokenisering Fx. INSS’s søge- og annoteringsværktøj: bruger DUDS- format og der kan laves konvertere fra/til andre formater Visse formater giver derfor en vis funktionalitet!

4 Dias 4 Center for Sprogteknologi Krav til formater i DK-CLARIN (2) mv Formidlingsopgave til brugeren: hvis alt er tilladt(frit formatvalg i repositoriet) -> så er alt ikke fuldt “brugbart” hvis kun nogle formater er tilladt -> alt kan alligevel ikke lade sig gøre Formidling ang. Mulighed for fejl ved automatiske værktøjer Brugeren skal også informeres om fejlmuligheder. Også en udfordring hvis vi automatisk anvender værktøjer “bag om ryggen” på brugeren fx konverter eller annotering

5 Dias 5 Center for Sprogteknologi Hvordan får brugeren adgang til data… - Begrænsninger pga rettigheder gemmer vi til i morgen… Metadata ligger i metadata-registrant Hvor ligger data? I repository Eksternt, henvisning Kan de også skulle hentes hos dataejer “on the fly”?

6 Dias 6 Center for Sprogteknologi Vil vi tilbyde nogle integrerede søgefaciliteter i data? Tekstsøgning/Lemmasøgning direkte i repositorietekster? kun i fordefinerede korporaer? Gennem web-grænsefladen, fælles opslagsside eller “eksternt”? Søgning i audioannotering vha. WP3.1 og WP3.2 søgemaskiner Opslag i ordbøger: Gennem web-grænsefladen, fælles opslagsside eller “eksternt”? Direkte i repositorie-ressourcer der ligger i xml?

7 Dias 7 Center for Sprogteknologi Integrering af værktøjer: kun web-services? Web-services REST(+WADL) eller SOAP (+WSDL) Er der også mulighed for at vi integrerer kode direkte? Kunne være nemmere for konvertere, hvis vi vil tilbyde brugeren at konvertere data mellem forskellige formater

8 Dias 8 Center for Sprogteknologi Integration af værktøjer Web-service-brug 1.bruger vælger data fra repositorie 2.systemet generer data til web-service 3.systemet aktiverer web-service 4.systemet modtager “svar” 5.systemet fortolker “svaret” og præsenterer det for brugeren Brugergrænsefladen/præsentationen af resultatet: Laves det af værktøjsejer eller i samarbejde med værktøjsejer (iFrame) Nogle værktøjer har begrænsninger/optioner som gør det “indviklet” at bruge dem med alle facetter Kræver kommunikation til bruger

9 Dias 9 Center for Sprogteknologi Næste skridt ang. Tools/Web-services Rundspørge til leverandører Skabelon for at indhente oplysninger På denne baggrund beslutte her i gruppen om alt skal være web-services, kode integreres direkte eller måske “både og” Implementere 1-2 prototyper på web- services/værktøjsintegration til T21 Specifikation af integration afleveres af partnere T23 Beta implementation T28 som gammel plan

10 Dias 10 Center for Sprogteknologi Spørgeskema ang. Web-services Spørgsmål til web-service-leverandører: 1. Giv en kort beskrivelse af hvad din webservice leverer 2. Beskriv et brugsscenarie af din webservice 3. Er din webservice SOAP eller REST baseret (Eller evt. andre protokoller / formater) 4. Beskriv input til din webservice - Hvilke forskellige formater accepterer den - Hvilke forskellige funktionaliterer har samme webeservice. 5. Hvad er output fra din webservice - Er output i sig selv en ny DKClarin ressource. 6. Hvor lang tid går der fra man spørger webservicen til man får et svar (sekunder, minutter) > - Er der begrænsninger for hvor meget trafik der må være på webservicen. 7. Må alle tilgå webservices, eller er det KUN dkclarin brugere?

11 Dias 11 Center for Sprogteknologi Konvertering Forskel mellem formatkonverteringer og automatiske annoteringer. De første er fejlfrie skønt de kan give informationstab, De sidste er fejlbehæftede skønt de ikke giver informationstab. Det skal brugeren måske gøres opmærksom på. Opdager brugeren konverteringer, lemmatiseringer?

12 Dias 12 Center for Sprogteknologi Noter

13 Dias 13 Center for Sprogteknologi Metadata - status for spec-opgaverne Generelle metadata: opdateret forslag afventer sparring mellem KB og CST. WP2 har opnået enighed om metadata-struktur for WP2-tekster i TEI-P5 format. WP3.2 har lovet beskrivelse for deres metadata i næste uge. Denne forventes at kunne tilpasses audio og video for hele WP3 WP4 Lavt ambitionsniveau, ikke påbegyndt Hver arbejdspakke kan specificere nogle metadata som er obligatoriske WP5.2 specificerer for samlinger EU-CLARIN aktiviteter: vi forsøger at holde os orienteret

14 Dias 14 Center for Sprogteknologi Drift Aspekter til overvejelse: hw og operativsystem/basis-sw-vedligehold Vedligehold af 3. parts sw-pakker/moduler Vedligehold af egenudviklet sw Web-service-integration-vedligehold Nye web-services Grænseflade-vedligehold Nye data og nye formater for data

15 Dias 15 Opsummering


Download ppt "Dias 1 Center for Sprogteknologi, Københavns Universitet Workshop WP5 18. maj 2009 Resurser, værktøjer, typer og formater, oversigt over."

Lignende præsentationer


Annoncer fra Google