Semantisk opmærkning Bolette Sandford Pedersen Center for Sprogteknologi.

Slides:



Advertisements
Lignende præsentationer
Verber/Sagnir Hvordan bøjes de?.
Advertisements

Hvad handler tekster om? Eksempler på brugen af automatisk klassifikation og tagging i online nyhedsmedier. Rune Stilling RDFined.
Processuelle netværksmøder – et psykologisk perspektiv på samarbejde i praksis Af Rikke Kann, cand. psych. Speciale ved Institut for Psykologi, Københavns.
Web 2.0 Teoretisk viden.
Afklaring Ekspertpanelet peger på begrebet "Semantisk interoperabilitet" som et møde mellem den strukturede verden og den kaotiske verden, på en måde så.
Pronominer/Stedord (Fornöfn).
WP 5.2 Kortlægning af eksisterende resurcer/collections
Semiotik, Lingvistik og sprogbrug
Hvordan får jeg lagt First Class programmet ind på min egen computer ??? De følgende sider er en lille anvisning på, hvordan du selv kan installere programmet.
Danske Forsamlingshuse
Min hobby Fornuftig og relevant tekst af emnet:
ORDKLASSER I FARVER 2009.
The Sims2 Double Deluxe + Sims 2 Pets
Faglig læsning 2.
Avanceret Informationssøgning It-biblioteket, marts 2007 Underviser: Marie U.
Dias 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet WP 5.2 Kortlægning af eksisterende resurcer/collections.
Samarbejde bibliotek og uddannelse – et bud på hvordan
Værktøjer Tokeniser POS-tagger Navnegenkender Lemmatiser NP-genkender.
Ph.d.-projekt, Sanni Nimb
Dansk med it © Duncker & Ruus DIT-systemet Dansk med it Generel præsentation for studerende Dorthe Duncker og Hanne Ruus Institut for Nordiske Studier.
Co-funded by the 7th Framework Programme of the European Commission through the contract T4ME, grant agreement no.: Præsentation af METASHARE –
Dansk med it Duncker & Ruus © DIT-systemet Generel introduktion DIT-systemet Udvikling og testning Dorthe Duncker og Hanne Ruus Institut for.
Den gode, den onde og den grusomme - om digital selvbetjening SnitkerGroup 6. September 2011 af Usability Specialist Thomas Visby Snitker.
NP struktur - Eller hvordan engelsk er nominelt, mens dansk er verbalt.
Koordinatsystemet Y-aksen 2. aksen X-aksen 1. aksen.
Sproglige billeder, billedskemaer og metaforer
ER-diagrammer (databaser, del 4)
Velkommen til dag 2 på AUs vejlederuddannelse!
Fra Internet til semantisk web via taksonomier AF:Hosein Askari ITST.
Giv medarbejderne adgang til centrale systemer – lige ind i Office Inspirationsseminar 31. oktober 2006.
Søgning - et værktøj til videndeling Inspirationsseminar 31. oktober 2006.
Avanceret søgning i Google
Introduktion til Access (Access, del 1)
Rapporter (Access, del 5)
Sensus Tilgængelighed i PDF-filer - Adobe Professional Helene Nørgaard Bech Sensus ApS.
Bolette Sandford Pedersen Center for Sprogteknologi
Samarbejde eksternt/Netværk Et inspirationsværktøj Det er ikke, hvad du ved, men hvem du kender, der tæller!
Kvalitet i almindelighed og i relation til softwareudvikling.
Vejledning i testfunktionen på Absalon Testfunktionen er et værktøj som kan bruges til eksamen, status af de studerendes standspunkt eller som de studerende.
Ordnet og tesaurusser Patrizia Paggio Center for Sprogteknologi Københavns Universitet
Det semantiske web og XML Costanza Navarretta Center for Sprogteknologi, Københavns Universitet
25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.
Vidensamfundet (netværkssamfundet) ”Jeg kan jo ikke vide alt. Som topleder i en stor virksomhed er jeg nødt til at træffe beslutninger på baggrund af den.
Tema 6 Samvær og fælles aktiviteter
Skoleparathed Sunds skole.
Det semantiske web Costanza Navarretta Center for Sprogteknologi, Københavns Universitet
FOVITS: Informationshåndtering på nettet - sprogteknologiske løsninger 9933 RDF I XML og RDFS Costanza Navarretta Center for Sprogteknologi, Københavns.
XML Rasmus D. Lehrmann DM Indhold Hvad er XML? XML standarder Hvor bruges XML? XML struktur Træ struktur Element & Attribute Syntaks i XML Stylesheets.
XML og Skemaer Costanza Navarretta Center for Sprogteknologi, Københavns Universitet
Elever med særlige behov Lidt om allerede installerede hjælpe programmer i windows vista.
WordNet Elektronisk leksikalsk database Semantisk ordbog Ca
Rapporter (Access, del 5). RHS – Informationsteknologi – Udgangspunkt Vi har oprettet en database Vi har defineret en eller flere tabeller, og.
Læsning.
Introduktion til Access (Access, del 1). RHS – Informationsteknologi – Fra design til udvikling Vi ved nu, hvordan vi finder et design for en database,
IT i Byggeriet Semester kursusgang Introduktion til projektweb og html Kjeld Svidt Kjeld Svidt  Institut for Bygningsteknik.
Hospitalsinformationssystemer MM5 Hvad er HIS? Hvad driver udviklingen af HIS/PAS? Avancerede kliniske informationssystemer –Konteksten –Teknikken Fremtiden.
Usability ITU, efterår Informations arkitektur ITU Efterår 2007.
Kjeld Svidt  Institut for Byggeri og Anlæg  Aalborg Universitet IT i Byggeriet Semester kursusgang Introduktion til projektweb og html Kjeld.
23. juni 2015 Det Semantiske Web Mads Carlsen. 23. juni 2015 Problemer med det nuværende Internet Ingen semantiske specifikationer. Søgning giver mange.
Videregående pc-vejledning
Formularer (Access, del 3). RHS – Informationsteknologi – Udgangspunkt Vi har oprettet en database Vi har defineret en eller flere tabeller Vi.
Men – der er ingen data for 4-oxo-pentansyre
Tre lags arkitektur.
Top 5 GPS værktøjer til børn Sikkerhed
Dokumentation.
DIGHUMLAB Forskning i tema1 – Sproglige materialer
Modul 07, Elektronisk post
Men – der er ingen data for 4-oxo-pentansyre
Barnesyn og børneperspektiv
Præsentationens transcript:

Semantisk opmærkning Bolette Sandford Pedersen Center for Sprogteknologi

Indhold l semantisk opmærkning af tekstkorpus (opmærkningssprog: xml - projekt: Senseval ) l semantiske ordbøger beskrevet med opmærkningssprog (opmærkningssprog: sgml - projekt: SIMPLE ) l Eksempel på anvendelse af semantisk opmærkning i applikation: Indholdsbaseret søgning (projekt: OntoQuery )

Semantisk opmærkning af tekstkorpus: Senseval Formål: at opbygge semantisk opmærkede korpora på forskellige sprog: Gold Standards Hvorfor: for at muliggøre test af værktøjer til entydiggørelse af flertydige ord på de samme tekster Projektstatus: verdensomspændende ufinansieret projekt hvor man deltager på frivillig basis; der igangsættes løbende ’konkurrencer’

Senseval Initiativtagere: Scott Cotton, University of Pennsylvania Phil Edmonds, Sharp Laboratories of Europe Adam Kilgarriff, ITRI, University of Brighton Martha Palmer, University of Pennsylvania web-site:

Fælles referenceramme: XML l Projekthjemmeside hvor alle krav er specificeret l Document type definition (dtd) tilgængelig på nettet l eksempler på de filer der skal genereres på hvert sprog l krav for deltagelse: producer disse filer i parset format for eget sprog og få dem oploadet på hjemmesiden inden deadline

Dansk deltagelse i Senseval l Center for Sprogteknologi l Institut for Datalingvistik, Handelshøjskolen i København Vi afsluttede opmærkningen i 2001 Data er (endnu) ikke blevet anvendt til entydiggørelse, men korpus er tilgengængeligt på Steder hvor der arbejdes med automatisk entydiggørelse: (Tilburg) sight.html

Dansk deltagelse i Senseval Det danske trænings- og evalueringsmateriale indbefatter betydningsopmærkede korpuseksempler for 100 flertydige ord på dansk, heraf l 50 substantiver, l 25 adjektiver l 25 verber. For hvert ord er der betydningsopmærket gennemsnitligt 150 eksempler - afhængigt af hvor flertydigt ordet er.

Beregningsfaktor l hvis et ord har n betydninger i en ’mellemstørrelsesordbog’ (Nudansk) så undersøg n korpuseksempler med dette ord (f.eks. 120 eksempler for et ord med 3 betydninger) l f.eks. røre : 8 betydninger i Nudansk Ordbog giver = 220 korpuseksempler, underbetydninger og idiomatiske udtryk tælles med

Semantiske ordbøger beskrevet med opmærkningssprog l vi taler her om sprogteknologiske ordbøger som har computeren som primær bruger (men naturligvis mennesker som sekundære brugere) l skal udformes i et formelt sprog l opmærkningssprog som sgml og xml er velegnede hertil l fælles referenceramme for den semantiske ordbog: sgml

Om SIMPLE l SIMPLE-projektet var et EU-projekt som blev afsluttet i 2000 l Formål: at udarbejde harmoniserede semantiske ordbøger for 12 EU sprog (Semantic Information for Multifunctional, Plurilingual Lexica) l betydninger for hvert sprog l på basis af en fælles ontologi, SIMPLE- ontologien (Lenci et al. 2001)

Hvorfor skal der være semantik i en sprogteknologisk ordbog ? Niveau 1: f.eks. maskinoversættelse kræver at maskinen kan entydiggøre ord som kan betyde flere ting: Kosten var velsmagende tiden går

Semantik Niveau 2: F.eks. avanceret informationssøgning kræver at maskinen i en vis forstand kan fortolke ord: S øgeudtryk: støtte til solvarme Finde tekster med: tilskud til energibesparende foranstaltning støtte og tilskud er synonymer solvarme er underbegreb til energibesparende foranstaltning

Semantik Niveau 3: ’Fuld’ maskinel fortolkning til programmer som skal ’forstå’ naturligt sprog: Hans dansede med sin borddame For at maskinen skal kunne ’identificere’ hvem der refereres til med ordet borddame - skal den vide at det er den kvinde han sad ved siden af under middagen.

Hvor står semantikken i almindelige ordbøger? NUDANSK ORDBOG: Puslespil ORDKLASSE: subst. BØJNING: puslespillet, plur. puslespil, puslespillene BETYDNING: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele EKSEMPEL: lægge puslespil på brikker SAMMENSÆTNING: puslespilsbrik

puslespil som flerdimensionel type et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele overbegreb deleformåloprindelse spil træbrikkersamles til et hele udskære papbrikker puslespil

En ordbogsindgang med semantik Semantic Unitpuslespil Definition:et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele (NDO) Corpus example:nu var hun næsten ved at være færdig med det puslespil, hun var begyndt på lige efter påske Ontological type:Artifact Unification PathConcrete_Entity|Agentive|Telic Domain:General Formal quale:is_a = spil Agentive quale:created_by = udskære Telic quale:used_for = samle til et hele Constitutive quale:has_as_parts=træbrikker OR papbrikker

Eksempel på anvendelse af semantisk opmærkning i applikation l Indholdsbaseret søgning er en applikationstype hvor sprogteknologi har en funktion

Problemer ved informationssøgning - kort fortalt for mange informationer: l ord kan betyde flere ting; de er flertydige l ca. 23 % af alle ord der søges på er flertydige; l ca. 10% af alle navne der søges på er flertydige) Torkildsen, Holen og Johannessen 2000 for få informationer: l vi har flere ord for de samme begreber, synonymer og synonyme udtryk

Problemer ved informationssøgning l vi får for mange informationer som ikke er prioriteret godt nok og som derfor er vanskelige at holde rede på idet meget af det er irrelevant l vi får for få informationer i forhold til hvad der rent faktisk er tilgængeligt på nettet fordi vi ikke har ’ramt’ den rigtige formulering i forespørgslen begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden

Sproglig viden til informationssøgning sproglige problemer på basisniveau l vi har mere eller mindre den sproglige viden - også for dansk og i en formaliseret version - men den er ikke indarbejdet i alle søgesystemer sproglige problemer der kræver mere indholdsmæssig viden l de sproglige ressourcer skal udvikles problem: nye tekster - nyt indhold

Sproglige problemer på basisniveau l ordene kan antage flere former orlovsordninger, orlovsordningen, orlovsordningerne reduktion til grundformer (lemmatisering) kan afhjælpe dette problem l simpel flertydighed: ordene kan tilhøre forskellige ordklasser klager /N;U over /PRÆP; ADV læger /N;U syntaktisk tagger kan afhjælpe problemet efter tagging: klager /N over /PRÆP læger /N

Sproglige problemer der kræver mere indholdsmæssig viden flertydighed inden for samme ordklasse vitaminrig kost / fejekost - mad flere indholdsmæssige forhold kan afhjælpe flertydighedsproblemet: l domæneviden hvis vi kender domænet, kan vi vælge l viden om ordenes interne struktur hvis vi ved noget om kosts nærende funktioner, kan vi vælge l kost og sygdomme l klager /N;U over /PRÆP; ADV læger /N;U l syntaktisk tagger kan afhjælpe problemet l efter tagging: klager /N over /PRÆP læger /N l begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden l sproglige problemer på basisniveau l sproglige problemer der kræver indholdsmæssig viden

Sproglige problemer der kræver mere indholdsmæssig viden synonymi - flere betegnelser for det samme kan betyde at vi får for få søgeresultater forældreorlov - børnepasningsorlov støtte - tilskud / computer - datamat / diabetes - sukkersyge anvendelse af synonymiordbog kan afhjælpe problemet

Ontologisk viden l underbegreber kan være relevante vitaminer har_som_underbegreber k-vitamin, c-vitamin, d-vitamin, thiamin l overbegreber kan være relevante solvarme har_som_overbegreb energibevarende foranstaltning

Ontologisk viden er central ontologisk viden kan danne baggrund for en semantisk beregning sådan at søgeresultater prioriteres på basis af sprogligt indhold den semantiske afstand mellem søgeudtryk og søgeresultat beregnes f.eks. ud fra hvor mange ’niveauer’ man skal ned i en given ontologi for at finde resultatet: søgeudtryk: sygdom tekst1: sygdom tekst2: kræft tekst3: lungekræft

Forskningsområde: hvor vigtig er relationerne ml. ordene? Traditionelle søgemaskiner ser på nærhed ml. søgeordene men ikke på relationerne forespørgsel: hvilke sygdomme har at gøre med mangel på vitamin i kosten ? googlesvar: alkoholforbrug og mangel på fysisk aktivitet... hvordan kosten er sammensat kilde: Paggio, Pedersen & Haltrup (forthcoming)

SIMPLEs anvendelse i indholdsbaseret søgning OntoQuery: Ontology-based Querying Et dansk samarbejdsprojekt Partnere: Roskilde Universitet Danmarks Tekniske Universitet Handelshøjskolen i København Syddansk Universitet Center for Sprogteknologi

Formålet med OntoQuery- projektet At udvikle en metode til indholdsbaseret søgning l at gå videre end mønstergenkendelse ved at lave en ‘rå’ lingvistisk analyse på baggrund af en ontologi l der produceres en ‘rå’ semantisk analyse af tekst og af forespørgsel l søgning foregår ved at sammenligne beskrivelser og finde det bedste ‘match’ mellem forespørgsel og tekst på basis af ontologien dels på begreberne alene, dels på relationerne mellem begreberne

SystemOverview Description Generator Text fragment Query Lexicons Ontology Linguistic Analysis Mapping to description Text database Query Engine OntoLog descriptions

Eksempel fra SIMPLE-ontologien kanin - 3 betydninger: 1. animal, 2. meat, 3. material kanin kød mad Substance Food Food Telic Top Concrete entity Entity Top

Ernæringsontologien l lavet på baggrund af Den Store Danske Encyklopædi l enkelte knuder er etableret for at strukturere ontologien,f.eks. stof-i-krop l ernæringsontologien er organiseret under 2 forskellige knuder i SIMPLE-ontologien

Eksempel fra ernæringsontologien A-vitamin fedtopløseligt vitamin vitamin mikronæringsstof næringsstof Natural Substance Substance Concrete entity Entity Top

Anvendelse af ontologien: analyse af tekst og forespørgsler Tekster og forespørgsler (NP’er) analyseres mangel på vitaminer i kosten  (mangel x (WRT: vitamin) x (LOC: diet))

Opmærkning af teksterne Der bygges begrebsrepræsentationer på basis af: l POS-tagging l NP-genkendelse l semantisk opnmærkning

Lingvistiske komponenter POS-Tagger NP recogniser NP parser Hvilke sygdomme har at gøre med mangel på vitaminer i kosten? hvilke/PRON sygdomme/N har/V_PRES at /UNIK gøre/V_INF med/PRÆP mangel/N på/PRÆP vitaminer/N i/PRÆP kosten/N ?/TEGN [NP hvilke sygdomme] har at gøre med [NP mangel på vitaminer i kosten]. P Sem:... NP N N PP CONCEPT mangel REL wrt REL loc ARG vitamin ARG kost Mapping to Descriptions (mangel x (WRT: vitamin) x (LOC: kost))

Test af 1. prototype

OntoQuerys hypotese: Hvis vi kan identificere den semantiske relation der holder mellem 2 begreber kan vi prioritere gode hits bedre og vi kan genkende det samme eller lignende begreber i forskellig forklædning, f.eks. overvægtige børn, børn med overvægt, fede børn børn med fedmeproblemer, børn der har fedmeproblemer