Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Semantisk opmærkning Bolette Sandford Pedersen Center for Sprogteknologi.

Lignende præsentationer


Præsentationer af emnet: "Semantisk opmærkning Bolette Sandford Pedersen Center for Sprogteknologi."— Præsentationens transcript:

1 Semantisk opmærkning Bolette Sandford Pedersen Center for Sprogteknologi

2 Indhold l semantisk opmærkning af tekstkorpus (opmærkningssprog: xml - projekt: Senseval ) l semantiske ordbøger beskrevet med opmærkningssprog (opmærkningssprog: sgml - projekt: SIMPLE ) l Eksempel på anvendelse af semantisk opmærkning i applikation: Indholdsbaseret søgning (projekt: OntoQuery )

3 Semantisk opmærkning af tekstkorpus: Senseval Formål: at opbygge semantisk opmærkede korpora på forskellige sprog: Gold Standards Hvorfor: for at muliggøre test af værktøjer til entydiggørelse af flertydige ord på de samme tekster Projektstatus: verdensomspændende ufinansieret projekt hvor man deltager på frivillig basis; der igangsættes løbende ’konkurrencer’

4 Senseval Initiativtagere: Scott Cotton, University of Pennsylvania Phil Edmonds, Sharp Laboratories of Europe Adam Kilgarriff, ITRI, University of Brighton Martha Palmer, University of Pennsylvania web-site: http://www.sle.sharp.co.uk/senseval2/

5 Fælles referenceramme: XML l Projekthjemmeside hvor alle krav er specificeret l Document type definition (dtd) tilgængelig på nettet l eksempler på de filer der skal genereres på hvert sprog l krav for deltagelse: producer disse filer i parset format for eget sprog og få dem oploadet på hjemmesiden inden deadline

6 Dansk deltagelse i Senseval l Center for Sprogteknologi l Institut for Datalingvistik, Handelshøjskolen i København Vi afsluttede opmærkningen i 2001 Data er (endnu) ikke blevet anvendt til entydiggørelse, men korpus er tilgengængeligt på http://cst.ku.dk/senseval/index.html Steder hvor der arbejdes med automatisk entydiggørelse: http://ilk.kub.nl/ (Tilburg) http://trec.nist.gov/pubs/trec10/t10_sysdes/insightsoft/in sight.html http://svenska.gu.se/%7Esvedk/software.html)

7 Dansk deltagelse i Senseval Det danske trænings- og evalueringsmateriale indbefatter betydningsopmærkede korpuseksempler for 100 flertydige ord på dansk, heraf l 50 substantiver, l 25 adjektiver l 25 verber. For hvert ord er der betydningsopmærket gennemsnitligt 150 eksempler - afhængigt af hvor flertydigt ordet er.

8 Beregningsfaktor l hvis et ord har n betydninger i en ’mellemstørrelsesordbog’ (Nudansk) så undersøg 100 + 15n korpuseksempler med dette ord (f.eks. 120 eksempler for et ord med 3 betydninger) l f.eks. røre : 8 betydninger i Nudansk Ordbog giver 100 + 120 = 220 korpuseksempler, underbetydninger og idiomatiske udtryk tælles med

9 Semantiske ordbøger beskrevet med opmærkningssprog l vi taler her om sprogteknologiske ordbøger som har computeren som primær bruger (men naturligvis mennesker som sekundære brugere) l skal udformes i et formelt sprog l opmærkningssprog som sgml og xml er velegnede hertil l fælles referenceramme for den semantiske ordbog: sgml

10 Om SIMPLE l SIMPLE-projektet var et EU-projekt som blev afsluttet i 2000 l Formål: at udarbejde harmoniserede semantiske ordbøger for 12 EU sprog (Semantic Information for Multifunctional, Plurilingual Lexica) l 10.000 betydninger for hvert sprog l på basis af en fælles ontologi, SIMPLE- ontologien (Lenci et al. 2001)

11 Hvorfor skal der være semantik i en sprogteknologisk ordbog ? Niveau 1: f.eks. maskinoversættelse kræver at maskinen kan entydiggøre ord som kan betyde flere ting: Kosten var velsmagende tiden går

12 Semantik Niveau 2: F.eks. avanceret informationssøgning kræver at maskinen i en vis forstand kan fortolke ord: S øgeudtryk: støtte til solvarme Finde tekster med: tilskud til energibesparende foranstaltning støtte og tilskud er synonymer solvarme er underbegreb til energibesparende foranstaltning

13 Semantik Niveau 3: ’Fuld’ maskinel fortolkning til programmer som skal ’forstå’ naturligt sprog: Hans dansede med sin borddame For at maskinen skal kunne ’identificere’ hvem der refereres til med ordet borddame - skal den vide at det er den kvinde han sad ved siden af under middagen.

14 Hvor står semantikken i almindelige ordbøger? NUDANSK ORDBOG: Puslespil ORDKLASSE: subst. BØJNING: puslespillet, plur. puslespil, puslespillene BETYDNING: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele EKSEMPEL: lægge puslespil på 2.000 brikker SAMMENSÆTNING: puslespilsbrik

15 puslespil som flerdimensionel type et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele overbegreb deleformåloprindelse spil træbrikkersamles til et hele udskære papbrikker puslespil

16 En ordbogsindgang med semantik Semantic Unitpuslespil Definition:et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele (NDO) Corpus example:nu var hun næsten ved at være færdig med det puslespil, hun var begyndt på lige efter påske Ontological type:Artifact Unification PathConcrete_Entity|Agentive|Telic Domain:General Formal quale:is_a = spil Agentive quale:created_by = udskære Telic quale:used_for = samle til et hele Constitutive quale:has_as_parts=træbrikker OR papbrikker

17 Eksempel på anvendelse af semantisk opmærkning i applikation l Indholdsbaseret søgning er en applikationstype hvor sprogteknologi har en funktion

18 Problemer ved informationssøgning - kort fortalt for mange informationer: l ord kan betyde flere ting; de er flertydige l ca. 23 % af alle ord der søges på er flertydige; l ca. 10% af alle navne der søges på er flertydige) Torkildsen, Holen og Johannessen 2000 for få informationer: l vi har flere ord for de samme begreber, synonymer og synonyme udtryk

19 Problemer ved informationssøgning l vi får for mange informationer som ikke er prioriteret godt nok og som derfor er vanskelige at holde rede på idet meget af det er irrelevant l vi får for få informationer i forhold til hvad der rent faktisk er tilgængeligt på nettet fordi vi ikke har ’ramt’ den rigtige formulering i forespørgslen begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden

20 Sproglig viden til informationssøgning sproglige problemer på basisniveau l vi har mere eller mindre den sproglige viden - også for dansk og i en formaliseret version - men den er ikke indarbejdet i alle søgesystemer sproglige problemer der kræver mere indholdsmæssig viden l de sproglige ressourcer skal udvikles problem: nye tekster - nyt indhold

21 Sproglige problemer på basisniveau l ordene kan antage flere former orlovsordninger, orlovsordningen, orlovsordningerne reduktion til grundformer (lemmatisering) kan afhjælpe dette problem l simpel flertydighed: ordene kan tilhøre forskellige ordklasser klager /N;U over /PRÆP; ADV læger /N;U syntaktisk tagger kan afhjælpe problemet efter tagging: klager /N over /PRÆP læger /N

22 Sproglige problemer der kræver mere indholdsmæssig viden flertydighed inden for samme ordklasse vitaminrig kost / fejekost - mad flere indholdsmæssige forhold kan afhjælpe flertydighedsproblemet: l domæneviden hvis vi kender domænet, kan vi vælge l viden om ordenes interne struktur hvis vi ved noget om kosts nærende funktioner, kan vi vælge l kost og sygdomme l klager /N;U over /PRÆP; ADV læger /N;U l syntaktisk tagger kan afhjælpe problemet l efter tagging: klager /N over /PRÆP læger /N l begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden l sproglige problemer på basisniveau l sproglige problemer der kræver indholdsmæssig viden

23 Sproglige problemer der kræver mere indholdsmæssig viden synonymi - flere betegnelser for det samme kan betyde at vi får for få søgeresultater forældreorlov - børnepasningsorlov støtte - tilskud / computer - datamat / diabetes - sukkersyge anvendelse af synonymiordbog kan afhjælpe problemet

24 Ontologisk viden l underbegreber kan være relevante vitaminer har_som_underbegreber k-vitamin, c-vitamin, d-vitamin, thiamin l overbegreber kan være relevante solvarme har_som_overbegreb energibevarende foranstaltning

25 Ontologisk viden er central ontologisk viden kan danne baggrund for en semantisk beregning sådan at søgeresultater prioriteres på basis af sprogligt indhold den semantiske afstand mellem søgeudtryk og søgeresultat beregnes f.eks. ud fra hvor mange ’niveauer’ man skal ned i en given ontologi for at finde resultatet: søgeudtryk: sygdom tekst1: sygdom tekst2: kræft tekst3: lungekræft

26 Forskningsområde: hvor vigtig er relationerne ml. ordene? Traditionelle søgemaskiner ser på nærhed ml. søgeordene men ikke på relationerne forespørgsel: hvilke sygdomme har at gøre med mangel på vitamin i kosten ? googlesvar: alkoholforbrug og mangel på fysisk aktivitet... hvordan kosten er sammensat kilde: Paggio, Pedersen & Haltrup (forthcoming)

27 SIMPLEs anvendelse i indholdsbaseret søgning OntoQuery: Ontology-based Querying Et dansk samarbejdsprojekt 1999-2004 Partnere: Roskilde Universitet Danmarks Tekniske Universitet Handelshøjskolen i København Syddansk Universitet Center for Sprogteknologi

28 Formålet med OntoQuery- projektet At udvikle en metode til indholdsbaseret søgning l at gå videre end mønstergenkendelse ved at lave en ‘rå’ lingvistisk analyse på baggrund af en ontologi l der produceres en ‘rå’ semantisk analyse af tekst og af forespørgsel l søgning foregår ved at sammenligne beskrivelser og finde det bedste ‘match’ mellem forespørgsel og tekst på basis af ontologien dels på begreberne alene, dels på relationerne mellem begreberne

29 SystemOverview Description Generator Text fragment Query Lexicons Ontology Linguistic Analysis Mapping to description Text database Query Engine OntoLog descriptions

30 Eksempel fra SIMPLE-ontologien kanin - 3 betydninger: 1. animal, 2. meat, 3. material kanin kød mad Substance Food Food Telic Top Concrete entity Entity Top

31 Ernæringsontologien l lavet på baggrund af Den Store Danske Encyklopædi l enkelte knuder er etableret for at strukturere ontologien,f.eks. stof-i-krop l ernæringsontologien er organiseret under 2 forskellige knuder i SIMPLE-ontologien

32 Eksempel fra ernæringsontologien A-vitamin fedtopløseligt vitamin vitamin mikronæringsstof næringsstof Natural Substance Substance Concrete entity Entity Top

33 Anvendelse af ontologien: analyse af tekst og forespørgsler Tekster og forespørgsler (NP’er) analyseres mangel på vitaminer i kosten  (mangel x (WRT: vitamin) x (LOC: diet))

34 Opmærkning af teksterne Der bygges begrebsrepræsentationer på basis af: l POS-tagging l NP-genkendelse l semantisk opnmærkning

35 Lingvistiske komponenter POS-Tagger NP recogniser NP parser Hvilke sygdomme har at gøre med mangel på vitaminer i kosten? hvilke/PRON sygdomme/N har/V_PRES at /UNIK gøre/V_INF med/PRÆP mangel/N på/PRÆP vitaminer/N i/PRÆP kosten/N ?/TEGN [NP hvilke sygdomme] har at gøre med [NP mangel på vitaminer i kosten]. P Sem:... NP N N PP CONCEPT mangel REL wrt REL loc ARG vitamin ARG kost Mapping to Descriptions (mangel x (WRT: vitamin) x (LOC: kost))

36 Test af 1. prototype

37

38

39 OntoQuerys hypotese: Hvis vi kan identificere den semantiske relation der holder mellem 2 begreber kan vi prioritere gode hits bedre og vi kan genkende det samme eller lignende begreber i forskellig forklædning, f.eks. overvægtige børn, børn med overvægt, fede børn børn med fedmeproblemer, børn der har fedmeproblemer


Download ppt "Semantisk opmærkning Bolette Sandford Pedersen Center for Sprogteknologi."

Lignende præsentationer


Annoncer fra Google