Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Bolette Sandford Pedersen Center for Sprogteknologi

Lignende præsentationer


Præsentationer af emnet: "Bolette Sandford Pedersen Center for Sprogteknologi"— Præsentationens transcript:

1 En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning
Bolette Sandford Pedersen Center for Sprogteknologi Rosendal 6. september 2002

2 Indhold 1. lektion Introduktion til SIMPLE SIMPLE-øvelse 2. lektion
Indholdsbaseret søgning (OntoQuery)

3 Hvorfor skal der være semantik i en sprogteknologisk ordbog ?
Niveau 1: f.eks. maskinoversættelse kræver at maskinen kan entydiggøre ord som kan betyde flere ting: Kosten var velsmagende tiden går

4 Semantik Niveau 2: F.eks. avanceret informationssøgning kræver at maskinen i en vis forstand kan fortolke ord: Søgeudtryk: støtte til solvarme Finde tekster med: tilskud til energibesparende foranstaltning støtte og tilskud er synonymer solvarme er underbegreb til energibesparende foranstaltning

5 Semantik Niveau 3: ’Fuld’ maskinel fortolkning til programmer som skal ’forstå’ naturligt sprog: Hans dansede med sin borddame For at maskinen skal kunne ’identificere’ hvem der refereres til med ordet borddame - skal den vide at det er den kvinde han sad ved siden af under middagen.

6 Hvor står semantikken i almindelige ordbøger?
NUDANSK ORDBOG: Puslespil ORDKLASSE: subst. BØJNING: puslespillet, plur. puslespil, puslespillene BETYDNING: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele EKSEMPEL: lægge puslespil på brikker SAMMENSÆTNING: puslespilsbrik

7 Om SIMPLE SIMPLE-projektet var et EU-projekt som blev afsluttet i 2000
Formål: at udarbejde harmoniserede semantiske ordbøger for 12 EU sprog (Semantic Information for Multifunctional, Plurilingual Lexica) betydninger for hvert sprog på basis af en fælles ontologi, SIMPLE-ontologien (Lenci et al. 2001)

8 SIMPLE-Ontologien SIMPLE-ontologien udgør det semantiske typesystem som er det begrebsmæssige udgangspunkt for alle de 12 ordbøger Qualia Structure (cf. Pustejovsky, 1995) WordNets klassifikation (cf. Miller and Fellbaum, 1991) EuroWordNets klassifikation (cf. Vossen et al, 1998) Levins verbalklassifikation (1993)

9 Ords interne kompleksitet
Grundlæggende antagelse i SIMPLE: ord varierer mht. intern kompleksitet. Dette kan forstås på to måder: hvor mange betydningsdimensioner associerer vi til et ord ? (en lækker kage, en blommekage, en nem kage) hvor mange betydninger har ordet ? universitet_1 (building), universitet_2 (human group)

10 Mange betydningsdimensioner kan udtrykkes vha. Qualia Structure
Qualia Structure udgør en repræsentationsmodel for den kompositionelle del af ords betydning idet den kan udtrykke forskellige kompleksitetsgrader i ord og danne basis for inferensregler (e.g. en nem kage => nem at tilberede/bage en lækker kage => lækker at spise)

11 De fire qualia-roller formal role: typisk ‘is_a’-relation
agentive role: oprindelse, typisk ‘created_by’-relation telic role: formål, typisk ‘used_for’-relation constitutive role: intern struktur, typisk ‘part_of’-relation

12 Simple typer basiskategorier som er monodimensionelle
som kan beskrives alene ved hjælp af en flad taksonomi organiseret alene ud fra hyponymirelationer eksempler: himmel, bakke, blomst, søster (typisk natural kinds, Cruse ‘93)

13 Flerdimensionelle typer
flerdimensionelle typer har mere end en overtype MEN unified types bygger på en simpel type og får tilføjet en agentiv eller telisk dimension (f.eks. cykel, læge, pandekage) ortogonal nedarvning beriger den traditionelle nedarvning ved hjælp af semantiske relationer (indarbejdet i Qualia Structure)

14 Komplekse typer i Pustejovsky 1995 anvendes såkaldte ‘complex types’ - komplekse typer - til at angive underspecificerede betydninger med systematisk polysemi (også kaldet dotted types eg. universitet som building.humangroup) i SIMPLE angives komplekse typer ved at tillade at to semantiske typer er forbundne via trækket complex

15 Systematisk polysemi klasser af systematisk polysemi:
beholder/kvantitet ‘kop’ dyr/mad ‘lam’ genstand/åbning ‘dør’ handling/resultat ‘bygning’ sted/folk ‘Danmark’

16 puslespil som flerdimensionel type
et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele overbegreb dele formål oprindelse spil træbrikker samles til et hele udskære papbrikker puslespil

17 En ordbogsindgang med semantik
Semantic Unit puslespil Definition: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele (NDO) Corpus example:nu var hun næsten ved at være færdig med det puslespil, hun var begyndt på lige efter påske Ontological type:Artifact Unification Path Concrete_Entity|Agentive|Telic Domain: General Formal quale: is_a = spil Agentive quale: created_by = udskære Telic quale: used_for = samle til et hele Constitutive quale:has_as_parts=træbrikker OR papbrikker

18 Semantisk verbalbeskrivelse i SIMPLE-modellen
De 59 semantiske verbalklasser i SIMPLE er et kompromis imellem: Beth Levins 234 verbalklasser Wordnets 15 klasser 3 kriterier er blevet anvendt: event type (tilstand, proces, transition) argumentstruktur (aritet og type) kausativitet vs. dekausativitet (bolden ruller/jeg ruller bolden)

19 Verbalontologien Phenomenon (regnvejr, influenza)
Aspectual (begynde, afslutte) State (udgøre, være) Event Act (handle, tale, løbe) Psychological Event (tænke, vide) Change (tiltage, dø) Cause Change (dræbe, flytte)

20 Semantisk repræsentation af ’gå’

21 Dilemmaer mht. verbernes kodnning
Problematiske konstruktionstyper i dansk: partikelverber (gå ud, vaske op, slå op, stå af (bussen)) ægte refleksive verber (undre sig, brokke sig, korse dig) inkorporering (gå til bageren, gå til klaver, spise fisk)

22 Problemer ved informationssøgning - kort fortalt
for mange informationer: ord kan betyde flere ting; de er flertydige ca. 23 % af alle ord der søges på er flertydige; ca. 10% af alle navne der søges på er flertydige) Torkildsen, Holen og Johannessen 2000 for få informationer: vi har flere ord for de samme begreber, synonymer og synonyme udtryk

23 Problemer ved informationssøgning
vi får for mange informationer som ikke er prioriteret godt nok og som derfor er vanskelige at holde rede på idet meget af det er irrelevant vi får for få informationer i forhold til hvad der rent faktisk er tilgængeligt på nettet fordi vi ikke har ’ramt’ den rigtige formulering i forespørgslen begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden

24 Sproglig viden til informationssøgning
sproglige problemer på basisniveau vi har mere eller mindre den sproglige viden - også for dansk og i en formaliseret version - men den er ikke indarbejdet i alle søgesystemer sproglige problemer der kræver mere indholdsmæssig viden de sproglige ressourcer skal udvikles problem: nye tekster - nyt indhold

25 Sproglige problemer på basisniveau
ordene kan antage flere former orlovsordninger, orlovsordningen, orlovsordningerne reduktion til grundformer (lemmatisering) kan afhjælpe dette problem simpel flertydighed: ordene kan tilhøre forskellige ordklasser klager/N;U over/PRÆP; ADV læger/N;U syntaktisk tagger kan afhjælpe problemet efter tagging: klager/N over/PRÆP læger/N

26 Sproglige problemer der kræver mere indholdsmæssig viden
flertydighed inden for samme ordklasse vitaminrig kost/ fejekost - mad flere indholdsmæssige forhold kan afhjælpe flertydighedsproblemet: domæneviden hvis vi kender domænet, kan vi vælge viden om ordenes interne struktur hvis vi ved noget om kosts nærende funktioner, kan vi vælge kost og sygdomme klager/N;U over/PRÆP; ADV læger/N;U syntaktisk tagger kan afhjælpe problemet efter tagging: klager/N over/PRÆP læger/N begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden sproglige problemer på basisniveau sproglige problemer der kræver indholdsmæssig viden

27 Sproglige problemer der kræver mere indholdsmæssig viden
synonymi - flere betegnelser for det samme kan betyde at vi får for få søgeresultater forældreorlov - børnepasningsorlov støtte - tilskud / computer - datamat / diabetes - sukkersyge anvendelse af synonymiordbog kan afhjælpe problemet

28 Ontologisk viden underbegreber kan være relevante
vitaminer har_som_underbegreber k-vitamin, c-vitamin, d-vitamin, thiamin overbegreber kan være relevante solvarme har_som_overbegreb energibevarende foranstaltning

29 Ontologisk viden er central
ontologisk viden kan danne baggrund for en semantisk beregning sådan at søgeresultater prioriteres på basis af sprogligt indhold den semantiske afstand mellem søgeudtryk og søgeresultat beregnes f.eks. ud fra hvor mange ’niveauer’ man skal ned i en given ontologi for at finde resultatet: søgeudtryk: sygdom tekst1: sygdom tekst2: kræft tekst3: lungekræft

30 Forskningsområde: hvor vigtig er relationerne ml. ordene?
Traditionelle søgemaskiner ser på nærhed ml. søgeordene men ikke på relationerne forespørgsel: hvilke sygdomme har at gøre med mangel på vitamin i kosten ? googlesvar: alkoholforbrug og mangel på fysisk aktivitet ... hvordan kosten er sammensat kilde: Paggio, Pedersen & Haltrup (forthcoming)

31 SIMPLEs anvendelse i indholdsbaseret søgning
OntoQuery: Ontology-based Querying Et dansk samarbejdsprojekt Partnere: Roskilde Universitet Danmarks Tekniske Universitet Handelshøjskolen i København Syddansk Universitet Center for Sprogteknologi

32 Formålet med OntoQuery- projektet
At udvikle en metode til indholdsbaseret søgning at gå videre end mønstergenkendelse ved at lave en ‘rå’ lingvistisk analyse på baggrund af en ontologi der produceres en ‘rå’ semantisk analyse af tekst og af forespørgsel søgning foregår ved at sammenligne beskrivelser of finde det bedste ‘match’ mellem forespørgsel og tekst på basis af ontologien dels på begreberne alene, dels på relationerne mellem begreberne

33 SystemOverview Query Description Generator Lexicons
Text fragment Query Description Generator Lexicons Ontology Linguistic Analysis Mapping to description Text database OntoLog descriptions Query Engine

34 Eksempel fra SIMPLE-ontologien
kanin betydninger: 1. animal, 2. meat, 3. material kanin kød mad Substance Food Food Telic Top Concrete entity Entity

35 Ernæringsontologien lavet på baggrund af Den Store Danske Encyklopædi
enkelte knuder er etableret for at strukturere ontologien,f.eks. stof-i-krop ernæringsontologien er organiseret under 2 forskellige knuder i SIMPLE-ontologien

36 Eksempel fra ernæringsontologien
A-vitamin fedtopløseligt vitamin vitamin mikronæringsstof næringsstof Natural Substance Substance Concrete entity Entity Top

37 Anvendelse af ontologien: analyse af tekst og forespørgsler
Tekster og forespørgsler (NP’er) analyseres mangel på vitaminer i kosten (mangel x (WRT: vitamin) x (LOC: diet))

38 De lingvistiske analysekomponenter
Der bygges begrebsrepræsentationer på basis af: POS-tagging NP-genkendelse semantisk parsing

39 Lingvistiske komponenter
Hvilke sygdomme har at gøre med mangel på vitaminer i kosten? POS-Tagger hvilke/PRON sygdomme/N har/V_PRES at /UNIK gøre/V_INF med/PRÆP mangel/N på/PRÆP vitaminer/N i/PRÆP kosten/N ?/TEGN NP recogniser [NP hvilke sygdomme] har at gøre med [NP mangel på vitaminer i kosten]. NP parser ... NP Sem: CONCEPT mangel REL wrt REL loc ARG vitamin ARG kost N PP Qui vedete come le varie componenti manipolino il testo, in questo caso l’interrogazione di cui ho parlato all’inizio della presentazione, “quali malattie sono legate a carenza di vitamine nell’alimentazione”. Il tagger assegna la categoria sintattica. Il riconoscitore di NP sulla base delle tags sintattiche identifica le frasi nominali. A questo punto, il sistema attuale estrae semplicemente i concetti presenti negli NP, ma il parser dovrà in futuro calcolare le relazioni semantiche tra i vari concetti. L’output del parser è una cosiddetta feature structure, che corrisponde alla descrizione su cui lavora il matching. P NP Mapping to Descriptions N PP (mangel x (WRT: vitamin) x (LOC: kost))

40 Test af 1. prototype

41 Test af 1. prototype

42 Test af 1. prototype

43 OntoQuerys hypotese: Hvis vi kan identificere den semantiske relation der holder mellem 2 begreber kan vi prioritere gode hits bedre og vi kan genkende det samme eller lignende begreber i forskellig forklædning, f.eks. overvægtige børn, børn med overvægt, fede børn børn med fedmeproblemer, børn der har fedmeproblemer

44 Videre brug af SIMPLE til beregning af relationer
en temporær relation TMP tager ofte SIMPLE-typen TIME (og så fremdeles): behandling udover 6 måneder børn i 1-2-årsalderen mangelfuld ernæring gennem længere tid

45 Videre brug af SIMPLE til beregning af relationer
Anvendelse af selektionsrestriktioner behandling af børn med overvægt ønsket beskrivelse: (behandling x (PTN:(børn) x (CHR: overvægt))) uønsket beskrivelse (behandling x (PTN:(børn)) x (BMO: overvægt))

46 Anvendelse af Qualia Structure
depoter af vitaminer (depots of vitamins) ønsket beskrivelse: (depot x (CON: vitaminer)) telisk role for depot er at det kan indeholde noget

47 Entydiggørelse: Qualia Structure
kanin_SUBSTANCE_FOOD formal kød (meat) telic føde (food) agentive tilberedning (cooking)

48 Agentive role i ‘mad’-læsning
Luk maven med kødnåle og steg <kaninen> i ovnen ca. 11/2 time 2 timer Bag <kaninen> i ovnen og hæld lagen over kødet med jævne mellemrum Hak indmaden af <kaninen> og bland det med det hakkede kalvekød


Download ppt "Bolette Sandford Pedersen Center for Sprogteknologi"

Lignende præsentationer


Annoncer fra Google