Bolette Sandford Pedersen Center for Sprogteknologi

Slides:



Advertisements
Lignende præsentationer
Hjerterum og opsøgende funktion
Advertisements

SMUT PAKKE 3 VIDEN OM KOST.
Verber/Sagnir Hvordan bøjes de?.
Hvad handler tekster om? Eksempler på brugen af automatisk klassifikation og tagging i online nyhedsmedier. Rune Stilling RDFined.
Readymades / genbrugskunst
Web 2.0 Teoretisk viden.
Afklaring Ekspertpanelet peger på begrebet "Semantisk interoperabilitet" som et møde mellem den strukturede verden og den kaotiske verden, på en måde så.
Faglig læsning 7. – 9. kl. Work-shops.
Semiotik, Lingvistik og sprogbrug
IT i Byggeriet Semester kursusgang Introduktion til projektweb og html Kjeld Svidt Kjeld Svidt  Institut for Bygningsteknik  Aalborg.
Grammatik hvorfor og hvordan?
Min hobby Fornuftig og relevant tekst af emnet:
ORDKLASSER I FARVER 2009.
The Sims2 Double Deluxe + Sims 2 Pets
Faglig læsning 2.
Samarbejde bibliotek og uddannelse – et bud på hvordan
Værktøjer Tokeniser POS-tagger Navnegenkender Lemmatiser NP-genkender.
Kondenceret konceptudvikling DDK ITU F2007 John Paulin Hansen.
Ph.d.-projekt, Sanni Nimb
Zellervidenskabsteori 4. sem. F 05, Wittgenstein 1 tankeeksperiment 1. Eksperiment: Forestil dig følgende situation: du vil sige til et andet menneske.
mine observationer Filmanalyse af OK Gloser til filmen
NP struktur - Eller hvordan engelsk er nominelt, mens dansk er verbalt.
SÆTNINGSANALYSE.
Koordinatsystemet Y-aksen 2. aksen X-aksen 1. aksen.
Sproglige billeder, billedskemaer og metaforer
©Jenny Bohr – Til underviserne Voksne med ADHD har ofte mange negative erfaringer med sig. Mange har fået megen skæld ud som børn, og de.
Sundhed og livsstil Tema i psykoedukation til unge i OPUS behandling
ER-diagrammer (databaser, del 4)
Program Opfriske de centrale værktøjer i Den motiverende samtale
Fra Internet til semantisk web via taksonomier AF:Hosein Askari ITST.
Afdelingsleder Morten Freil
Avanceret søgning i Google
Introduktion til Access (Access, del 1)
Sensus Tilgængelighed i PDF-filer - Adobe Professional Helene Nørgaard Bech Sensus ApS.
Valhalla, integreret daginstitution Nyborg
Ordnet og tesaurusser Patrizia Paggio Center for Sprogteknologi Københavns Universitet
Sunde børn i Danmark Viden om kost og krop
Ordklasser.
25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.
Vidensamfundet (netværkssamfundet) ”Jeg kan jo ikke vide alt. Som topleder i en stor virksomhed er jeg nødt til at træffe beslutninger på baggrund af den.
Det Folkelige Forum Brugerundersøgelse. Hvem er jeg? Studerende på Syddansk Universitet i Odense Studentermedhjælper i Horsens Sund By fra september 2009.
Tema 6 Samvær og fælles aktiviteter
Det semantiske web Costanza Navarretta Center for Sprogteknologi, Københavns Universitet
brugerinddragelse i Danmark
Jo mere man læser, jo tidligere bliver man en hurtig og sikker læser.
ER-diagrammer Hvad er det? Og hvad bruges det til?
WordNet Elektronisk leksikalsk database Semantisk ordbog Ca
Semantic Similarity in a Taxonomy -Hvordan man måler semantisk lighed vha. taksonomi.
Læsning.
Introduktion til Access (Access, del 1). RHS – Informationsteknologi – Fra design til udvikling Vi ved nu, hvordan vi finder et design for en database,
DIEB4.1 Kursusgang 4 Oversigt: Sidste kursusgang Opgaver Aktivitet 2: Generer design (fortsat) Design af interaktionselementer.
Organisering og navigation Ole Gregersen 22. Februar 2006 Usability.
Tekstens byggeklodser
Kjeld Svidt  Institut for Byggeri og Anlæg  Aalborg Universitet IT i Byggeriet Semester kursusgang Introduktion til projektweb og html Kjeld.
Semantisk opmærkning Bolette Sandford Pedersen Center for Sprogteknologi.
Technology as material in design Johan Redström 2005, Design Philosophy Collection Two.
DAIMIIntroducerende objektorienteret programmering4B.1 Typer og tilstand i Java Typer, tilstand, erklæring, variable, primitive datatyper, reference- og.
DAIMIIntroducerende objektorienteret programmering4B.1 Grundlæggende og Reference Typer i Java Typer, tilstand, erklæring, reference- og værdi semantik,
23. juni 2015 Det Semantiske Web Mads Carlsen. 23. juni 2015 Problemer med det nuværende Internet Ingen semantiske specifikationer. Søgning giver mange.
Forvægt og bagvægt i sætningen
Modul 3.1 – Hvorfor og hvordan dokumenterer vi?
Modul 3.1 – Hvorfor og hvordan dokumenterer vi?
Naturfag.
Dokumentation.
DIGHUMLAB Forskning i tema1 – Sproglige materialer
Barnesyn og børneperspektiv
Præsentationens transcript:

En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning Bolette Sandford Pedersen Center for Sprogteknologi Rosendal 6. september 2002

Indhold 1. lektion Introduktion til SIMPLE SIMPLE-øvelse 2. lektion Indholdsbaseret søgning (OntoQuery)

Hvorfor skal der være semantik i en sprogteknologisk ordbog ? Niveau 1: f.eks. maskinoversættelse kræver at maskinen kan entydiggøre ord som kan betyde flere ting: Kosten var velsmagende tiden går

Semantik Niveau 2: F.eks. avanceret informationssøgning kræver at maskinen i en vis forstand kan fortolke ord: Søgeudtryk: støtte til solvarme Finde tekster med: tilskud til energibesparende foranstaltning støtte og tilskud er synonymer solvarme er underbegreb til energibesparende foranstaltning

Semantik Niveau 3: ’Fuld’ maskinel fortolkning til programmer som skal ’forstå’ naturligt sprog: Hans dansede med sin borddame For at maskinen skal kunne ’identificere’ hvem der refereres til med ordet borddame - skal den vide at det er den kvinde han sad ved siden af under middagen.

Hvor står semantikken i almindelige ordbøger? NUDANSK ORDBOG: Puslespil ORDKLASSE: subst. BØJNING: puslespillet, plur. puslespil, puslespillene BETYDNING: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele EKSEMPEL: lægge puslespil på 2.000 brikker SAMMENSÆTNING: puslespilsbrik

Om SIMPLE SIMPLE-projektet var et EU-projekt som blev afsluttet i 2000 Formål: at udarbejde harmoniserede semantiske ordbøger for 12 EU sprog (Semantic Information for Multifunctional, Plurilingual Lexica) 10.000 betydninger for hvert sprog på basis af en fælles ontologi, SIMPLE-ontologien (Lenci et al. 2001)

SIMPLE-Ontologien SIMPLE-ontologien udgør det semantiske typesystem som er det begrebsmæssige udgangspunkt for alle de 12 ordbøger Qualia Structure (cf. Pustejovsky, 1995) WordNets klassifikation (cf. Miller and Fellbaum, 1991) http://www.cogsci.princeton.edu/cgi-bin/webwn1.7.1 EuroWordNets klassifikation (cf. Vossen et al, 1998) Levins verbalklassifikation (1993)

Ords interne kompleksitet Grundlæggende antagelse i SIMPLE: ord varierer mht. intern kompleksitet. Dette kan forstås på to måder: hvor mange betydningsdimensioner associerer vi til et ord ? (en lækker kage, en blommekage, en nem kage) hvor mange betydninger har ordet ? universitet_1 (building), universitet_2 (human group)

Mange betydningsdimensioner kan udtrykkes vha. Qualia Structure Qualia Structure udgør en repræsentationsmodel for den kompositionelle del af ords betydning idet den kan udtrykke forskellige kompleksitetsgrader i ord og danne basis for inferensregler (e.g. en nem kage => nem at tilberede/bage en lækker kage => lækker at spise)

De fire qualia-roller formal role: typisk ‘is_a’-relation agentive role: oprindelse, typisk ‘created_by’-relation telic role: formål, typisk ‘used_for’-relation constitutive role: intern struktur, typisk ‘part_of’-relation

Simple typer basiskategorier som er monodimensionelle som kan beskrives alene ved hjælp af en flad taksonomi organiseret alene ud fra hyponymirelationer eksempler: himmel, bakke, blomst, søster (typisk natural kinds, Cruse ‘93)

Flerdimensionelle typer flerdimensionelle typer har mere end en overtype MEN unified types bygger på en simpel type og får tilføjet en agentiv eller telisk dimension (f.eks. cykel, læge, pandekage) ortogonal nedarvning beriger den traditionelle nedarvning ved hjælp af semantiske relationer (indarbejdet i Qualia Structure)

Komplekse typer i Pustejovsky 1995 anvendes såkaldte ‘complex types’ - komplekse typer - til at angive underspecificerede betydninger med systematisk polysemi (også kaldet dotted types eg. universitet som building.humangroup) i SIMPLE angives komplekse typer ved at tillade at to semantiske typer er forbundne via trækket complex

Systematisk polysemi klasser af systematisk polysemi: beholder/kvantitet ‘kop’ dyr/mad ‘lam’ genstand/åbning ‘dør’ handling/resultat ‘bygning’ sted/folk ‘Danmark’

puslespil som flerdimensionel type et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele overbegreb dele formål oprindelse spil træbrikker samles til et hele udskære papbrikker puslespil

En ordbogsindgang med semantik Semantic Unit puslespil Definition: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele (NDO) Corpus example:nu var hun næsten ved at være færdig med det puslespil, hun var begyndt på lige efter påske Ontological type:Artifact Unification Path Concrete_Entity|Agentive|Telic Domain: General Formal quale: is_a = spil Agentive quale: created_by = udskære Telic quale: used_for = samle til et hele Constitutive quale:has_as_parts=træbrikker OR papbrikker

Semantisk verbalbeskrivelse i SIMPLE-modellen De 59 semantiske verbalklasser i SIMPLE er et kompromis imellem: Beth Levins 234 verbalklasser Wordnets 15 klasser 3 kriterier er blevet anvendt: event type (tilstand, proces, transition) argumentstruktur (aritet og type) kausativitet vs. dekausativitet (bolden ruller/jeg ruller bolden)

Verbalontologien Phenomenon (regnvejr, influenza) Aspectual (begynde, afslutte) State (udgøre, være) Event Act (handle, tale, løbe) Psychological Event (tænke, vide) Change (tiltage, dø) Cause Change (dræbe, flytte)

Semantisk repræsentation af ’gå’

Dilemmaer mht. verbernes kodnning Problematiske konstruktionstyper i dansk: partikelverber (gå ud, vaske op, slå op, stå af (bussen)) ægte refleksive verber (undre sig, brokke sig, korse dig) inkorporering (gå til bageren, gå til klaver, spise fisk)

Problemer ved informationssøgning - kort fortalt for mange informationer: ord kan betyde flere ting; de er flertydige ca. 23 % af alle ord der søges på er flertydige; ca. 10% af alle navne der søges på er flertydige) Torkildsen, Holen og Johannessen 2000 for få informationer: vi har flere ord for de samme begreber, synonymer og synonyme udtryk

Problemer ved informationssøgning vi får for mange informationer som ikke er prioriteret godt nok og som derfor er vanskelige at holde rede på idet meget af det er irrelevant vi får for få informationer i forhold til hvad der rent faktisk er tilgængeligt på nettet fordi vi ikke har ’ramt’ den rigtige formulering i forespørgslen begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden

Sproglig viden til informationssøgning sproglige problemer på basisniveau vi har mere eller mindre den sproglige viden - også for dansk og i en formaliseret version - men den er ikke indarbejdet i alle søgesystemer sproglige problemer der kræver mere indholdsmæssig viden de sproglige ressourcer skal udvikles problem: nye tekster - nyt indhold

Sproglige problemer på basisniveau ordene kan antage flere former orlovsordninger, orlovsordningen, orlovsordningerne reduktion til grundformer (lemmatisering) kan afhjælpe dette problem simpel flertydighed: ordene kan tilhøre forskellige ordklasser klager/N;U over/PRÆP; ADV læger/N;U syntaktisk tagger kan afhjælpe problemet efter tagging: klager/N over/PRÆP læger/N

Sproglige problemer der kræver mere indholdsmæssig viden flertydighed inden for samme ordklasse vitaminrig kost/ fejekost - mad flere indholdsmæssige forhold kan afhjælpe flertydighedsproblemet: domæneviden hvis vi kender domænet, kan vi vælge viden om ordenes interne struktur hvis vi ved noget om kosts nærende funktioner, kan vi vælge kost og sygdomme klager/N;U over/PRÆP; ADV læger/N;U syntaktisk tagger kan afhjælpe problemet efter tagging: klager/N over/PRÆP læger/N begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden sproglige problemer på basisniveau sproglige problemer der kræver indholdsmæssig viden

Sproglige problemer der kræver mere indholdsmæssig viden synonymi - flere betegnelser for det samme kan betyde at vi får for få søgeresultater forældreorlov - børnepasningsorlov støtte - tilskud / computer - datamat / diabetes - sukkersyge anvendelse af synonymiordbog kan afhjælpe problemet

Ontologisk viden underbegreber kan være relevante vitaminer har_som_underbegreber k-vitamin, c-vitamin, d-vitamin, thiamin overbegreber kan være relevante solvarme har_som_overbegreb energibevarende foranstaltning

Ontologisk viden er central ontologisk viden kan danne baggrund for en semantisk beregning sådan at søgeresultater prioriteres på basis af sprogligt indhold den semantiske afstand mellem søgeudtryk og søgeresultat beregnes f.eks. ud fra hvor mange ’niveauer’ man skal ned i en given ontologi for at finde resultatet: søgeudtryk: sygdom tekst1: sygdom tekst2: kræft tekst3: lungekræft

Forskningsområde: hvor vigtig er relationerne ml. ordene? Traditionelle søgemaskiner ser på nærhed ml. søgeordene men ikke på relationerne forespørgsel: hvilke sygdomme har at gøre med mangel på vitamin i kosten ? googlesvar: alkoholforbrug og mangel på fysisk aktivitet ... hvordan kosten er sammensat kilde: Paggio, Pedersen & Haltrup (forthcoming)

SIMPLEs anvendelse i indholdsbaseret søgning OntoQuery: Ontology-based Querying Et dansk samarbejdsprojekt 1999-2004 Partnere: Roskilde Universitet Danmarks Tekniske Universitet Handelshøjskolen i København Syddansk Universitet Center for Sprogteknologi

Formålet med OntoQuery- projektet At udvikle en metode til indholdsbaseret søgning at gå videre end mønstergenkendelse ved at lave en ‘rå’ lingvistisk analyse på baggrund af en ontologi der produceres en ‘rå’ semantisk analyse af tekst og af forespørgsel søgning foregår ved at sammenligne beskrivelser of finde det bedste ‘match’ mellem forespørgsel og tekst på basis af ontologien dels på begreberne alene, dels på relationerne mellem begreberne

SystemOverview Query Description Generator Lexicons Text fragment Query Description Generator Lexicons Ontology Linguistic Analysis Mapping to description Text database OntoLog descriptions Query Engine

Eksempel fra SIMPLE-ontologien kanin - 3 betydninger: 1. animal, 2. meat, 3. material kanin kød mad Substance Food Food Telic Top Concrete entity Entity

Ernæringsontologien lavet på baggrund af Den Store Danske Encyklopædi enkelte knuder er etableret for at strukturere ontologien,f.eks. stof-i-krop ernæringsontologien er organiseret under 2 forskellige knuder i SIMPLE-ontologien

Eksempel fra ernæringsontologien A-vitamin fedtopløseligt vitamin vitamin mikronæringsstof næringsstof Natural Substance Substance Concrete entity Entity Top

Anvendelse af ontologien: analyse af tekst og forespørgsler Tekster og forespørgsler (NP’er) analyseres mangel på vitaminer i kosten  (mangel x (WRT: vitamin) x (LOC: diet))

De lingvistiske analysekomponenter Der bygges begrebsrepræsentationer på basis af: POS-tagging NP-genkendelse semantisk parsing

Lingvistiske komponenter Hvilke sygdomme har at gøre med mangel på vitaminer i kosten? POS-Tagger hvilke/PRON sygdomme/N har/V_PRES at /UNIK gøre/V_INF med/PRÆP mangel/N på/PRÆP vitaminer/N i/PRÆP kosten/N ?/TEGN NP recogniser [NP hvilke sygdomme] har at gøre med [NP mangel på vitaminer i kosten]. NP parser ... NP Sem: CONCEPT mangel REL wrt REL loc ARG vitamin ARG kost N PP Qui vedete come le varie componenti manipolino il testo, in questo caso l’interrogazione di cui ho parlato all’inizio della presentazione, “quali malattie sono legate a carenza di vitamine nell’alimentazione”. Il tagger assegna la categoria sintattica. Il riconoscitore di NP sulla base delle tags sintattiche identifica le frasi nominali. A questo punto, il sistema attuale estrae semplicemente i concetti presenti negli NP, ma il parser dovrà in futuro calcolare le relazioni semantiche tra i vari concetti. L’output del parser è una cosiddetta feature structure, che corrisponde alla descrizione su cui lavora il matching. P NP Mapping to Descriptions N PP (mangel x (WRT: vitamin) x (LOC: kost))

Test af 1. prototype

Test af 1. prototype

Test af 1. prototype

OntoQuerys hypotese: Hvis vi kan identificere den semantiske relation der holder mellem 2 begreber kan vi prioritere gode hits bedre og vi kan genkende det samme eller lignende begreber i forskellig forklædning, f.eks. overvægtige børn, børn med overvægt, fede børn børn med fedmeproblemer, børn der har fedmeproblemer

Videre brug af SIMPLE til beregning af relationer en temporær relation TMP tager ofte SIMPLE-typen TIME (og så fremdeles): behandling udover 6 måneder børn i 1-2-årsalderen mangelfuld ernæring gennem længere tid

Videre brug af SIMPLE til beregning af relationer Anvendelse af selektionsrestriktioner behandling af børn med overvægt ønsket beskrivelse: (behandling x (PTN:(børn) x (CHR: overvægt))) uønsket beskrivelse (behandling x (PTN:(børn)) x (BMO: overvægt))

Anvendelse af Qualia Structure depoter af vitaminer (depots of vitamins) ønsket beskrivelse: (depot x (CON: vitaminer)) telisk role for depot er at det kan indeholde noget

Entydiggørelse: Qualia Structure kanin_SUBSTANCE_FOOD formal kød (meat) telic føde (food) agentive tilberedning (cooking)

Agentive role i ‘mad’-læsning Luk maven med kødnåle og steg <kaninen> i ovnen ca. 11/2 time 2 timer Bag <kaninen> i ovnen og hæld lagen over kødet med jævne mellemrum Hak indmaden af <kaninen> og bland det med det hakkede kalvekød