Semantic Similarity in a Taxonomy -Hvordan man måler semantisk lighed vha. taksonomi.

Slides:



Advertisements
Lignende præsentationer
Case: Tekst på Call-To-Action link
Advertisements

Et projekt til undersøgelse af udviklingsmetodologi.
Virtuel medarbejder eller konsulent
Psykoterapeutisk afsnit F4 Psykiatrisk Center Frederiksberg
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Analyse af kvalitative data
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Forsigtighedsprincippet - en barriere for udviklingen af bedre kemikalier? Ulla Hansen Telcs, DI Kemiens Dag -16. november 2011.
Dagsorden Kildekritik Litteraturliste Søgestrategi/søgeprofil Søgeord
2.-generationsintranet på KU Internet, intranet, ekstranet eller "mit net"? Claus Qvistgaard It-strategichef
Grammatik hvorfor og hvordan?
Ledelsessystemer i et fremtidsperspektiv ”PBI” Pervasive ? Business ? Intelligence ? Ledelse; fremtid… !
Challenges in Web Search Engines • Spam • Content Quality • Quality Evaluation • Web Conventions • Duplicate Hosts • Vaguely-Structured Data.
Kvantitative metoder
– Om formidlingen af afgørelser i offentlige breve
”Du skulle jo gerne ville være derhjemme” Ansvarlighed som nøglen til patientinddragelse Mari Holen Post.doc. ved Center for sundhedsfremmeforskning, RUC.
Case: Sampling Define the population for the Choice of Education study Sample or census? Is the resulting sample a probability sample? Which of all the.
1 Velkommen! Informationssøgningsprocessen:  Hvordan kan I gribe det an (strategier)  Omdanne jeres emne til søgeord  Søgeteknik  Bruge søgeordene.
Sammenligning af to grupper – kapitel 7
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
1 The Case Research Strategy in Studies of Information Systems Af:Izak Benbasat, David K. Goldstein og Melissa Mead Publiceret: MIS Quaterly i 1987.
The Utility of Organisational Ethnography Konklusion. Neyland.
IT i undervisningen.
Udlands-semester i Moscow, Idaho Marc Andresen.
Fra Internet til semantisk web via taksonomier AF:Hosein Askari ITST.
VELKOMMEN til Pædagogisk IT-vejledning efter din skolekultur IT-Vejlederens rolle ændrer sig!
Hvordan kommer jeg videre ? Stig Bruun-Andersen Løsningsspecialist IT Infrastructure Enterprise & Partner Group Microsoft Danmark.
Ledelsesperspektiver
Det humanistiske fakultet – didaktiske virkemidler og metoder
Workshop 1: Ideudvikling og problemformulering Sarah m. L. Krøtel
Overskrift Max 1 linje Forside dias Der findes 4 farveskemaer at vælge mellen: Marker det / de slides du vil have en anden farve på, Vælg ”Design” / ”Farver”
Program Korrelation Gamma Pearsons r Regression Kausalitet 1.
Ordnet og tesaurusser Patrizia Paggio Center for Sprogteknologi Københavns Universitet
Et projekt til undersøgelse af udviklingsmetodologi.
25. september 2007 Dias 1 Center for Sprogteknologi Evalueringsmetoder i MT Bente Maegaard og Lene Offersgaard Center for Sprogteknologi.
Vidensamfundet (netværkssamfundet) ”Jeg kan jo ikke vide alt. Som topleder i en stor virksomhed er jeg nødt til at træffe beslutninger på baggrund af den.
Økonomisk Geografi Globale strømme. Overordnet spørgsmål Hvilke hovedsammenhænge og -forskelle er der mellem de tre økonomiske strømme i verden (FDI,
Sociology and social media af: Mads, Emil, Caspar og Jos.
Folksonomier: når brugerne samarbejder Eller Folksonomier: Når samarbejde mellem brugere er indlejret i informationssystemerne.
WordNet Elektronisk leksikalsk database Semantisk ordbog Ca
Mapping Scientific Controversies using Digital Methods Ayo Wahlberg, Associate Professor, Department of Anthropology.
Introduktion til sikkerhed i.NET Mark S. Rasmussen iPaper ApS
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
DNA baseret taksonomi?. International Commission on Zoological Nomenclature (ICZN) International Association for Plant Taxonomy (IAPT)
Plagiarisme – det blev værre før det det blev bedre. Praksisudvalgets konference den 30. oktober 2008 Videnskabelig uredelighed på studierne Peter Erling.
Hospitalsinformationssystemer MM5 Hvad er HIS? Hvad driver udviklingen af HIS/PAS? Avancerede kliniske informationssystemer –Konteksten –Teknikken Fremtiden.
Økonometri – lektion 8 Multipel Lineær Regression
Kjeld Svidt  Institut for Byggeri og Anlæg  Aalborg Universitet IT i Byggeriet Semester 6, kursusgang Databaser (1) Kjeld Svidt
OPERATIONEL ANALYSE AF WEBADFÆRD OAW – LEKTIONSGANG 11.
1 Konceptudvikling til interaktivt digitalt tv og bredbånd Modul september 2001 Peter Olaf Looms.
DAT 7. ENT. E d Opsamling Interessent analyser + anvendelse og præsentation. Preston artikel. Gartner + anvendelse og præsentation. Darsøe.
Unified Modeling Language
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Dansk Data Arkiv Hans Jørgen Marker IASSIST 2005 DDI and Data Hans Jørgen Marker Senior Researcher Dansk Data Arkiv
On the Essential Contexts of Artefacts or on the Proposition that ”Design Is Making Sense (of Things)” Af Klaus Krippendorff 1989.
23. juni 2015 Det Semantiske Web Mads Carlsen. 23. juni 2015 Problemer med det nuværende Internet Ingen semantiske specifikationer. Søgning giver mange.
DOMS IT-stormøde 16 november 2009 Kåre Fiedler Christiansen.
Omsætning af en model til en RDB Jesper Tørresø DAB1 F Marts 2008.
Hvad er et godt eksperiment, og hvordan planlægges en eksperiment række? hypothesis, theory, law mean a formula derived by inference.
UNIVERSITETSBIBLIOTEKET AALBORG UNIVERSITY DATA MANAGEMENT IN PRACTICE TRACK 5: MARKETING AND TRAINING TOOLKIT Karsten Kryger Hansen Specialkonsulent,
Almen sproglig viden og metode CLM, engelsk Semantics Introductory Lecture 1 tt.
Ledende oversygeplejerske Arne Brehm Høj Afdeling for Operation og Anæstesiologi Sydvestjysk Sygehus.
Database Some walk through lv/ Figures & some text from: © Pearson Education Limited 1995,
Ændr 2. linje i overskriften til AU Passata Light 6TH OF OCTOBER 2015 AARHUS UNIVERSITET AU MASTER THESIS INFORMATION MEETING SOFIE VEJE AND JACOB BONDE.
This project has been funded with support from the European Commission
Hvordan løser vi klimaknuden og hvad kan forbrugerne gøre?
d. 29. oktober 2015 Direktør Bjarne Hastrup
Anvendt Statistik Lektion 6
- og hvordan du undgår dem…
European data sources – a (lost) opportunity and a challenge
Præsentationens transcript:

Semantic Similarity in a Taxonomy -Hvordan man måler semantisk lighed vha. taksonomi

Hvad er taksonomi? 1. taxonomy -- (a classification of organisms into groups based on similarities of structure or origin etc) 2. taxonomy -- ((biology) study of the general principles of scientific classification) 3. taxonomy -- (practice of classifying plants and animals according to their presumed natural relationships) Wordnet 1.7

Hvad er lighed? Lighed ikke lig relationer Relationen mellem en bil og benzin er større end mellem en bil og en cykel. Ligheden mellem en bil og en cykel er større end mellem en bil og benzin

fartøj vand båd sejlbåd motorbåd ubåd land bil lastbil Personbil cykel luft flyraket

Traditionel måde at måle semantisk lighed i en taksonomi At måle afstanden mellem knudepunkterne på det som sammenlignes Dvs. en motorbåd har mere lighed med vand end luft…. Problem: Distancerne i en taksonomi er ikke uniforme. Hvad afhænger en distance af? Distancen ml. sikkerhedsventil og ventil syntes mindre end ml. symaskine og maskine Kort distance: ’rabbit ears’ og tv-antenne Stor distance: ’Phytoplankton’ og organisme

Resniks strategi Vil basere lighed på ’Information Content’ Vil undgå distance problemet Vil kombinere sine metoder med sandsynlighedsudregning baseret på empiri Vil vise hvordan man kan bruge udregningen af semantisk lighed til at fjerne flertydighed i naturlige sprog

Information Content Lighed kunne bestemmes af den grad til hvilken koncepterne deler information Lighed kunne bestemmes af det koncept som er dem begge overordnet. Eks. ’Nickel’ og ’Dime’ er underordnet ’Coin’, Mens ’Nickel’ og ’Credit Card’ begge er underordnet ’Medium of Exchange’

Hvordan måles Information Content Ved at associere sandsynlighed med koncepter i taksonomien Alle koncepter i taksonomien tildeles en værdi baseret på den sandsynlighed der er for at støde på konceptet i taksonomien Værdien kan ligge mellem 0 og 1, hvor 1 betyder at konceptet ikke er underordnet andre koncepter. Men også at dets informationsindhold er lig 0. Stiger informationsværdien vil sandsynlighedsværdien falde. Desto mere abstrakt konceptet er, desto lavere er dets informationsindhold. Desto mere information to koncepter deler, desto større er deres lighed. Dvs. ligheden af to begreber bestemmes af deres fælles overordnede begreb. F.eks. det begreb som har mest til fælles med ’Nickel’ og ’Dime’ er ’Coin’

Multiple nedarvning

Empiri 38 personer fik 30 ord i par som de skulle vurdere ud fra skalaen 0-4 => Korrelation 0.97 Resnik gentog forsøget og fik korrelation 0.96

Lighed målt vha. computer ’Information Content’ (wsim) Distance ml. begreber (wsim edge ) Koncepters sandsynlighed (wsim p(c) )

Problemer ved ’Information Content’ Kontra-intuitive resultater Skyldes mangel på algoritme som finder ords mening Løsning: medtag relevans i udregningen (baseret på tekst materiale).

Hvad kan vi bruge det til? Opløse flertydighed i naturlige sprog Ordbogs problemer

Flertydighed (sammensatte navneord) Bank and (warehouse guard) vs. (bank and warehouse) guard (bank and warehouse) guard (Policeman and park) guard vs. (policeman) and (park guard)

Strategier vedr. flertydighed Antal: several businesses and university groups Mening: ’a television and radio personality’ har større lighed end ’a psychologist and sex researcher’ Modifikation: ’corn and peaunut butter’ = ’Corn butter and peaunut butter’ vs. ’corn and peaunut crops’ = ’Corn crops and peaunut crops’

Strategiernes nyttighed

Komplekse flertydigheder freshman ((business and marketing) major) (food (handling and storage)) procedures ((mail fraud) and bribery) charges

Menneske vs. computer

Paradigmer Selection – skal vælge hvilke af WordNets ord hvis mening bør inkluderes Filtering – skal vælge hvilke af WordNets ord hvis mening ikke bør inkluderes

Resultater Precision – de meningsbetydninger som er inkluderet Recall – de meningsbetydninger som burde være inkluderet

Konklusion Selv ekspert har svært ved at matche den indfødtes resultater. Dette fortæller lidt om opgavens sværhed. Algoritmen håndterer ’filtering precision’ bedre end ekspert Algoritmen er bedst egnet til ’sense filtering’ fremfor ’sense selction’ ’Information Content’ godt byd på opløsning af flertydighed Metoderne bør nok bruges semi-automatisk under menneskelig supervision

Kilder Philip Resnik: Semantic Similarity in a Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language, isl.ruc.dk/~troels/KIS/resnik99a.pdf isl.ruc.dk/~troels/KIS/resnik99a.pdfhttp://new- isl.ruc.dk/~troels/KIS/resnik99a.pdfOrdbøger WordNet - WordNet - Wordsmyth English Dictionary-Thesaurus ), an on-line educational dictionary aliated with the ARTFLtext database project ( Wordsmyth English Dictionary-Thesaurus ), an on-line educational dictionary aliated with the ARTFLtext database project (