Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Semantic Similarity in a Taxonomy -Hvordan man måler semantisk lighed vha. taksonomi.

Lignende præsentationer


Præsentationer af emnet: "Semantic Similarity in a Taxonomy -Hvordan man måler semantisk lighed vha. taksonomi."— Præsentationens transcript:

1 Semantic Similarity in a Taxonomy -Hvordan man måler semantisk lighed vha. taksonomi

2 Hvad er taksonomi? 1. taxonomy -- (a classification of organisms into groups based on similarities of structure or origin etc) 2. taxonomy -- ((biology) study of the general principles of scientific classification) 3. taxonomy -- (practice of classifying plants and animals according to their presumed natural relationships) Wordnet 1.7

3 Hvad er lighed? Lighed ikke lig relationer Relationen mellem en bil og benzin er større end mellem en bil og en cykel. Ligheden mellem en bil og en cykel er større end mellem en bil og benzin

4 fartøj vand båd sejlbåd motorbåd ubåd land bil lastbil Personbil cykel luft flyraket

5 Traditionel måde at måle semantisk lighed i en taksonomi At måle afstanden mellem knudepunkterne på det som sammenlignes Dvs. en motorbåd har mere lighed med vand end luft…. Problem: Distancerne i en taksonomi er ikke uniforme. Hvad afhænger en distance af? Distancen ml. sikkerhedsventil og ventil syntes mindre end ml. symaskine og maskine Kort distance: ’rabbit ears’ og tv-antenne Stor distance: ’Phytoplankton’ og organisme

6 Resniks strategi Vil basere lighed på ’Information Content’ Vil undgå distance problemet Vil kombinere sine metoder med sandsynlighedsudregning baseret på empiri Vil vise hvordan man kan bruge udregningen af semantisk lighed til at fjerne flertydighed i naturlige sprog

7 Information Content Lighed kunne bestemmes af den grad til hvilken koncepterne deler information Lighed kunne bestemmes af det koncept som er dem begge overordnet. Eks. ’Nickel’ og ’Dime’ er underordnet ’Coin’, Mens ’Nickel’ og ’Credit Card’ begge er underordnet ’Medium of Exchange’

8 Hvordan måles Information Content Ved at associere sandsynlighed med koncepter i taksonomien Alle koncepter i taksonomien tildeles en værdi baseret på den sandsynlighed der er for at støde på konceptet i taksonomien Værdien kan ligge mellem 0 og 1, hvor 1 betyder at konceptet ikke er underordnet andre koncepter. Men også at dets informationsindhold er lig 0. Stiger informationsværdien vil sandsynlighedsværdien falde. Desto mere abstrakt konceptet er, desto lavere er dets informationsindhold. Desto mere information to koncepter deler, desto større er deres lighed. Dvs. ligheden af to begreber bestemmes af deres fælles overordnede begreb. F.eks. det begreb som har mest til fælles med ’Nickel’ og ’Dime’ er ’Coin’

9 Multiple nedarvning

10 Empiri 38 personer fik 30 ord i par som de skulle vurdere ud fra skalaen 0-4 => Korrelation 0.97 Resnik gentog forsøget og fik korrelation 0.96

11 Lighed målt vha. computer ’Information Content’ (wsim) Distance ml. begreber (wsim edge ) Koncepters sandsynlighed (wsim p(c) )

12

13 Problemer ved ’Information Content’ Kontra-intuitive resultater Skyldes mangel på algoritme som finder ords mening Løsning: medtag relevans i udregningen (baseret på tekst materiale).

14 Hvad kan vi bruge det til? Opløse flertydighed i naturlige sprog Ordbogs problemer

15 Flertydighed (sammensatte navneord) Bank and (warehouse guard) vs. (bank and warehouse) guard (bank and warehouse) guard (Policeman and park) guard vs. (policeman) and (park guard)

16 Strategier vedr. flertydighed Antal: several businesses and university groups Mening: ’a television and radio personality’ har større lighed end ’a psychologist and sex researcher’ Modifikation: ’corn and peaunut butter’ = ’Corn butter and peaunut butter’ vs. ’corn and peaunut crops’ = ’Corn crops and peaunut crops’

17 Strategiernes nyttighed

18 Komplekse flertydigheder freshman ((business and marketing) major) (food (handling and storage)) procedures ((mail fraud) and bribery) charges

19 Menneske vs. computer

20 Paradigmer Selection – skal vælge hvilke af WordNets ord hvis mening bør inkluderes Filtering – skal vælge hvilke af WordNets ord hvis mening ikke bør inkluderes

21 Resultater Precision – de meningsbetydninger som er inkluderet Recall – de meningsbetydninger som burde være inkluderet

22 Konklusion Selv ekspert har svært ved at matche den indfødtes resultater. Dette fortæller lidt om opgavens sværhed. Algoritmen håndterer ’filtering precision’ bedre end ekspert Algoritmen er bedst egnet til ’sense filtering’ fremfor ’sense selction’ ’Information Content’ godt byd på opløsning af flertydighed Metoderne bør nok bruges semi-automatisk under menneskelig supervision

23 Kilder Philip Resnik: Semantic Similarity in a Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language, http://new- isl.ruc.dk/~troels/KIS/resnik99a.pdf http://new- isl.ruc.dk/~troels/KIS/resnik99a.pdfhttp://new- isl.ruc.dk/~troels/KIS/resnik99a.pdfOrdbøger WordNet - http://www.cogsci.princeton.edu/~wn/ WordNet - http://www.cogsci.princeton.edu/~wn/http://www.cogsci.princeton.edu/~wn/ Wordsmyth English Dictionary-Thesaurus http://www.wordsmyth.net/ ), an on-line educational dictionary aliated with the ARTFLtext database project (http://humanities.uchicago.edu/ARTFL) Wordsmyth English Dictionary-Thesaurus http://www.wordsmyth.net/ ), an on-line educational dictionary aliated with the ARTFLtext database project (http://humanities.uchicago.edu/ARTFL) http://www.wordsmyth.net/


Download ppt "Semantic Similarity in a Taxonomy -Hvordan man måler semantisk lighed vha. taksonomi."

Lignende præsentationer


Annoncer fra Google