Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Princippet om polyrepræsentation: teori, eksperimenter og erfaringer Mette Skov og Birger Larsen Danmarks Biblioteksskole Temadag om Udviklingstendenser.

Lignende præsentationer


Præsentationer af emnet: "Princippet om polyrepræsentation: teori, eksperimenter og erfaringer Mette Skov og Birger Larsen Danmarks Biblioteksskole Temadag om Udviklingstendenser."— Præsentationens transcript:

1 Princippet om polyrepræsentation: teori, eksperimenter og erfaringer Mette Skov og Birger Larsen Danmarks Biblioteksskole Temadag om Udviklingstendenser indenfor indeksering og repræsentation, 3. oktober 2007

2 2 Disposition Princippet om polyrepræsentation - et kognitivt perspektiv på IR Empiriske undersøgelser af polyrepræsentation Repræsentationer af informationsrummet (dokumenter og informationssystemer) Repræsentationer af brugerens kognitive rum Konklusion af nuværende undersøgelser Hvad kan vi bruge resultaterne til? Og hvad er næste skridt?

3 3 Det kognitive synspunkt Princippet om polyrepræsentation er forankret i det kognitive synspunkt, hvor information retrieval & seeking (IR&S) opfattes som processer og kognition (bl.a. Ingwersen 1996; Ingwersen & Järvelin, 2005) Holistisk tilgang hvor kognitive strukturer fra alle komponenter og aktører i IR&S processen indgår, f.eks. forfattere, indeksører og designere af tesauri, databaser og brugergrænseflader Det medfører stor variation af forskellige kognitive repræsentationer og fortolkninger indenfor én og samme søgesituation

4 4 Kognitiv model af centrale komponenter i IS&R Social Context Information objects IT: Engines Logics Algorithms Interface Cognitive Actor(s) (team) Org. Cultural =Cognitive transformation and influence over time = Interactive communication of cognitive structures Information IR Social Interaction Retrieval Social context Social Context Information objects IT: Engines Logics Algorithms Interface Cognitive Actor(s) (team) Org. Cultural =Cognitive transformation and influence over time = Interactive communication of cognitive structures Information IR Social Interaction Retrieval Social context

5 5 Hypotesen om polyrepræsentation Motivationen bag princippet om polyrepræsentation er at udnytte variationer af kontekst som indgår i en interaktiv IR proces (Ingwersen, 1996; Ingwersen og Järvelin, 2005) Dvs. udnytte den store variation af (allerede eksisterende) repræsentationer til at optimere søgning Jo flere kognitivt og funktionelt forskellige repræsentationer, der peger på dokumenter i såkaldte kognitive overlap, desto større er sandsynligheden for at dokumenterne er relevante

6 6 Polyrepræsentation i forskellige sammenhænge Request Version … Task / Problem Description … defined cognitive overlap in X defined cognitive overlap in X COGNITIVEOVERLAPfrom Engine X Engine X defined … rank/ cognitive overlap Engine Y defined … rank/ cognitive overlap TOTALCOGNITIVEOVERLAP Engine P defined … PX PY XY COGNITIVE OVERLAP CITATIONS In-links to titles authors & passages AUTHOR(s) Text - images Headings Captions Titles References Out-links THESAURUS structure INDEXERS Class codes Descriptors Document type Weights SELECTORs Journal name Publication year Database(s) Corporate source Country Informationsrummet: dokumenter (2 eksperimenter) Informationsrummet: IR systemer (1 eksperiment) Brugerens kognitive rum (1 eksperiment)

7 7 Polyrepræsentation af dokumentrepræsentationer Skov et al. (2006) udnyttede fire forskellige dokument- repræsentationer Variation m.h.t.: Forskellige kognitive ophav (TI/AB vs. MJ og MN) Samme kognitive ophav men funktionelt forskellige (TI/AB og RF) Titel/abstracts (TI/AB) Referencer (RF) Major MeSH (MJ) og Minor MeSH (MN) MN RF TI/AB MJ OL1 OL4OL3 OL7 OL10 OL8 OL9 OL2 OL5 OL11 OL6 MN AB TI RF

8 8 Polyrepræsentation af dokument- repræsentationer (Skov et al.) Formål: Empirisk undersøgelse af hvorvidt udnyttelse af kognitivt og funktionelt forskellige repræsentationer kan optimere søgning? Data: CF-testsamlingen (1239 poster fra Medline), 4 dok- repræsentationer, 29 topics, best match og Boolesk søgning (InQuery-systemet) Metode: Identifikation af alle kognitive overlaps mellem repræsentationerne ved anvendelse af to typer af søgninger (naturligt sprog og struktureret sprog)

9 Resultater – overlaps Minor MeSH (mn) Referencer (rf) Titel/abstract (ti/ab) Major MeSH (mj) Natural languageHighly structured All relevant Highly relevant # docPrecisionRecall# docPrecisionRecallPrecisionRecall OverlapABCDEGFH OI1(ti/ab,mj,mn,rf)12641%5%5869%4%53%6% Ol2(ti/ab,mj,mn)66813%8%10042%4%20%4% Ol3(ti/ab,mj,rf)10148%4%6679%5%45%6% Ol4(ti/ab,mn,rf)24029%6%6862%4%47%7% Ol5(mj,mn,rf)30% 1164%1%45%1% Ol6(ti/ab,mj)70212%7%13145%5%22%6% Ol7(ti/ab,mn)17619%14%21027%5%13%6% Ol8(ti/ab,rf)15289%12%16227%4%19%6% Ol9(mj,mn)1416%1%4226%1%14%1% Ol10(mj,rf)633%0%1638%1%19%1% Ol11(mn,rf)4221%1%6824%2%16%2% Ol12(ti/ab)162012%25%77012%8%5%8% Ol13(mj)10610%1%10927%3%12%3% Ol14(mn)6034%2%33617%5%7%5% Ol15(rf)8725%4%24586%12%2%10%

10 Resultater – overlaps Minor MeSH (mn) Referencer (rf) Titel/abstract (ti/ab) Major MeSH (mj) Natural languageHighly structured All relevant Highly relevant # docPrecisionRecall# docPrecisionRecallPrecisionRecall OverlapABCDEGFH OI1(ti/ab,mj,mn,rf)12641%5%5869%4%53%6% Ol2(ti/ab,mj,mn)66813%8%10042%4%20%4% Ol3(ti/ab,mj,rf)10148%4%6679%5%45%6% Ol4(ti/ab,mn,rf)24029%6%6862%4%47%7% Ol5(mj,mn,rf)30% 1164%1%45%1% Ol6(ti/ab,mj)70212%7%13145%5%22%6% Ol7(ti/ab,mn)17619%14%21027%5%13%6% Ol8(ti/ab,rf)15289%12%16227%4%19%6% Ol9(mj,mn)1416%1%4226%1%14%1% Ol10(mj,rf)633%0%1638%1%19%1% Ol11(mn,rf)4221%1%6824%2%16%2% Ol12(ti/ab)162012%25%77012%8%5%8% Ol13(mj)10610%1%10927%3%12%3% Ol14(mn)6034%2%33617%5%7%5% Ol15(rf)8725%4%24586%12%2%10%

11 11 Resultater og konklusion (Skov et al.) Generelt bekræftes hypotesen om polyrepræsentation. Jo flere repræsentationer der peger på et dokument desto højere præcision Struktureret søgning giver højere præcision end søgning i naturligt sprog Struktureret søgesprog er nødvendigt pga. polyrepræsentations boolske natur Query expansion i tesaurus er nødvendigt for at sikre kvalitet og undgå tomme overlap Overlap, hvor referencer indgår, har højere præcision end dem uden. Dette understreger vigtigheden af at inkludere kognitivt forskellige repræsentationer

12 12 Kompleks polyrepræsentation: Boomerangeffekten Kombination af princippet om polyrepræsentation og søgning via citationer Citationssøgning kan give gode resultater med gode kildedokumenter, men disse kan være svære at få fat i Idé: brug polyrepræsentation til at identificere kildedokumenter automatisk Udforsket i ph.d.-projekt (Larsen, 2004) Tager udgangspunkt i emnesøgninger i videnskabelige dokumenter Udtrækker og vægter referencer, og laver en fremadrettet citationssøgning med disse kildedokumenter 2 versioner: en Boolesk og en best match

13 Boomerangeffekten Step 1 documents Step 3 documents OL = Overlap Level Step 2 citations i ii iii I II III IV OL3 OL2 OL1 OL2 OL1 (OL0) TI AB DE iv Fra Larsen (2004), s. 82 = Ranking with threshold

14 14 Boomerangeffekten: resultater Den Booleske version gav meget lovende resultater 4 repræsentationer (TI, AB, ”ID”, basic index), 3 work tasks, 100 dokumenter bedømt per task (Larsen, 2002) Højere precision i indre overlap: hele vejen op, og både i step 1 og step 3. Mange ekstra relevante dokumenter fundet Best match versionen gav gode resultater, men ikke bedre end baseline 11 repræsentationer (TI, AB, AU keywords, figur- og tabel, intro. + konkl., citerede titler, citationsindeks, DE og ID) Del af INEX: 12.107 XML dokumenter, 23 work tasks 2 baselines: bag-of-words og ustruktureret polyrep uden citationer

15 Boomerangeffekten: best match Baseline (bag-of-words) klarede sig bedst Både boomerang og polyrep. påvirkes kraftigt af antallet af top-dokumenter i step 1 Results for the ‘generalized’ INEX2002 scoring function RunAvgP boomerang (H/ff/32)0.0422 polyrepresentation0.0419 bag-of-words0.0606

16 16 Boomerangeffekten, refleksioner Struktureret (=Boolesk) fungerede godt, ustruktureret knap så godt Polyrep Boolesk af natur? Polyrep continuum? For mange / for dårlige repræsentationer? Struktur nødvendigt? UnstructuredStructured The Polyrepresentation Continuum Exact match Sets Overlaps Pseudo-ranking Best match Thresholds Fusion of ranks Continuous ranking

17 Polyrepræsentation af IR systemer Lund (speciale, 2005) undersøgte kombinationer af de 12 bedste TREC5 systemer med 30 topics (40+ relevante dokumenter) Kognitivt forskellige systemer (nogle mere end andre) En slags ”data fusion”: Ekstra vægt til dokumenter i overlap Fuse12: top-100 inverteret og summeret over alle 12 systemer med boosting for dokumenter i overlap (100x, 90x, …) Fuse4;3a;3b;3c…: Samtlige mulige overlap mellem de 4 bedste systmer Supersystem: fordi Fuse4 ofte fandt mindre end 100 dokumenter, blev Fuse 3a etc slået samen i et supersystem (mix af vægte) Engine X defined … rank/ cognitive overlap Engine Y defined … rank/ cognitive overlap TOTALCOGNITIVEOVERLAP Engine P defined … PX PY XY

18 Polyrepræsentation af IR systemer Med mange relevante dokumenter per topic klarer polyrepræsentation sig bedre end input systemerne (ved top-100) Fusioner at de 3-5 bedste systemer var bedre end det bedste input systemer: Når kognitivt forskellige systemer blev kombineret var performance signifikant bedre Når kognitivt lignende systemer blev kombineret faldt performance Konklusioner ’Blødgøring’ af de Booleske sæt fungerede godt: tilføjelse af overlap fra lavere niveauer gav gode resultater Stor samling med mange dokumenter  flere dokumenter i overlap? Baseret på Lund, Schneider & Ingwersen (2006)

19 Polyrep. af brugernes kognitive rum Mange muligheder (se Ingwersen & Järvelin, 2005, p. 335 ff) Kelly, Dollu & Fu (2005) undersøgte udtrækning og kombination af forskellige funktionelle repræsentationer af brugernes kognitive rum ved at stille 4 spørgsmål i interfacet: Q1: Hvor mange gange har du tidligere søgt på emnet; Q2: Beskriv hvad du allerede ved om emnet (16,18 ord); Q3: Hvorfor er interesseret i at vide noget om emnet (10,67 ord); Q4: Kan du give ekstra ord der beskriver emnet (3,3 ord) Ord fra svarene blev kombineret og sammenlagt på forskellige måder med højere vægte for gentagne termer = ikke meget struktur Request Version … Task / Problem Description … defined cognitive overlap in X defined cognitive overlap in X COGNITIVEOVERLAPfrom Engine X

20 20 Polyrep. af brugernes kognitive rum Del af TREC 2004 HARD track: 13 søgere, 45 tasks med relevance vurderinger Anvendte clarification forms med Q1-Q4 til at kontekstualisere tasks Meget interessante resultater: Alle enkeltvise Q og Q-kombinationer klarede sig bedre end baselinen Alle ord (BL+Q2+Q3+Q4) gav bedst resultater af alle Meget stærk korrelation mellem query-længde og performance “...probing users with different, but related questions might elicit most robust and useful problem descriptions.” (p. 463) Kelly, Dollu & Xin Fu (2005) giver meget stræk støtte til polyrepræsentation af brugernes kognitive rum  flere forsøg med mere avancerede vægtninger af overlap

21 21 Konklusioner og vejen frem Princippet om polyrepræsentation giver en teoretisk ramme for at udnytte mange forskellige typer af indeksering til at opnå bedre resultater Mange hypoteser kan genereres og der er en teori at fortolke resultaterne i forhold til Er holistisk og inddrager både system- og brugersiden Ser ud til at fungere også empirisk i delkomponenter Mangler endnu tests der kombinerer bruger og systemsiden (forventning om gode resultater) Kan lede til meget komplekse kombinationer…

22 22 Konklusioner og vejen frem Næste skridt Erfaringsopsamling med en lang række forskellige data  vigtigt for tuning af algoritmer Flere laboratorietests af kombinationer af dokumenter og informationssystemer Laboratorietests med brugerdata og brugere Tests af implementering i operationelle miljøer Undersøge applikation på federated/intergrated search Tests af berigelse af bibliografiske poster (lektørudtalelser, anmeldelser, logdata)

23 23 Tak for opmærksomheden

24 24 Referencer Ingwersen, P. (1996). Cognitive perspectives of informationretrieval interaction: elements of a cognitive IR theory. Journal of Documentation, 52(1), 3-50. Ingwersen, P. & Järvelin, K. (2005). The turn: integration of information seeking and retrieval in context. Springer. Kelly, D., Dollu, V.D. & Xin Fu.: The loquacious user: A document-independent source of terms for query expansion. In: Proceedings of the 28th Annual ACM SIGIR Conference on Research and Development in Information retrieval. ACM Press, New York NY (2005) 457- 464 Larsen, B. (2002): Exploiting citation overlaps for information retrieval: generating a boomerang effect from the network of scientific papers. Scientometrics, 54(2), 155-178. Larsen, B. (2004): References and citations in automatic indexing and retrieval systems : experiments with the boomerang effect. Copenhagen: Royal School of Library and Information Science. XIII, 297 p. (PhD dissertation) [http://www.db.dk/blar/dissertation] Lund, B.R., Schneider, J.W. & Ingwersen, P. (2006). Impact of relevance intensity in test topics on IR performance in polyrepresentative exploratory search systems. In: White, Ryen, Muresan, G. & Marchionini, G. (eds.), Evaluating Exploratory Search Systems, Proceedings of the SIGIR 2006 EESS Workshop: 42-46. Skov, M., Larsen, B. & Ingwersen, P. (2006): Inter and intra-document contexts applied in polyrepresentation. In: Proceedings of the first symposium on Information Interaction in Context (IIiX), 18-20 October, 2006, Copenhagen, Denmark.


Download ppt "Princippet om polyrepræsentation: teori, eksperimenter og erfaringer Mette Skov og Birger Larsen Danmarks Biblioteksskole Temadag om Udviklingstendenser."

Lignende præsentationer


Annoncer fra Google