Princippet om polyrepræsentation: teori, eksperimenter og erfaringer Mette Skov og Birger Larsen Danmarks Biblioteksskole Temadag om Udviklingstendenser.

Slides:



Advertisements
Lignende præsentationer
VMS data Geografisk og tidsmæssig udvikling af indsatsen i tobisfiskeriet v/ dataspecialist Josefine Egekvist Sekretariat for myndighedsbetjening.
Advertisements

Atomer Et programmeret forløb. En måde at lære på.
SharePoint /36 2 General SettingsPermissions and ManagementCommunications Titel, description and navigation Versioning settings Advanced settings.
VIDENSKAB Et videnskabeligt arbejde er ikke videnskab før det er publiceret! Hasenkam’s I. Tese.
Hjemmesidekonstruktion Tjekspørgsmål 1.Hvad er et markup-sprog – hvad bruges det til? 2.Hvad er forskellen mellem et markup-sprog og et scriptsprog? 3.Hvad.
WP 5.2 Kortlægning af eksisterende resurcer/collections
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
v/ Professor Lars Ehlers, Aalborg Universitet
SQL underforespørgsler og Join
Velkommen hos Juvel A/S
Basal statistik 24. okt Tom Bendix Videncenter for
Formularer (Access, del 3)
Bolig selskabernes Landsforening– Almene lejeboliger - Maj/Juni Almene lejeboliger - Danmarkspanelet - Maj/Juni 2010.
3. Funktionelle afhængigheder og normalisering
Challenges in Web Search Engines • Spam • Content Quality • Quality Evaluation • Web Conventions • Duplicate Hosts • Vaguely-Structured Data.
Perspektiverende Datalogi Internetalgoritmer MapReduce Gerth Stølting Brodal.
The Love Shop Lawton/Webb 2003 Vores oplæg er delt i form og indhold, vel vidende om, at disse er gensidigt afhængige af hinanden – og derfor vil vi til.
Strategi Interoperabilitet Web service – nye standarder danZIG-mødet Leif Andresen Biblioteksstyrelsen.
Problemløsningsheuristik I.1 Hvordan besvarer man sin problemstilling? I.Forstå problemstillingen 1.Hvad er det (i min problemstilling) som jeg ikke ved.
1 Velkommen! Informationssøgningsprocessen:  Hvordan kan I gribe det an (strategier)  Omdanne jeres emne til søgeord  Søgeteknik  Bruge søgeordene.
Fremtidens ledelse af en kulturvirksomhed
SEO PÅ AU.
Web question answering Is more always better? (Artikel 14)
Efteruddannelsesindsatsen 2007 Analyse Danmarks undersøgelse januar 2008 Oplæg på Kompetencerådets møde den v./ Merete.
The Utility of Organisational Ethnography Konklusion. Neyland.
R2 R5 A1 C1CC R3 R4 R1 Referencer som ikke er i databasen Vores oprindelige artikel Referencer til artikler som er i databasen Rel artikel C2 R= referencer.
Vejledning i projektarbejde

Artikel præsentation Kenneth Pedersen DESIGN SCIENCE IN INFORMATION SYSTEMS RESEARCH Hevner, A. R., March, S. T., Jinsoo, P. and Ram, S. (2004)
Søg information til dit masterprojekt Workshop i litteratursøgning for studerende på masteruddannelsen FMOL v/ Filip Kruse og Mette Ahlers Marino F2013.
Giv medarbejderne adgang til centrale systemer – lige ind i Office Inspirationsseminar 31. oktober 2006.
Representations for Path Finding in Planar Environments.
Hanne-Pernille Stax, ph.d
Introduktion til Access (Access, del 1)
Opslagsfelter (Access, del 6). RHS – Informationsteknologi 2 Udgangspunkt Vi er ofte i den situation, at valg af en type for et felt ikke begrænser vores.
Signifikanstest ved (en eller) to stikprøver
Virtuelle verdener og rum III. 20. februar Konstruktion af 3D-verdener Primærlitteratur: Peter Anders: ”Cybrids” med reference til hans bog, ”Envisioning.
EKSAMEN BUSINESS TO IT ALIGNMENT 2013 Pensum: Curtis R Carlson and William W Wilmot: “Innovation The 5 disciplines for creating what customers want”, Crown.
Digitale biblioteker og web 2.0
ETU 2008 | Elevtilfredshedsundersøgelse Erhvervsskolen Nordsjælland HTX (Teknisk Gymnasium) - Hillerød Baseret på 313 besvarelser.
1 HMAK XMLRelationel model og XMLNOEA / PQC 2005 SQLServer og XML Hent data via URL Generering af xml –Raw –Auto –Explicit Hent data via template Evt.
Rankering - principperne  Rankering = sortering efter relevans –Relevans? –Hvis relevanskriterier?  Rankering – det valgte kriterie –Topical relevance.
Globaliseringsredegørelsen 24.mar. 14 Figurer fra Danmark tiltrækker for få udenlandske investeringer i Sådan ligger landet
Matematik B 1.
Claus Brabrand, ITU, Denmark Mar 10, 2009EFFECTIVE JAVA Effective Java Presentation Workshop Claus Brabrand [ ] ( “FÅP”: First-year Project.
MSBuild & Team Build i C#/C++ solutions VSTS ERFA d. 25 November.
Rapporter (Access, del 5). RHS – Informationsteknologi – Udgangspunkt Vi har oprettet en database Vi har defineret en eller flere tabeller, og.
Grunde til at jeg elsker dig
E-læring, sprog og integration DGI byen 22. marts 2006 Mads Bo-Kristensen.
Fundamentale datastrukturer
Opslagsfelter (Access, del 6). RHS – Informationsteknologi – Udgangspunkt Vi er ofte i den situation, at valg af en type for et felt ikke begrænser.
Introduktion til Access (Access, del 1). RHS – Informationsteknologi – Fra design til udvikling Vi ved nu, hvordan vi finder et design for en database,
DIEB14.1 Kursusgang 14 Tidsforbrug til en usability-evaluering Oversigt: Sidste kursusgang Opgaver Aktiviteter Erfaringer med tidsforbrug Instant Data.
Employer Branding, Gå-hjem-møde, ASBccc 7. maj 2008 Employer Branding Gå-hjem-møde, 7. maj 2008 Helle Kryger Aggerholm, ph.d.-studerende Mona Agerholm.
Slide Copyright © 2007 Pearson Education, Inc. Publishing as Pearson Addison-Wesley Chapter 15 Algorithms for Query Processing and Optimization.
1 Fundamentale datastrukturer. 2 Definitioner: abstrakt datatype, datastruktur Elementære datastrukturer og abstrakte datatyper : arrays, stakke, køer,
Kursusintroduktion Elektronisk Patient Journal?. Kursusbeskrivelsen – formål: Viden om informationssystemer på hospitaler/sygehuse – specielt billeddannende.
DIEB4.1 Kursusgang 4 Oversigt: Sidste kursusgang Opgaver Aktivitet 2: Generer design (fortsat) Design af interaktionselementer.
1 Kap. 4, Jordens Tyngdefelt = Torge, 2001, Kap. 3. Tyngdekraftens retning og størrelse g (m/s 2 ) Acceleration Tyngdepotentialet (W): evene til at udføre.
Problemløsningsheuristik I.1 1.Hvad er det (i min problemstilling) som jeg ikke ved endnu? Dvs. hvad leder jeg efter (og hvorfor er det vigtigt/interessant.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Usability ITU, efterår Informations arkitektur ITU Efterår 2007.
Kjeld Svidt  Institut for Byggeri og Anlæg  Aalborg Universitet IT i Byggeriet Semester 6, kursusgang Databaser (1) Kjeld Svidt
9. Interfaces. 2 Nordjyllands Erhvervakademi Objectives “Good class design starts with good application design — how many classes, do they relate.
Unified Modeling Language
DB analyse og modellering Jesper Tørresø DAB1 F Februar 2008.
DIEB12.1 Kursusgang 12 Feedback fra en usability-evaluering Oversigt: Sidste kursusgang Opgaver Feedback Are Usability Reports Any Good? Alternativer til.
DIEB10.1 Kursusgang 10 Oversigt: Sidste kursusgang Eksempler på løsning af opgaven Arkitektur for brugergrænsefladen og for systemet Dokumentation af designet.
On the Essential Contexts of Artefacts or on the Proposition that ”Design Is Making Sense (of Things)” Af Klaus Krippendorff 1989.
Database Some walk through lv/ Figures & some text from: © Pearson Education Limited 1995,
Præsentationens transcript:

Princippet om polyrepræsentation: teori, eksperimenter og erfaringer Mette Skov og Birger Larsen Danmarks Biblioteksskole Temadag om Udviklingstendenser indenfor indeksering og repræsentation, 3. oktober 2007

2 Disposition Princippet om polyrepræsentation - et kognitivt perspektiv på IR Empiriske undersøgelser af polyrepræsentation Repræsentationer af informationsrummet (dokumenter og informationssystemer) Repræsentationer af brugerens kognitive rum Konklusion af nuværende undersøgelser Hvad kan vi bruge resultaterne til? Og hvad er næste skridt?

3 Det kognitive synspunkt Princippet om polyrepræsentation er forankret i det kognitive synspunkt, hvor information retrieval & seeking (IR&S) opfattes som processer og kognition (bl.a. Ingwersen 1996; Ingwersen & Järvelin, 2005) Holistisk tilgang hvor kognitive strukturer fra alle komponenter og aktører i IR&S processen indgår, f.eks. forfattere, indeksører og designere af tesauri, databaser og brugergrænseflader Det medfører stor variation af forskellige kognitive repræsentationer og fortolkninger indenfor én og samme søgesituation

4 Kognitiv model af centrale komponenter i IS&R Social Context Information objects IT: Engines Logics Algorithms Interface Cognitive Actor(s) (team) Org. Cultural =Cognitive transformation and influence over time = Interactive communication of cognitive structures Information IR Social Interaction Retrieval Social context Social Context Information objects IT: Engines Logics Algorithms Interface Cognitive Actor(s) (team) Org. Cultural =Cognitive transformation and influence over time = Interactive communication of cognitive structures Information IR Social Interaction Retrieval Social context

5 Hypotesen om polyrepræsentation Motivationen bag princippet om polyrepræsentation er at udnytte variationer af kontekst som indgår i en interaktiv IR proces (Ingwersen, 1996; Ingwersen og Järvelin, 2005) Dvs. udnytte den store variation af (allerede eksisterende) repræsentationer til at optimere søgning Jo flere kognitivt og funktionelt forskellige repræsentationer, der peger på dokumenter i såkaldte kognitive overlap, desto større er sandsynligheden for at dokumenterne er relevante

6 Polyrepræsentation i forskellige sammenhænge Request Version … Task / Problem Description … defined cognitive overlap in X defined cognitive overlap in X COGNITIVEOVERLAPfrom Engine X Engine X defined … rank/ cognitive overlap Engine Y defined … rank/ cognitive overlap TOTALCOGNITIVEOVERLAP Engine P defined … PX PY XY COGNITIVE OVERLAP CITATIONS In-links to titles authors & passages AUTHOR(s) Text - images Headings Captions Titles References Out-links THESAURUS structure INDEXERS Class codes Descriptors Document type Weights SELECTORs Journal name Publication year Database(s) Corporate source Country Informationsrummet: dokumenter (2 eksperimenter) Informationsrummet: IR systemer (1 eksperiment) Brugerens kognitive rum (1 eksperiment)

7 Polyrepræsentation af dokumentrepræsentationer Skov et al. (2006) udnyttede fire forskellige dokument- repræsentationer Variation m.h.t.: Forskellige kognitive ophav (TI/AB vs. MJ og MN) Samme kognitive ophav men funktionelt forskellige (TI/AB og RF) Titel/abstracts (TI/AB) Referencer (RF) Major MeSH (MJ) og Minor MeSH (MN) MN RF TI/AB MJ OL1 OL4OL3 OL7 OL10 OL8 OL9 OL2 OL5 OL11 OL6 MN AB TI RF

8 Polyrepræsentation af dokument- repræsentationer (Skov et al.) Formål: Empirisk undersøgelse af hvorvidt udnyttelse af kognitivt og funktionelt forskellige repræsentationer kan optimere søgning? Data: CF-testsamlingen (1239 poster fra Medline), 4 dok- repræsentationer, 29 topics, best match og Boolesk søgning (InQuery-systemet) Metode: Identifikation af alle kognitive overlaps mellem repræsentationerne ved anvendelse af to typer af søgninger (naturligt sprog og struktureret sprog)

Resultater – overlaps Minor MeSH (mn) Referencer (rf) Titel/abstract (ti/ab) Major MeSH (mj) Natural languageHighly structured All relevant Highly relevant # docPrecisionRecall# docPrecisionRecallPrecisionRecall OverlapABCDEGFH OI1(ti/ab,mj,mn,rf)12641%5%5869%4%53%6% Ol2(ti/ab,mj,mn)66813%8%10042%4%20%4% Ol3(ti/ab,mj,rf)10148%4%6679%5%45%6% Ol4(ti/ab,mn,rf)24029%6%6862%4%47%7% Ol5(mj,mn,rf)30% 1164%1%45%1% Ol6(ti/ab,mj)70212%7%13145%5%22%6% Ol7(ti/ab,mn)17619%14%21027%5%13%6% Ol8(ti/ab,rf)15289%12%16227%4%19%6% Ol9(mj,mn)1416%1%4226%1%14%1% Ol10(mj,rf)633%0%1638%1%19%1% Ol11(mn,rf)4221%1%6824%2%16%2% Ol12(ti/ab)162012%25%77012%8%5%8% Ol13(mj)10610%1%10927%3%12%3% Ol14(mn)6034%2%33617%5%7%5% Ol15(rf)8725%4%24586%12%2%10%

Resultater – overlaps Minor MeSH (mn) Referencer (rf) Titel/abstract (ti/ab) Major MeSH (mj) Natural languageHighly structured All relevant Highly relevant # docPrecisionRecall# docPrecisionRecallPrecisionRecall OverlapABCDEGFH OI1(ti/ab,mj,mn,rf)12641%5%5869%4%53%6% Ol2(ti/ab,mj,mn)66813%8%10042%4%20%4% Ol3(ti/ab,mj,rf)10148%4%6679%5%45%6% Ol4(ti/ab,mn,rf)24029%6%6862%4%47%7% Ol5(mj,mn,rf)30% 1164%1%45%1% Ol6(ti/ab,mj)70212%7%13145%5%22%6% Ol7(ti/ab,mn)17619%14%21027%5%13%6% Ol8(ti/ab,rf)15289%12%16227%4%19%6% Ol9(mj,mn)1416%1%4226%1%14%1% Ol10(mj,rf)633%0%1638%1%19%1% Ol11(mn,rf)4221%1%6824%2%16%2% Ol12(ti/ab)162012%25%77012%8%5%8% Ol13(mj)10610%1%10927%3%12%3% Ol14(mn)6034%2%33617%5%7%5% Ol15(rf)8725%4%24586%12%2%10%

11 Resultater og konklusion (Skov et al.) Generelt bekræftes hypotesen om polyrepræsentation. Jo flere repræsentationer der peger på et dokument desto højere præcision Struktureret søgning giver højere præcision end søgning i naturligt sprog Struktureret søgesprog er nødvendigt pga. polyrepræsentations boolske natur Query expansion i tesaurus er nødvendigt for at sikre kvalitet og undgå tomme overlap Overlap, hvor referencer indgår, har højere præcision end dem uden. Dette understreger vigtigheden af at inkludere kognitivt forskellige repræsentationer

12 Kompleks polyrepræsentation: Boomerangeffekten Kombination af princippet om polyrepræsentation og søgning via citationer Citationssøgning kan give gode resultater med gode kildedokumenter, men disse kan være svære at få fat i Idé: brug polyrepræsentation til at identificere kildedokumenter automatisk Udforsket i ph.d.-projekt (Larsen, 2004) Tager udgangspunkt i emnesøgninger i videnskabelige dokumenter Udtrækker og vægter referencer, og laver en fremadrettet citationssøgning med disse kildedokumenter 2 versioner: en Boolesk og en best match

Boomerangeffekten Step 1 documents Step 3 documents OL = Overlap Level Step 2 citations i ii iii I II III IV OL3 OL2 OL1 OL2 OL1 (OL0) TI AB DE iv Fra Larsen (2004), s. 82 = Ranking with threshold

14 Boomerangeffekten: resultater Den Booleske version gav meget lovende resultater 4 repræsentationer (TI, AB, ”ID”, basic index), 3 work tasks, 100 dokumenter bedømt per task (Larsen, 2002) Højere precision i indre overlap: hele vejen op, og både i step 1 og step 3. Mange ekstra relevante dokumenter fundet Best match versionen gav gode resultater, men ikke bedre end baseline 11 repræsentationer (TI, AB, AU keywords, figur- og tabel, intro. + konkl., citerede titler, citationsindeks, DE og ID) Del af INEX: XML dokumenter, 23 work tasks 2 baselines: bag-of-words og ustruktureret polyrep uden citationer

Boomerangeffekten: best match Baseline (bag-of-words) klarede sig bedst Både boomerang og polyrep. påvirkes kraftigt af antallet af top-dokumenter i step 1 Results for the ‘generalized’ INEX2002 scoring function RunAvgP boomerang (H/ff/32) polyrepresentation bag-of-words0.0606

16 Boomerangeffekten, refleksioner Struktureret (=Boolesk) fungerede godt, ustruktureret knap så godt Polyrep Boolesk af natur? Polyrep continuum? For mange / for dårlige repræsentationer? Struktur nødvendigt? UnstructuredStructured The Polyrepresentation Continuum Exact match Sets Overlaps Pseudo-ranking Best match Thresholds Fusion of ranks Continuous ranking

Polyrepræsentation af IR systemer Lund (speciale, 2005) undersøgte kombinationer af de 12 bedste TREC5 systemer med 30 topics (40+ relevante dokumenter) Kognitivt forskellige systemer (nogle mere end andre) En slags ”data fusion”: Ekstra vægt til dokumenter i overlap Fuse12: top-100 inverteret og summeret over alle 12 systemer med boosting for dokumenter i overlap (100x, 90x, …) Fuse4;3a;3b;3c…: Samtlige mulige overlap mellem de 4 bedste systmer Supersystem: fordi Fuse4 ofte fandt mindre end 100 dokumenter, blev Fuse 3a etc slået samen i et supersystem (mix af vægte) Engine X defined … rank/ cognitive overlap Engine Y defined … rank/ cognitive overlap TOTALCOGNITIVEOVERLAP Engine P defined … PX PY XY

Polyrepræsentation af IR systemer Med mange relevante dokumenter per topic klarer polyrepræsentation sig bedre end input systemerne (ved top-100) Fusioner at de 3-5 bedste systemer var bedre end det bedste input systemer: Når kognitivt forskellige systemer blev kombineret var performance signifikant bedre Når kognitivt lignende systemer blev kombineret faldt performance Konklusioner ’Blødgøring’ af de Booleske sæt fungerede godt: tilføjelse af overlap fra lavere niveauer gav gode resultater Stor samling med mange dokumenter  flere dokumenter i overlap? Baseret på Lund, Schneider & Ingwersen (2006)

Polyrep. af brugernes kognitive rum Mange muligheder (se Ingwersen & Järvelin, 2005, p. 335 ff) Kelly, Dollu & Fu (2005) undersøgte udtrækning og kombination af forskellige funktionelle repræsentationer af brugernes kognitive rum ved at stille 4 spørgsmål i interfacet: Q1: Hvor mange gange har du tidligere søgt på emnet; Q2: Beskriv hvad du allerede ved om emnet (16,18 ord); Q3: Hvorfor er interesseret i at vide noget om emnet (10,67 ord); Q4: Kan du give ekstra ord der beskriver emnet (3,3 ord) Ord fra svarene blev kombineret og sammenlagt på forskellige måder med højere vægte for gentagne termer = ikke meget struktur Request Version … Task / Problem Description … defined cognitive overlap in X defined cognitive overlap in X COGNITIVEOVERLAPfrom Engine X

20 Polyrep. af brugernes kognitive rum Del af TREC 2004 HARD track: 13 søgere, 45 tasks med relevance vurderinger Anvendte clarification forms med Q1-Q4 til at kontekstualisere tasks Meget interessante resultater: Alle enkeltvise Q og Q-kombinationer klarede sig bedre end baselinen Alle ord (BL+Q2+Q3+Q4) gav bedst resultater af alle Meget stærk korrelation mellem query-længde og performance “...probing users with different, but related questions might elicit most robust and useful problem descriptions.” (p. 463) Kelly, Dollu & Xin Fu (2005) giver meget stræk støtte til polyrepræsentation af brugernes kognitive rum  flere forsøg med mere avancerede vægtninger af overlap

21 Konklusioner og vejen frem Princippet om polyrepræsentation giver en teoretisk ramme for at udnytte mange forskellige typer af indeksering til at opnå bedre resultater Mange hypoteser kan genereres og der er en teori at fortolke resultaterne i forhold til Er holistisk og inddrager både system- og brugersiden Ser ud til at fungere også empirisk i delkomponenter Mangler endnu tests der kombinerer bruger og systemsiden (forventning om gode resultater) Kan lede til meget komplekse kombinationer…

22 Konklusioner og vejen frem Næste skridt Erfaringsopsamling med en lang række forskellige data  vigtigt for tuning af algoritmer Flere laboratorietests af kombinationer af dokumenter og informationssystemer Laboratorietests med brugerdata og brugere Tests af implementering i operationelle miljøer Undersøge applikation på federated/intergrated search Tests af berigelse af bibliografiske poster (lektørudtalelser, anmeldelser, logdata)

23 Tak for opmærksomheden

24 Referencer Ingwersen, P. (1996). Cognitive perspectives of informationretrieval interaction: elements of a cognitive IR theory. Journal of Documentation, 52(1), Ingwersen, P. & Järvelin, K. (2005). The turn: integration of information seeking and retrieval in context. Springer. Kelly, D., Dollu, V.D. & Xin Fu.: The loquacious user: A document-independent source of terms for query expansion. In: Proceedings of the 28th Annual ACM SIGIR Conference on Research and Development in Information retrieval. ACM Press, New York NY (2005) Larsen, B. (2002): Exploiting citation overlaps for information retrieval: generating a boomerang effect from the network of scientific papers. Scientometrics, 54(2), Larsen, B. (2004): References and citations in automatic indexing and retrieval systems : experiments with the boomerang effect. Copenhagen: Royal School of Library and Information Science. XIII, 297 p. (PhD dissertation) [ Lund, B.R., Schneider, J.W. & Ingwersen, P. (2006). Impact of relevance intensity in test topics on IR performance in polyrepresentative exploratory search systems. In: White, Ryen, Muresan, G. & Marchionini, G. (eds.), Evaluating Exploratory Search Systems, Proceedings of the SIGIR 2006 EESS Workshop: Skov, M., Larsen, B. & Ingwersen, P. (2006): Inter and intra-document contexts applied in polyrepresentation. In: Proceedings of the first symposium on Information Interaction in Context (IIiX), October, 2006, Copenhagen, Denmark.