Rankering - principperne  Rankering = sortering efter relevans –Relevans? –Hvis relevanskriterier?  Rankering – det valgte kriterie –Topical relevance.

Slides:



Advertisements
Lignende præsentationer
Søgning efter en fil Du vil finde et Word dokument som du ikke kan huske hvor du har placeret men du kan huske et af ordene i dokumentet Du får dette.
Advertisements

Urtekram’sk VMI 13. April 2011 M3UG årsmøde 2011.
Dimensioner i refleksionsskabelon og introduktion til scoringer
Hvilken forskel skaber mest værdi for brugerne?
Velkommen til matematikkonference 7/3-13
Forsøgsskoleprojekt – med inspiration fra John Dewey
Anvendelsesorienteret undervisning – Pædagogisk It
A&B ANALYSEs Danmarkspanel - Foreningen ”Odinstårnet” -
UDVIKLINGSKATALOG - A •være mere direkte og krævende overfor andre •påtage sig nye varierede opgaver noget oftere •bruge sin autoritet noget mere •træffe.
Grundlæggende IT, niveau G
Projektforslag Keld Helsgaun.
Sprintdemo – kildeimplementering 25. februar 2011.
Peder Ohrt Uddannelsesnetværk  I Projekt Faglige Netværk er der udviklet 4 forskellige typer af virtuelle netværk som adskiller sig ved deres funktion,
JobPAS – En gennemgang PAS-koncepter og Basiskurser v. Steen Hilling, psykolog
1 Internetsøgning •Niveau 3 for Korte- og Mellemlange videregående uddannelser.
Information Systems work and Analysis of Change
MapReduce implementationer MapReduce Hadoop Apache open source projekt.
Perspektiverende Datalogi Internetalgoritmer MapReduce Gerth Stølting Brodal.
Strategi Interoperabilitet Web service – nye standarder danZIG-mødet Leif Andresen Biblioteksstyrelsen.
Mogens K. Skadborg exam.art.phil., MEVO Overlæge
Markedskommunikation - del 1
Array vs. ArrayList. Arrays Et array er en struktureret metode til at gemme flere værdier af den samme datatype. Data’en i et array ligger op ad hinanden.
R2 R5 A1 C1CC R3 R4 R1 Referencer som ikke er i databasen Vores oprindelige artikel Referencer til artikler som er i databasen Rel artikel C2 R= referencer.
Søg information til dit masterprojekt Workshop i litteratursøgning for studerende på masteruddannelsen FMOL v/ Filip Kruse og Mette Ahlers Marino F2013.
Intro Variabler - datatyper. 2. forelæsning Hvad skete sidste gang Hvad er PHP? Kursussammensætning: læse – newsgroup – forelæsning – øvelsestime – aflevering.
Søgning - et værktøj til videndeling Inspirationsseminar 31. oktober 2006.
Læseforståelses-pædagogik i et dsa-perspektiv
En portfolio er den bevidste indsamling og løbende vurdering af eller refleksion over undervisningens og læringens processer og produkter.
Søgning & sortering Intro søgning Lineær søgning Binær søgning
XML1 4.7 XML and Its Data Model. XML2 Introduktion til XML, 178 XML = eXtensible Markup Language Markup language –sprog, hvor data "pakkes ind" i tags.
GP5, Martin Lillholm 1 Grundlæggende Programmering (GP) Efterår 2005 Forelæsning 5 Slides ligger på nettet. Du er velkommen til at printe dem nu. Vi begynder.
Videregående pc-vejledning
Refleksioner og opsamling ift. i går
Arrays ● Arrangere erklærede ens datatyper ● Giver mulighed for indeksering med tal ● Valgfri størrelse ved oprettelse ● Er integreret i sproget/compileren.
Videnskabsteori - for begyndere 3g AT 2014
FEN Prædikater/Seminar 11 Prædikatslogik eller Kvantificerede udtryk Prædikater udvider propositionslogikken på to måder: –Vi tillader variable.
Øvelsesgang 1 - DWDK Rikke Poulsen. Timernes indhold supplement til læsningen og forelæsningen Jeres behov? Gennemgang af opgaverne? Andre emner, i vil.
Perspektiverende Datalogi Internetalgoritmer MapReduce Gerth Stølting Brodal.
DKABM VERSION 2 Ændringer i DKABM-format + afledte ændringer i indekser mv. august-september 2011.
Min første søgning for 4 – 5 klasse. Prøv Biblioteksbasen på
FOVITS: Informationshåndtering på nettet - sprogteknologiske løsninger 9933 RDF I XML og RDFS Costanza Navarretta Center for Sprogteknologi, Københavns.
1 Afsætningsfaglig metode
Opfølgning på obligatorisk opgave 1 ONK1. Ingeniørhøjskolen i Århus Slide 2 af 14 Overordnet Generelt rigtigt fine opgaver –Mange fyldt med gode overvejelser.
Jo mere man læser, jo tidligere bliver man en hurtig og sikker læser.
Udregning af UseCasePoints UCP = UUCP*TCF*EF UseCasePoint = Ujusteret Use Case Point * Tekniske Komplexitets Faktor * Miljø Mæssige Faktor.
Grafalgoritmer II.
1 Kursusafslutning. 2 Plan Opgaveseminar Kursusevaluering.
Testmetoder Der er to muligheder: a.at benytte folieleverandørens dokumentation (klasse RA1, RA2 og én eller flere af tabeller i ETA’ere) b.at kræve anvendelse.
Vinderholdet helt basale goder, såsom gratis mad og drikke - gode sove- og bademuligheder - at føle man er en del af et særligt fællesskab - at.
PD – kursusgang 3 Introduktion til Java Script. Mål Viden om hvordan JavaScripts indlejres i HTML dokumenter Viden om programmering i JavaScript  Erklæring.
GP4, Martin Lillholm 1 Grundlæggende Programmering (GP) Efterår 2005 Forelæsning 4 Vi begynder Slides ligger på hjemmesiden. Du er velkommen til.
Intro Siden sidst: evaluering på opgaver og virtuel kursus.
Den Kreative Platform I TIK 3
DAIMIIntroducerende objektorienteret programmering3B.1 Definition af klasser Klasseskelet, metoder, et eksempel: dato.
 Henrik B. Christensen, 1999Introducerende objektorienteret programmering8B.1 Interfaces En ren kontrakt.
DAIMIIntroducerende objektorienteret programmering4A.1 Kontrakter og Design Kontraktbaseret design, JavaDoc dokumentation.
 Jens Bennedsen 2001Multimedie programmering4.1 Definition af begreber Interface, implements, klasse.
DAIMIIntroducerende objektorienteret programmering4A.1 Kontrakter og Design Kontraktbaseret design, JavaDoc dokumentation,
DAIMIIntroducerende Objektorienteret Programmering8B.1 Interfaces En ren kontrakt.
Kapitel 6: Teorier om social ulighed – fokus på funktionalismen og Bourdieus teori om social ulighed Ulighedens mange ansigter – perspektiver på social.
01.1 Mathiassen, Munk-Madsen, Nielsen & Stage, 2001 © Objektorienteret Analyse & Design (OOA&D) Grundbegreber, principper og metode Kapitel 1.
Jeopardy Del 3: International økonomi. FrihandelProtektionismeØkonomisk integration Globaliseringens vindere Globaliseringens tabere
SEO-workshop LOF.dk 24. mar. 2017
1.09 Dokumentation.
Slagterbutikken - teori
Niveau 3: Regressionsanalyse: Tværsnitsundersøgelser
B-BOX ELEVHÆFTE til udvikling af nye aktivitetskort til B-boxen
Positive sider som far 1:____________________________ 2:____________________________ 3:____________________________ 4:____________________________ 5:____________________________.
Trivselsmodel Et adhoc udvalg har i 2018 arbejdet med ideer til, hvordan ÆS lokalafdelinger kan fremme trivsel blandt frivillige. I foråret 2019 overdrog.
Præsentationens transcript:

Rankering - principperne  Rankering = sortering efter relevans –Relevans? –Hvis relevanskriterier?  Rankering – det valgte kriterie –Topical relevance dvs. match på søgetermer  Fordele –Umiddelbart til at implementere i Solr-laget  Ulemper –a priori regler – søgeudtrykket afgørende

Scoring i Solr  Baseret på klassisk IR-teori (Vector Space Model)  Der dannes en relevansscore som afhænger af –Termfrekvensen (tf) –Den inverse dokumentfrekvens (idf) –Antallet af søgetermer fundet i dokumentet –Længdenormalisering  Nærmere beskrivelse kan findes i Lucenes dokumentation af Similarity-klassen  imilarity.html imilarity.html

Rankering i Solr  Specificeres i søgeøjeblikket dvs en dynamisk proces - query level boosting  Kan justeres live uden at man skal re-indeksere  Benytter sig af relevansscore-værdier i indekset –Høj relevansscore => høj relevans –Lav relevansscore => lav relevans  Implementeres som vægte der ganges på den relevansscore der er dannet under indekseringen  Kræver brug af en speciel queryHandler, dismax, som ikke forstår boolske udtryk

Muligheder med query boosting i Solr  Øgning af score for termer i udvalgte ord-felter eller frasefelter (qf pf operatorerne)  Fremhævelse af dokumenter som matcher flere termer (tie operatoren)  Fremhævelser af dokumenter baseret på hits på bestemte ord (bq operatoren)

Boost-værdierne er POSITIVE faktorer som ganges på relevans-scoren ParameterFormatVærdierNoter qf ^ dc.title^4 dc.creator^4 dc.subject^2 Værdien skal være > 0 og ganges på scoren pf ^ dc.title^8 dc.creator^8 dc.subject^3 Værdien skal være > 0 og ganges på scoren tie 0.1Værdien skal ligge i intervallet 0..1 bq( : )^ (dc.type:bog)^3Værdien skal være > 0 og ganges på scoren

Implementeringen i OpenSearch_0.12 rank[rank_general][word_boost]["dc.title"] = 3 rank[rank_general][phrase_boost]["dc.title"] = 6 rank[rank_general][word_boost]["dc.creator"] = 4 rank[rank_general][phrase_boost]["dc.creator"] = 8 rank[rank_general][word_boost]["dc.subject"] = 2 rank[rank_general][phrase_boost]["dc.subject"] = 3 rank[rank_general][word_boost]["cql.anyIndexes"] = 1 rank[rank_general][phrase_boost]["cql.anyIndexes"] = 1 rank[rank_general][tie] = 0.1

Et eksempel på udregning af score med boost – søgning på Martin Kongstad i kkb  Den dannede søgestreng –CQL to DISMAX: (Martin Kongstad) -> ((Martin Kongstad) AND _query_:"{!dismax qf='dc.title^3 dc.creator^4 dc.subject^2 cql.anyIndexes^1' pf='dc.title^6 dc.creator^8 dc.subject^3 cql.anyIndexes^1' tie=0.1}Martin Kongstad ")  Læg mærke til... –qf – ordsøgning –pf - frasesøgning

Martin Kongstad - resultat

Martin Kongstad - scoreværdier

Martin Kongstad – forklaring  Dengang i 80'erne Martin Kongstad & Henrik Vesterberg Vesterberg Henrik Kongstad Martin Hit på både ord- og frasesøgning  Han danser på sin... Kongstad Martin aut Kun hit på ordsøgning

Konsekvenser  Poster med mange forekomster af en søgeterm kommer højere op  Et fund i creator, title, subject får et boost  Der vægtes højt, hvis hele den søgte streng findes  Og endnu højere, hvis der er både ord- og frasesøgningshit samtidigt