Web question answering Is more always better? (Artikel 14)

Slides:



Advertisements
Lignende præsentationer
Kombinatorik, sandsynlighed og statistik
Advertisements

Questions and answers Spørgsmål og svar © mw.
Program – 10.00: opsamling på cases og innovationsdage - hvor er vi med vores cases? - hvad mangler vi for at komme videre? – 11.00: Innovation.
Omskrivning med ”to do”
Ordstilling Ordstilling er bl.a. rækkefølgen af grundled og udsagnsled i en sætning. Hvis grundleddet står før udsagnsleddet, taler vi om ligefrem ordstilling.
Kombinatorik, sandsynlighed og statistik
IceQuery™ Nyt liv til dine Queries
Bytte   PowerPoint  .
1 Internetsøgning •Niveau 3 for Korte- og Mellemlange videregående uddannelser.
Interessenter og interessentanalyse
How to boost students´ vocabulary via reading
Challenges in Web Search Engines • Spam • Content Quality • Quality Evaluation • Web Conventions • Duplicate Hosts • Vaguely-Structured Data.
De skriftlige eksamensopgaver i engelsk
MapReduce implementationer MapReduce Hadoop Apache open source projekt.
Perspektiverende Datalogi Internetalgoritmer MapReduce Gerth Stølting Brodal.
I believe in Drama!. Hvad er PhyEmoC? Action!  Dynamik og god stemning fanger elevernes opmærksomhed  Fremme spontanitet og kreativitet  Fjerne elevens.
NP struktur - Eller hvordan engelsk er nominelt, mens dansk er verbalt.
SDMT-SMV Workshop 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet
SEO PÅ AU.
1 The Case Research Strategy in Studies of Information Systems Af:Izak Benbasat, David K. Goldstein og Melissa Mead Publiceret: MIS Quaterly i 1987.
Anden information Bettina Dahl Søndergaard Lektor Hvad er svært ved beviser for gymnasieelever - og kan vi gøre noget ved det? Fredag den 18. marts 2011.
Fagets Informations Teknologi Introduktion til Programmering i Java For Industri, Global Forretningsudvikling, samt fri studie aktivitet ved Bent Thomsen.
Fra Internet til semantisk web via taksonomier AF:Hosein Askari ITST.
Søgning - et værktøj til videndeling Inspirationsseminar 31. oktober 2006.
Avanceret søgning i Google
Introduktion til Access (Access, del 1)
SAPA netværksmøde den 10. juni 2014
Kan nationalregnskabet måle produktiviteten i den offentlige sektor?
Program Korrelation Gamma Pearsons r Regression Kausalitet 1.
PBJ Consult A/S – Mere end et systemhus HR i øjenhøjde
Secret Key kryptering – teknikker og problemer INTRODUKTION TIL KRYPTERING.
Tilgængelighed og registering. Helt fra bunden ICA - Universal Declaration on Archives Siger bl.a. Beskytte folkets rettigheder, Etablere individuelle.
Borgerinitiativet i historisk/politisk kontekst, Europahuset den 18 juni 2010 Marlene Wind, PhD, Professor Institut for Statskundskab Københavns Universitet.
Undersøgelse af voksnes smerter efter Tonsillectomi.
Perspektiverende Datalogi Internetalgoritmer MapReduce Gerth Stølting Brodal.
1 HMAK XMLRelationel model og XMLNOEA / PQC 2005 SQLServer og XML Hent data via URL Generering af xml –Raw –Auto –Explicit Hent data via template Evt.
Sociology and social media af: Mads, Emil, Caspar og Jos.
Christian Backer Mogensen, Poul Kjældgaard, Charlotte Jensen and Ming Chen, Akutforskningsenheden, Sygehus Sønderjylland MRSA screening in ED detects a.
SÆLG DIG SELV! Du kan støde ind i en kommende arbejdsgiver, når du mindst venter det. Derfor er det en god idé at være forberedt på at sælge dig selv.
KOMPLEKSITET og CONTENT Medier og Kommunikation
Forberedelse 2.0 ”Store your knowledge in your Friends” © UFFE SØRENSEN.
SQL Jesper Tørresø DAB1 E oktober Punkter for i dag. SQL baggrund. Relationel algebra. Brug af VS2005.
Introduktion til databaser (databaser, del 1)
Statistik for geografer
Usability 24. marts Tilgængelighed 2. Dagens øvelse 3. Spørgsmål.
DATATYPER. For at tilpasse hvert felt i databasen til dets formål og dermed øge funktionalitet 1 bit er tilstrækkelig til at angive køn (0/1) men for.
Modul 1 Rød løber (E). Spilleregler for dagen Ingen pauser Byrge, C. & Hansen, S. (2009). The creative platform: A new paradigm for teaching creativity,
Kombinatorik, sandsynlighed og statistik
’Card sort’ Kort sortering  Om ’Usability testing’  Praktisk information vedr. øvelserne  Dagens øvelse  Aflevering af testrapporter  Diverse.
Digital kommunikation og æstetik i praksis 1. maj Søgemaskiner og optimering.
Introduktion.
HVORFOR ?. Services HVORFOR ? Services IU Tuition fees and scholarships Whether you are required to pay tuition fees will depend on your country of.
SQL Jesper Tørresø DAB1 E September Punkter for i dag. SQL baggrund. Relationel algebra. SQL koncept –Vises ved brug af VS2008.
SQL Server konsolidering i Nordea Maiken Bjørn Jensen 5. september 2002  Mainframe baggrund – Siemens/BS2000, CA/IDMS  Ansat i Nordea september 1996.
XML 2. Formatering af XML data med CSS Når man arbejder med XML og CSS er fremgangsmåden den samme som i forbindelse med HTML og CSS.
SQL – Oracle Vigtige SQL sætninger Lektion 6 7. Semester.
Kombinatorik, sandsynlighed og statistik
Database.
Interview service in Statistics Denmark Structure and Surveys.
3. time Her beskæftiger vi os med John F. Sowas forklaring af erfaringsviden. John F. Sowa.
Dansk Data Arkiv Hans Jørgen Marker IASSIST 2005 DDI and Data Hans Jørgen Marker Senior Researcher Dansk Data Arkiv
23. juni 2015 Det Semantiske Web Mads Carlsen. 23. juni 2015 Problemer med det nuværende Internet Ingen semantiske specifikationer. Søgning giver mange.
Århus, 8. april Integral Spiritualitet - og kristen tradition
KFUM-Spejderne i Danmark General assembly KFUM-Spejderne i Danmark Conditions time spent in the conference hall should be minimized everybody should.
IT-dag den 6/8 Present.me. Present.me - intro Hvad er Present.me? Present.me er et præsentationsredskab Tre muligheder: PowerPoint+lyd PowerPoint+video.
Database Some walk through lv/ Figures & some text from: © Pearson Education Limited 1995,
Introduction to synopsis writing
I Herrens Hænder In the hands of God 4 vers
Algoritmer og Datastrukturer 1
- 30 minutters oplæg - 30 minutters ordet er jeres
Præsentationens transcript:

Web question answering Is more always better? (Artikel 14)

Introduktion Ideen Mængden af data relevant Jo flere gentagelser – jo mere sandsynlighed for et korrekt svar TREC QA – Text REtrieval Conference, Question Answering track Ex. På et typisk spørgsmål: How tall is Mount Everest? Faktum baserede spørgsmål med korte svar

Betydning af redundansen Simple omskrivninger af forespørgsler Jo større mængde – jo større sandsynlighed for at finde en sætning som let kan forbindes til et spg. Eksempel på forbindelser: ”Who killed Abraham Lincoln?” ”John Wilkes Booth altered history with a bullet. He will forever be known as the man who ended Abraham Lincolns life” ”John Wilkes Booth killed Abraham Lincoln”

Betydning af redundansen 2 Redundans kan forbedre effektiviteten Eksempel: ”How many times did Bjorn Borg win Wimbledon?” 1. Bjørn Borg blah blah Wimbledon blah blah 5 blah 2. Wimbledon blah blah blah Bjorn Borg blah 37 blah 3. blah Bjorn Borg blah blah 5 blah blah Wimbledon 4. 5 blah blah Wimbledon blah blah Bjorn Borg Da 5 går igen flest gange er der sandsynlighed for at det er et muligt svar

Overblik over systemet Søgemaskinen kan være en internet søgemaskine (stor redundans) men ikke et krav Summaries er et begrænset output fra en given søgemaskine – ikke fuldtekst N-grams små grupper af sandsynlige svar

Overblik over systemet 2 Omskrivning af forespørgsel (”rewrite…”) Dannelse af et antal relevante del-strenge 7 spg. Kategorier (who,what,how…), 1-5 omskrivningstyper Output: 3-tupler [streng,V/H/-,vægt] Streng - Den omformulerede forespørgsel V/H/- - Hvor man forventer at svaret er (- er hvor som helst) Vægt- Vægt (præcise forespg. får højest vægt) Verber bliver forsøgt placeret alle steder i sætningen Simpel streng manipulation (vs en konkret parser) Høj præcision ” Peter was born on” lav: ”Peter AND born”

Overblik over systemet 3 Udtræk af N-grams (”mine…”) Output fra forespørgsler behandles ud fra info i 3-tuplerne Resulterer i et antal grupper af ord á 1-3 stk. Eks: ”Who created the character of Scrooge” -> dickens, christmas carol… etc. Vægten afgører point og point summeres op hvis n-gram’et findes andre steder. (Ikke flere steder i samme output) Kun et stopord i svar-kandidater (n-grams). In, on, is …

Overblik over systemet 4 Filtrering/genvægtning (”...reweight…”) Hånd skrevne filtre genvægter n-grams (ca. 15 ud fra kendskab til spg.) Hæver point for potentielle svar eller fjerner irrelevante Kombination af overlappende n-grams Eks: ”A B C” ”B C D” -> ”A B C D” Output fra tidl.: ”Charles Dickens, A christmas carol…” Fuldtekst ineffektiv pga. tidsfaktor

Afprøvning Input: Google og dokumentsamling fra TREC Forespørgsler: præ definerede fra TREC-9 med små ændringer Resultat evaluering: NumCorrect, PropCorrect, MRR Upræcise forespørgsler dominerer v. mange snippets Om evaluering: Større MRR er bedre resultater fra søgemaskine Standard er 100 Størst stigning mellem 1 og 50 Peak ved 200 Mængde af bytes kun betydelig fra herefter ubetydelig

Afprøvning 2 TREC vs Web databaser (lidt vs meget) Forespørgsler kun med upræcise AND omskrivninger TREC klarer sig mindre godt (ca. 1 million dokumenter stor) Google klarer sig godt (www og stor redundans) Forf. Mener at det er størrelsen på databasen som har betydning og at de andre forespørgsels omskrivninger vil gøre forskellen større Lidt flere resultater ved kombination af Web1 og TREC Forklaring Contigous: Mindste resultat med ord fra forespørgsel og 10 ord på hver side (kontekst) Non-Contigous: Union af 2 ord og 10 ord på hver side (kontekst) Web1 = google, Web2 =MSN

Mulige tiltag Tuning til mindre data mængder Mere sofistikeret sproganalyse Bedre vægtning så upræcise queries ikke får dominerende rolle ved store mængder snippets Bedre behandling af stop-ord Forske i bedre generering af snippets (output fra forespørgsler)

Afrunding Lignende arbejde er foretaget, med mere ressourcekrævende metoder (full text og avanceret sprog analyse mm.) En fordel at kunne bruge størrelsen af www til andet end store mængder forvirrende svar på forespørgsler