Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Web question answering Is more always better? (Artikel 14)

Lignende præsentationer


Præsentationer af emnet: "Web question answering Is more always better? (Artikel 14)"— Præsentationens transcript:

1 Web question answering Is more always better? (Artikel 14)

2 Introduktion Ideen Mængden af data relevant Jo flere gentagelser – jo mere sandsynlighed for et korrekt svar TREC QA – Text REtrieval Conference, Question Answering track Ex. På et typisk spørgsmål: How tall is Mount Everest? Faktum baserede spørgsmål med korte svar

3 Betydning af redundansen Simple omskrivninger af forespørgsler Jo større mængde – jo større sandsynlighed for at finde en sætning som let kan forbindes til et spg. Eksempel på forbindelser: ”Who killed Abraham Lincoln?” ”John Wilkes Booth altered history with a bullet. He will forever be known as the man who ended Abraham Lincolns life” ”John Wilkes Booth killed Abraham Lincoln”

4 Betydning af redundansen 2 Redundans kan forbedre effektiviteten Eksempel: ”How many times did Bjorn Borg win Wimbledon?” 1. Bjørn Borg blah blah Wimbledon blah blah 5 blah 2. Wimbledon blah blah blah Bjorn Borg blah 37 blah 3. blah Bjorn Borg blah blah 5 blah blah Wimbledon 4. 5 blah blah Wimbledon blah blah Bjorn Borg Da 5 går igen flest gange er der sandsynlighed for at det er et muligt svar

5 Overblik over systemet Søgemaskinen kan være en internet søgemaskine (stor redundans) men ikke et krav Summaries er et begrænset output fra en given søgemaskine – ikke fuldtekst N-grams små grupper af sandsynlige svar

6 Overblik over systemet 2 Omskrivning af forespørgsel (”rewrite…”) Dannelse af et antal relevante del-strenge 7 spg. Kategorier (who,what,how…), 1-5 omskrivningstyper Output: 3-tupler [streng,V/H/-,vægt] Streng - Den omformulerede forespørgsel V/H/- - Hvor man forventer at svaret er (- er hvor som helst) Vægt- Vægt (præcise forespg. får højest vægt) Verber bliver forsøgt placeret alle steder i sætningen Simpel streng manipulation (vs en konkret parser) Høj præcision ” Peter was born on” lav: ”Peter AND born”

7 Overblik over systemet 3 Udtræk af N-grams (”mine…”) Output fra forespørgsler behandles ud fra info i 3-tuplerne Resulterer i et antal grupper af ord á 1-3 stk. Eks: ”Who created the character of Scrooge” -> dickens, christmas carol… etc. Vægten afgører point og point summeres op hvis n-gram’et findes andre steder. (Ikke flere steder i samme output) Kun et stopord i svar-kandidater (n-grams). In, on, is …

8 Overblik over systemet 4 Filtrering/genvægtning (”...reweight…”) Hånd skrevne filtre genvægter n-grams (ca. 15 ud fra kendskab til spg.) Hæver point for potentielle svar eller fjerner irrelevante Kombination af overlappende n-grams Eks: ”A B C” ”B C D” -> ”A B C D” Output fra tidl.: ”Charles Dickens, A christmas carol…” Fuldtekst ineffektiv pga. tidsfaktor

9 Afprøvning Input: Google og dokumentsamling fra TREC Forespørgsler: præ definerede fra TREC-9 med små ændringer Resultat evaluering: NumCorrect, PropCorrect, MRR Upræcise forespørgsler dominerer v. mange snippets Om evaluering: Større MRR er bedre 1-1000 resultater fra søgemaskine Standard er 100 Størst stigning mellem 1 og 50 Peak ved 200 Mængde af bytes kun betydelig fra 1-500 herefter ubetydelig

10 Afprøvning 2 TREC vs Web databaser (lidt vs meget) Forespørgsler kun med upræcise AND omskrivninger TREC klarer sig mindre godt (ca. 1 million dokumenter stor) Google klarer sig godt (www og stor redundans) Forf. Mener at det er størrelsen på databasen som har betydning og at de andre forespørgsels omskrivninger vil gøre forskellen større Lidt flere resultater ved kombination af Web1 og TREC Forklaring Contigous: Mindste resultat med ord fra forespørgsel og 10 ord på hver side (kontekst) Non-Contigous: Union af 2 ord og 10 ord på hver side (kontekst) Web1 = google, Web2 =MSN

11 Mulige tiltag Tuning til mindre data mængder Mere sofistikeret sproganalyse Bedre vægtning så upræcise queries ikke får dominerende rolle ved store mængder snippets Bedre behandling af stop-ord Forske i bedre generering af snippets (output fra forespørgsler)

12 Afrunding Lignende arbejde er foretaget, med mere ressourcekrævende metoder (full text og avanceret sprog analyse mm.) En fordel at kunne bruge størrelsen af www til andet end store mængder forvirrende svar på forespørgsler


Download ppt "Web question answering Is more always better? (Artikel 14)"

Lignende præsentationer


Annoncer fra Google