Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Challenges in Web Search Engines • Spam • Content Quality • Quality Evaluation • Web Conventions • Duplicate Hosts • Vaguely-Structured Data.

Lignende præsentationer


Præsentationer af emnet: "Challenges in Web Search Engines • Spam • Content Quality • Quality Evaluation • Web Conventions • Duplicate Hosts • Vaguely-Structured Data."— Præsentationens transcript:

1 Challenges in Web Search Engines • Spam • Content Quality • Quality Evaluation • Web Conventions • Duplicate Hosts • Vaguely-Structured Data

2 Spam •”… for 85% of the queries only the first screen is requested.” • Stor interesse for sites i at fremtræde på første side (top 10) • Medfører at sites forsøger at manipulere deres position (ranking order) i søgeresultatet = Search Engine Spam • 3 metoder: • Text Spam • Link Spam • Cloaking

3 Text Spam Modificering af et teksten på et site, så den kommer til at fremtræde som værende mere relevant end den egentlig er • 2 metoder: • Gentag keywords mange gange (f. eks. nederst på siden) • Brug mange (også urelevante) keywords • Skjul keywords, eksempelvis ved at give dem samme farve som baggrundsfarven eller skriv det med en meget lille font- størrelse

4 Link Spam Tilføjelse af links, der peger på selvsamme side eller andre sider, der styres/ejes af forfatteren, i forsøg på at manipulere søgemaskinerne. • 2 metoder: • Link farm: Tilføj en masse links i bunden af siden • Doorway pages: Sider der udelukkende består af links.

5 Cloaking Det af brugere får præsenteret et andet indhold end en web crawler. • Egentlig ment som en hjælp til søgemaskinerne, da de får en text-only version af indholdet = nemmere for søgemaskinen at gennemskue.

6 Content Quality Hvor Spam er et bevidst forsøg på at misinformere, drejer Content Quality sig om en ubevidst måde at misinformere på. • Mange sider indeholder oplysninger der er forkerte og modsigende. • Mangler en metode til at bedømme korrektheden af indhold. • En mulig metode: Kig på anchor text.

7 Quality Evaluation Hvordan vurderes kvaliteten af de forskellige ”ranking algorithms”? • Den optimale metode: Få direkte feedback fra brugerne om de synes resultatet var tilfredsstillende og om de fandt det de ville. • Det gider brugeren ikke. I stedet henter man information om hvilke links brugeren trykkede på (click-through) og hvor lang tid de spenderede på siden. • Dette giver ingen information om brugeren fandt det han ville.

8 Web Conventions Ved udvikling af websites er der nogle ”conventions” som det forventes at forfatteren følger. For at forbedre søgeresultater, går søgemaskiner som regel ud fra disse conventions bliver fulgt. • Der nævnes 3 konventioner: • Anchor Text: Det formodes, at brugeren skriver en beskrivende tekst til et link. • Hyperlink: Det formodes, at når forfatteren inkluderer et link, er det fordi det er relevant i forhold til emner siden omhandler. • META: Det formodes, at forfatteren skriver et kort resumé af siden i et META-tag.

9 Duplicate Hosts Den samme information ligger ofte flere steder. Søgemaskinerne vil gerne undgå at indeksere de samme sider flere gange, da det tager lang tid og ikke giver ny information. • Duplicate host detection: Det at flere DNS-entries kan pege på den samme IP (server) eller pege på en anden IP (server), der har det samme indhold. • Mange sider baserer sig på dynamisk indhold. Det er derfor svært at ”se” om to sites indeholder det samme. • Brute Force: Sammenligner alle værts-par med hinanden. Ineffektiv. • DNS gætteri: Siden http://foo.com indeholder sandsynligvis det samme som http://foo.co.uk.http://foo.comhttp://foo.co.uk

10 Vaguely-Structured Data • Information gemt i databaser er meget struktureret. • Information i tekst-dokumenter er meget ustruktureret. • Webpages er Vaguely-Structured. • HTML tjener til en vis grad også et semantisk formål. • Søgemaskiner skal tage højde for semantikken og layout. • Mange fejl i markup er et tegn på en ”dårlig” side.


Download ppt "Challenges in Web Search Engines • Spam • Content Quality • Quality Evaluation • Web Conventions • Duplicate Hosts • Vaguely-Structured Data."

Lignende præsentationer


Annoncer fra Google