Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Tema 3: Web-crawler Udvikle Web-crawler, som tager en URI som input og besøger samtlige sider på siten som URI’en peger på. Fx –http://public.noea.dk/fen/testsite/http://public.noea.dk/fen/testsite/

Lignende præsentationer


Præsentationer af emnet: "Tema 3: Web-crawler Udvikle Web-crawler, som tager en URI som input og besøger samtlige sider på siten som URI’en peger på. Fx –http://public.noea.dk/fen/testsite/http://public.noea.dk/fen/testsite/"— Præsentationens transcript:

1 Tema 3: Web-crawler Udvikle Web-crawler, som tager en URI som input og besøger samtlige sider på siten som URI’en peger på. Fx –http://public.noea.dk/fen/testsite/http://public.noea.dk/fen/testsite/

2 Hvad er en web-crawler ? En crawler en del af en søgemaskine, hvor hver besøgt side undersøges for en given søgestreng Spam agent, der besøger en site og indsamler alle e-mail adresser på siten Her skal HTML dokumenter gennemsøges for links. En site-map bygges, hvor siderne er knuder og links er kanter.

3 Faglige emner Grafer HTML Simpel parsning http og tcp Design mønstre

4 Grafer Til repræsentation af grafen benyttes en orienteret graf, hvor siderne svarer til knuder og links til kanter.

5 HTML Hver side som crawleren besøger er et HTML dokument. HTML dokumentet skal undersøges for links-tags – Prentice Hall http://www.prenhall.com Frames betragtes som selvstændige HTML sider

6 Simpel parsning I den simple udgave gennemsøges HTML dokumentet for links ved brute force Oplagt at undersøge andre muligheder som tilstandsmaskiner, regulære udtryk og rekursiv nedstigning

7 Kommunikation Kommunikation foregår ved.NETs socketsklasse HTTP og TCP URI, URL m.v.

8 Designmønstre Hvor det er relevant kan designmønstre anvendes

9 Programmet Graph Html Http Crawler

10

11 Graf-pakken

12 Kommunikationspakken

13 HTML pakken

14 Testsite http://public.noea.dk/fen/testsite/

15 Plan for dagene Dag1 –Arbejde med praktisk brug af http fra C#. (PT, PQC) Dag2 –Arbejde med forskellige parsningsteknikker og html. (PQC, (PT)) Dag3 –Arbejde med praktisk html-parsning, kobling til http-klassen. (PQC, (PT)) Dag4 –Binde graf-, html- og http-delene sammen. Selve Crawler- algoritmen. (PT) Dag 5 –Færdiggørelse og forberedelse af præsentation (PT). Evaluering mandag d. 4maj. (PT, PQC)

16 Evaluering Intet skriftligt, hver gruppe præsenterer deres resultat (klassemodel, designovervejelser) ved powerpoints og demo (ca. 15 min.) derefter diskussion af løsning – herunder kikke kode Hvis man ikke deltager i evalueringen skal materialet afleveres skriftligt


Download ppt "Tema 3: Web-crawler Udvikle Web-crawler, som tager en URI som input og besøger samtlige sider på siten som URI’en peger på. Fx –http://public.noea.dk/fen/testsite/http://public.noea.dk/fen/testsite/"

Lignende præsentationer


Annoncer fra Google