Download præsentationen
Præsentation er lastning. Vent venligst
Offentliggjort afMartin Iversen Redigeret for ca. et år siden
1
Tema 3: Web-crawler Udvikle Web-crawler, som tager en URI som input og besøger samtlige sider på siten som URI’en peger på. Fx –http://public.noea.dk/fen/testsite/http://public.noea.dk/fen/testsite/
2
Hvad er en web-crawler ? En crawler en del af en søgemaskine, hvor hver besøgt side undersøges for en given søgestreng Spam agent, der besøger en site og indsamler alle e-mail adresser på siten Her skal HTML dokumenter gennemsøges for links. En site-map bygges, hvor siderne er knuder og links er kanter.
3
Faglige emner Grafer HTML Simpel parsning http og tcp Design mønstre
4
Grafer Til repræsentation af grafen benyttes en orienteret graf, hvor siderne svarer til knuder og links til kanter.
5
HTML Hver side som crawleren besøger er et HTML dokument. HTML dokumentet skal undersøges for links-tags – Prentice Hall http://www.prenhall.com Frames betragtes som selvstændige HTML sider
6
Simpel parsning I den simple udgave gennemsøges HTML dokumentet for links ved brute force Oplagt at undersøge andre muligheder som tilstandsmaskiner, regulære udtryk og rekursiv nedstigning
7
Kommunikation Kommunikation foregår ved.NETs socketsklasse HTTP og TCP URI, URL m.v.
8
Designmønstre Hvor det er relevant kan designmønstre anvendes
9
Programmet Graph Html Http Crawler
11
Graf-pakken
12
Kommunikationspakken
13
HTML pakken
14
Testsite http://public.noea.dk/fen/testsite/
15
Plan for dagene Dag1 –Arbejde med praktisk brug af http fra C#. (PT, PQC) Dag2 –Arbejde med forskellige parsningsteknikker og html. (PQC, (PT)) Dag3 –Arbejde med praktisk html-parsning, kobling til http-klassen. (PQC, (PT)) Dag4 –Binde graf-, html- og http-delene sammen. Selve Crawler- algoritmen. (PT) Dag 5 –Færdiggørelse og forberedelse af præsentation (PT). Evaluering mandag d. 4maj. (PT, PQC)
16
Evaluering Intet skriftligt, hver gruppe præsenterer deres resultat (klassemodel, designovervejelser) ved powerpoints og demo (ca. 15 min.) derefter diskussion af løsning – herunder kikke kode Hvis man ikke deltager i evalueringen skal materialet afleveres skriftligt
Lignende præsentationer
© 2024 SlidePlayer.dk Inc.
All rights reserved.