MapReduce implementationer MapReduce Hadoop Apache open source projekt.

Slides:



Advertisements
Lignende præsentationer
Supersøgerne i syvende
Advertisements

Videregående pc-vejledning Modul 04: Windows-elementer 60+Bornholm.
SEO (Search Engine Optimization) - Hvordan bliver du mere synlig på nettet?
TEST 2 modul 1 20 spørgsmål. Du skal klikke med musen på det rigtige svar, så kommer du automatisk til næste spørgsmål Klik for start.
Introduktion til HTML Formularer V1 introduktion til formularer Den sidste af HTML strukturmarkørerne er FORM-markøren, der bruges til at lave.
Grundlæggende IT Lektion 4 Sådan virker pc’en
Blogs for Bibliotekarer Du ka’ godt!. Dagens program •Hvem er vi? •Hvorfor er vi her? •Hvad er en blog? •Hvorfor skal vi bruge blogs? •Hvordan kan vi.
1 Problemkompleksitet 2 Problemers kompleksitet En ineffektiv algoritme: køretiden vokser eksponentielt med input- størrelsen Et problem, der ikke kan.
Introduktion til HTML Hypertekst referencer. Uden links – Hypertekst referencer – intet world wide web. World wide web er et Hypermedium….. Link definition.
Søgeord og konverteringer En webtekst skal på samme tid skabe synlighed i søgemaskinerne og motivere brugerne til at udføre en handling, vi som afsendere.
IT i Byggeriet Semester kursusgang Introduktion til projektweb og html Kjeld Svidt Kjeld Svidt  Institut for Bygningsteknik  Aalborg.
Dagsorden Kildekritik Litteraturliste Søgestrategi/søgeprofil Søgeord
Vejledning i blog-værktøjet WordPress Opdateret februar 2009.
1 Internetsøgning •Niveau 3 for Korte- og Mellemlange videregående uddannelser.
Avanceret Informationssøgning It-biblioteket, marts 2007 Underviser: Marie U.
Perspektiverende Datalogi Internetalgoritmer MapReduce Gerth Stølting Brodal.
TEST 3 modul 1 20 spørgsmål. Du skal klikke med musen på det rigtige svar, så kommer du automatisk til næste spørgsmål Klik for start.
Pc-kørekort Sådan virker pc’en Keld Hinsch.
Dag 9: Programpakker Jquery og JQuery Mobile
SEO PÅ AU.
Krav til funktionalitet i fremtidens flådestyringssystem
Web question answering Is more always better? (Artikel 14)
Google logo – 24. august Google logo – 24. august 2011.
Fra Internet til semantisk web via taksonomier AF:Hosein Askari ITST.
Tema 3: Web-crawler Udvikle Web-crawler, som tager en URI som input og besøger samtlige sider på siten som URI’en peger på. Fx –
Intro Variabler - datatyper. 2. forelæsning Hvad skete sidste gang Hvad er PHP? Kursussammensætning: læse – newsgroup – forelæsning – øvelsestime – aflevering.
PhiStore A Distributed and Policy Based Object Store.
Tietgen Skolen Kvalitet og kvalitetssikring Review Test.
e-Tinglysning WebService Arkitektur
Webserveren kan afvikle flere applikationer, der hver har deres eget selvstændige ”liv” og hukommelse. Den enkelte applikation består typisk af flere elementer.
Ældre Sagen Funktionen ”Send til” inkl. Brænd en CD 1. Du får dette billede når du højreklikker på, mapper, dokumentfiler, billedfiler, lydfiler m.fl.
Begreber og Redskaber 8. Plan for idag Sortering fortsat Comparable Søgning –Lineær søgning –Binær søgning.
XML1 4.7 XML and Its Data Model. XML2 Introduktion til XML, 178 XML = eXtensible Markup Language Markup language –sprog, hvor data "pakkes ind" i tags.
1 Webdesign - De første trin Grundliggende begreber Internettet (1969-): En fællesbetegnelse for netværk eller tjenester der benytter samme.
Intro Bemærkninger? Præsentation af litteratur: PHP and MySQL Web Development (SAMS) PHP Pocket Reference (O’Reilly) Dictionary of Networking (Sybex)
Indhold 1.Hvad er MATRIX Mobil 2.Menu Valg 3.Installation 4.Adgang.
Perspektiverende Datalogi Internetalgoritmer MapReduce Gerth Stølting Brodal.
1 Program 8.30:Hvordan finder jeg de gode bøger? 9.10:Pause 9.20: Internettet – hvad er det? 9.40: Hvor og hvordan finder jeg de gode sider på nettet?
1 HMAK XMLRelationel model og XMLNOEA / PQC 2005 SQLServer og XML Hent data via URL Generering af xml –Raw –Auto –Explicit Hent data via template Evt.
Stig Irming-Pedersen ASP.NET MVC Partner Copenhagen Software.
ALEPH og XML. eLib Seminar 18 – 19 november 2004 ALEPH og XML Status  Print system arbejder med XML lignende mellem filer.  Færdige printfiler kan gemmes.
Algoritmer og Datastrukturer 1 Gerth Stølting Brodal Aarhus Universitet.
Google Earth som GIS applikation? Nikolaj Kamstrup National Geodatabank, Kort & Matrikelstyrelsen.
W1b1 PC baseret analyse og simulering. w1b2 Definition Digital Elektronisk beregningsmaskine, der har intern hukommelse til lagring af program og mellem-regninger.
Algoritmer og Datastrukturer 1 Gerth Stølting Brodal.
Implementering Innovation er risikofyldt, og selv med en meget detaljeret og omfattende strategi og et godt forarbejde kan det gå Galt, hvis udførelsen.
Perspektiverende Datalogi Internetalgoritmer Gerth Stølting Brodal.
Webserveren kan afvikle flere applikationer, der hver har deres eget selvstændige ”liv” og hukommelse. Den enkelte applikation består typisk af flere elementer.
PC - Vedligeholdelse Hvordan gør jeg Pc’en sikker og hurtig igen ? En kronologisk gennemgang.
Digital kommunikation og æstetik i praksis 1. maj Søgemaskiner og optimering.
1 Kursusafslutning. 2 Plan Opgaveseminar Kursusevaluering.
Perspektiverende Datalogi 2011 Internetalgoritmer Gerth Stølting Brodal Christian S. Jensen Erik Meineche Schmidt Niels Olof Bouvin.
IT i Byggeriet Semester kursusgang Introduktion til projektweb og html Kjeld Svidt Kjeld Svidt  Institut for Bygningsteknik.
DIEB4.1 Kursusgang 4 Oversigt: Sidste kursusgang Opgaver Aktivitet 2: Generer design (fortsat) Design af interaktionselementer.
Intro Siden sidst: evaluering på opgaver og virtuel kursus.
Fremstilling af Simple WEB steder [ITPL] Foråret 2004
C#: Udtryk og metoder Kilde: Joe Hummel. 2 Nordjyllands Erhvervakademi – 2008 Indhold “With regards to programming statements and methods, C# offers what.
Kjeld Svidt  Institut for Byggeri og Anlæg  Aalborg Universitet IT i Byggeriet Semester kursusgang Introduktion til projektweb og html Kjeld.
Algoritmer og Datastrukturer 1 Gerth Stølting Brodal.
Algoritmer og Datastrukturer 2 Gerth Stølting Brodal Suffiks træer [GT, kapitel 9.2], Suffiks arrays [Smyth, kapitel 5.3.2]
Web services SOA, SOAP og WSDL. Disposition Inledning / Definition SOAP Standard SOAP Beskeder WSDL.
23. juni 2015 Det Semantiske Web Mads Carlsen. 23. juni 2015 Problemer med det nuværende Internet Ingen semantiske specifikationer. Søgning giver mange.
Algoritmer og Datastrukturer 1 Gerth Stølting Brodal Aarhus Universitet.
Corpus Linguistics Used to Explore New Fields Birthe Mousten M.Engl. Ph.D. 7. oktober 2015.
Sådan programmerer du arduino via Atmel Studio Af Orla Utoft Sørensen Mercantec.
Forskningsdata management
Interaktion og usability
Tre lags arkitektur.
Dokumentation.
En trin-for-trin guide
Præsentationens transcript:

MapReduce implementationer MapReduce Hadoop Apache open source projekt

Parallelle Programmer Traditionelt specielt udviklede programmer for hvert problem man ønsker at løse – mange ikke-trivielle detaljer omkring parallel programmer – fejl-tolerance (ved 1000’er af maskiner fejler maskiner regelmæssigt) – fordeling af data blandt maskiner – balancering af arbejdet blandt maskiner MapReduce interfacet (, 2003) – håndter ovenstående automatisk – meget begrænsede kommunikation mellem maskiner – algoritmen udføres i Map og Reduce faser

MapReduce Brugeren skal definere to funktioner map (k1,v1)  List ( (k2,v2) ) reduce (k2,List (v2))  List (v2) Eksempel: Antal forekomster af ord i en tekstsamling (” ”der var en gang en...”)  (”der”, ”1”), (”var”, ”1”), (”en”, ”1”), (”gang”, ”1”), (”en”, ”1”)... (” ”en lang gang...”  (”en”, ”1”), (”lang”, ”1”), (”gang”, ”1”),... (”en”, (”1”, ”1”, ”1”))  (”en 3”) (”gang”, (”1”, ”1”))  (”gang 2”)... Output fra en map-reduce kan være input til den næste map-reduce map reduce

MapReduce map reduce Map-opgaverne ligger spredt ud på maskinerne (i et GFS hvor data typisk er replikleret 3 gange) Hver maskine udfører et antal uafhængige map-opgaver 1 2 Sorter alle parene – varetages automatisk a MapReduce biblioteket Hver Reduce-opgave ender samlet på en maskine En reduce-opgave løses sekventielt på én maskine (mulig FLASKEHALS ) Hver maskine udfører et antal uafhængige reduce-opgaver Output er en delliste af det samlede output 3 Master = en maskine der 1.planlægger og fordeler opgaverne 2.genstarter døde/hængene opgaver på andre maskiner (” ”der var en gang en...”)  (”der”, ”1”), (”var”, ”1”), (”en”, ”1”), (”gang”, ”1”), (”en”, ”1”)... (” ”en lang gang...”  (”en”, ”1”), (”lang”, ”1”), (”gang”, ”1”),... (”en”, (”1”, ”1”, ”1”))  (”en 3”) (”gang”, (”1”, ”1”))  (”gang 2”)...

En søgemaskines dele Indsamling af data Webcrawling (gennemløb af internet) Indeksering data Parsning af dokumenter Leksikon: indeks (ordbog) over alle ord mødt Inverteret fil: for alle ord i leksikon, angiv i hvilke dokumenter de findes Søgning i data Find alle dokumenter med søgeordene Rank dokumenterne

Input:List ( (URL, tekst) ) Output:List ( (Ord, URL’er) ) Inverteret fil Map (URL, tekst)  (ord 1, (ord 1, URL)),..., (ord k, (ord k, URL)) Reduce (ord, ((ord, URL 1 ),...,(ord, URL m )) )  ( (ord, URL 1 +∙∙∙+ URL m ) )

Input:List ( (i, j) ) Output:List ( (i, indgrad(i)) ) Indgrad af alle siderne Map (i, j)  ( j, (j, 1) ) Reduce (i, ((i, 1), (i, 1),...,(i,1)))  ( (i, k) ) k = indgrad(i)

Input:((1, x 1 ),...,(n, x n )) Ouput:( sum(x 1,..., x n ) ) Sum Map (i, x i )  (0, x i ) Reduce (0, (x 1,..., x n ))  ( x 1 +∙∙∙+ x n ) Map (i, x i )  (random(1..R), (i, x i )) Reduce (r, ((i 1, x i 1 ),..., (i k,x i k )))  ( (r, x i 1 +∙∙∙+ x i k ) ) R ≈ antal maskiner 1 2

Input:List( (i, j) ) Ouput:List( (i, p i (s) ) ) Afleveringsopgave: PageRank