Datalogiafdelingen, hus 42.1 Roskilde Universitetscenter Universitetsvej 1 Postboks 260 4000 Roskilde Telefon: 4674 2000 Fax: 4674 3072 www.dat.ruc.dk.

Slides:



Advertisements
Lignende præsentationer
Relationer En relation mellem to mængder er en generaliseret funktion
Advertisements

Hvad er LP- modellen? En model til pædagogisk analyse og tiltagsudvikling udviklet ud fra forskningsbaseret viden. Lærerne tager udgangspunkt i udfordringer.
Regelaften Regeludvalget De nyeste ændringer Hulspilsregler
Undervisningsplanlægning
Kim Lyng Madsen Lau Kingo Marcussen
Relationsstyper En-til-en relationer: TABEL 1 NAVN ID Peter Hansen 1
Formularer (Access, del 3)
MIA - CAD Gennemgang af MIA-måleblade (eksempel) Først generel intro
Anders Vest Christiansen
Organisering og navigation John Paulin Hansen September 04 Usability.
Introkursus Køn og ligestilling i udviklingsarbejdet OPFRISKNING AF BEGREBER FRA DAG 1 August 2011.
Steven D. Whitehead Long-Ji Lin. Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning.
Fra Internet til semantisk web via taksonomier AF:Hosein Askari ITST.
Organisationstruktur
Velkommen til Hvordan vises skolens værdier bedst muligt i SkolePorten? SkolePortens fleksibilitet kan medvirke til at understøtte skolens værdier. Oplægget.
Beskrivelses- og analyse-teknikker understøttet af Oracle Designer Del 2 af 2: Proces- og funktionsdiagrammering Aalborg Universitet, d. 9. oktober 2006.
Frank Bjergø Data, Web og Text Mining konsulent
10.1 Mathiassen, Munk-Madsen, Nielsen & Stage, 2000 © Komponenter Oversigt, principper og teknikker Kapitel 10.
Struktur og processer I alle studier af innovationssucceser og fiaskoer er det konstateret, at de største årsager til manglende succes er: 1.Manglende.
Team En gruppe er en samling mennesker, der Har fælles mål
1 Dagens gang Repeter systemvalg Gennemgang af klasser og strukturer (kap. 3+4 OOA+D) Tavle opgave Gruppe opgave til næste gang.
07.1 Mathiassen, Munk-Madsen, Nielsen & Stage, 2001 © Funktioner Oversigt, principper og teknikker Kapitel 7.
Algoritmer og Datastrukturer 1 Binære Søgetræer [CLRS, kapitel 12] Gerth Stølting Brodal.
FEN Rekursion og induktion1 Induktion og (især) rekursion Mange begreber defineres ud fra en basis og så en gentagen anvendelse af et antal regler.
Secret Key kryptering – teknikker og problemer INTRODUKTION TIL KRYPTERING.
Operationer på relationer
Datastrukturer og Collections Rasmus D. Lehrmann DM
Multi-vejs hobe med ekstra bytes Foredrag: Claus Jensen Projektmedlemmer: Jyrki Katajainen, Fabio Vitale, Claus Jensen.
Den relationelle model
1 Sortering I elementære metoder. 2 Plan Terminologi Elementære metoder til sortering -sortering ved udvælgelse -sortering ved indsættelse -Shellsort.
1 Opgave 29 ”Statistisk Sikkerhed for Ei ” Kjeld Tyllesen Erhvervsøkonomi / Managerial Economics Kjeld Tyllesen, PEØ, CBS.
Der koncentreres i denne serie (nr. 1 af 2) på markante skift fra terrænlæsning til planlægningsorientering. Det er ikke helt det samme som skift fra fin-
1 Vi ser nu på en general graf Men antager at alle afstande er heltallige (Det er ikke så restriktivt) Algoritmen leder efter den mindst mulige dækningsdistance.
Rapporter (Access, del 5). RHS – Informationsteknologi – Udgangspunkt Vi har oprettet en database Vi har defineret en eller flere tabeller, og.
Spørgetime. Kunde / konto eksemplet Konto åbnet( ) Beløb indsat( , 100) Konto åbnet( ) Beløb hævet ( , ) Beløb indsat( ,
1 Design, analyse og verifikation. 2 Design Bevisteknikker Design ved hjælp at matematisk induktion Analyse O-notation Logaritmer Binær søgning Verifikation.
Statistik for geografer
Algoritmer og Datastrukturer 1 Binære Søgetræer [CLRS, kapitel 12] Gerth Stølting Brodal.
1 Sortering. 2 Sortering ved fletning (merge-sort) 7 2 | 9 4  | 2  2 79 | 4   72  29  94  4.
DIEB4.1 Kursusgang 4 Oversigt: Sidste kursusgang Opgaver Aktivitet 2: Generer design (fortsat) Design af interaktionselementer.
Algoritmer og Datastrukturer 1 Binære Søgetræer [CLRS, kapitel 12] Gerth Stølting Brodal Aarhus Universitet.
Introduktion til netværk Hidtil: Lokalisering i planen Nu: Lokalisering i et netværk Hvad er et netværk - knuder - kanter.
Usability ITU, efterår Informations arkitektur ITU Efterår 2007.
Semantik, model teori Et (formalt) sprog har ingen mening indtil man interpreterer dets forskellige (korrekte) udtryksformer (vff’s) mhp. en bestemt situation.
KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Den relationelle model
Introduktion til BeREAL BeREAL – baggrund  Stort fokus på bygningers energiforbrug, men … – Energiforbrug i nybyggeri er højere end forventet.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Brugerundersøgelse Brugssituationen Dataindsamlingsmetoder Spørgeskema
Workshop om evaluering 19. januar FORMÅL OG PROGRAM Blive klædt lidt bedre på til at planlægge og gennemføre evalueringer Udgangspunkt i akkrediteringskravene,
Formularer (Access, del 3). RHS – Informationsteknologi – Udgangspunkt Vi har oprettet en database Vi har defineret en eller flere tabeller Vi.
Sproglig opmærksomhed & sproglig bevidsthed. Forudsætninger for at lære sprog Input - en forudsætning for at kunne finde mønstre og for at have noget.
Flemming B. Olsen, Tornbjerg 1 Lektier - i ny didaktisk belysning.
Målgrupper og segmentering
Kommunikation Kommunikationskanaler 2 Hjemmesider 3 Reklamer 4
Den multiple regressionsmodel 21. september 2005
Abstraktioner.
Velkommen til Atroseskolen
Videnskabeligt projekt
Algoritmer og Datastrukturer 1 Amortiseret Analyse [CLRS, kapitel 17]
Algoritmer og Datastrukturer 1
Algoritmer og Datastrukturer 1 Amortiseret Analyse [CLRS, kapitel 17]
Metoden brugerstyret behandling
Grundlæggende Algoritmer og Datastrukturer
Information om Aula til forældre
Præsentationens transcript:

Datalogiafdelingen, hus 42.1 Roskilde Universitetscenter Universitetsvej 1 Postboks Roskilde Telefon: Fax: Henrik Bulskov Styltsvig Efterår 2003 Data Mining

Henrik Bulskov Styltsvig2Efterår 2003 Målsætning Data Mining Forudsigelse Beskrivelse Klassifikation Regression Temporale serierClustering Associationsregler Sekvenser

Henrik Bulskov Styltsvig3Efterår 2003 Forudsigelse Ved at tage udgangspunkt i kendt viden ønskes viden om fremtidige mønstre Hvis man skal markedsføre et nyt produkt, hvem er så målgruppen? Hvilke varer skal placeres tæt på hinanden i et supermarked? Hvornår på året er det bedst at reklamere for et bestemt produkt?

Henrik Bulskov Styltsvig4Efterår 2003 Forudsigelse - Nøjagtighed og dækning Nøjagtighed (accuracy) og dækning (coverage) bruges til at beskrive sikkerheden i forudsigelsen. Nøjagtighed beskriver hvor ofte de behandlede data opfylder forudsigelsen når betingelsen er opfyldt. Dækning beskriver hvor stor del af en gruppering der dækkes. IF opsparing = ja & alder = & indkomst = 40-59K THEN gruppering 1 {nøjagtighed = 0.8, dækning = 0.5}

Henrik Bulskov Styltsvig5Efterår 2003 Beskrivelse Ønsket om at forstå eksisterende informationer på en ny måde At udlede viden/mønstre fra eksisterende informationer, som ikke er allerede er kendt Associationerne mellem emneord i afleveringsopgaven er et eksempel på dette

Henrik Bulskov Styltsvig6Efterår 2003 Similaritet For at kunne udføre data mining er det nødvendigt med en mulighed for at afgøre om/hvor meget to elementer ligner hinanden. Numeriske værdier er naturligvis simple, men for booleske værdier og kategoriseringer skal der dannes mulighed for similaritet.

Henrik Bulskov Styltsvig7Efterår 2003 Indlæring Kontrolleret indlæring Læring hvor indlæringsprocessen kontrolleres og tilpasses facit Målet er at danne den model der bedst beskriver de givne informationer Ukontrolleret indlæring Læring hvor resultatet ikke er kendt på forhånd Målet er en model der beskriver ny viden over de givne informationer

Henrik Bulskov Styltsvig8Efterår 2003 Nearest Neighbor Nærmeste nabo er den simpleste form for data mining. Den tager sit udgangspunkt i at noget der er placeret tæt på hinanden også har noget til fælles. Danner ikke generelle beskrivelser, men gruppere instanser.

Henrik Bulskov Styltsvig9Efterår 2003 Nearest Neighbor Nærmeste nabo er den simpleste form for data mining. Den tager sit udgangspunkt i at noget der er placeret tæt på hinanden også har noget til fælles. Danner ikke generelle beskrivelser, men gruppere instanser. BA

Henrik Bulskov Styltsvig10Efterår 2003 Nearest Neighbor Nærmeste nabo er en af de simpleste former for data mining. Den tager sit udgangspunkt i at noget der er placeret tæt på hinanden også har noget til fælles. Danner ikke generelle beskrivelser, men gruppere instanser.

Henrik Bulskov Styltsvig11Efterår 2003 Nearest Neighbor Nærmeste nabo er den simpleste form for data mining. Den tager sit udgangspunkt i at noget der er placeret tæt på hinanden også har noget til fælles. Danner ikke generelle beskrivelser, men gruppere instanser.

Henrik Bulskov Styltsvig12Efterår 2003 Nearest Neighbor Nærmeste nabo er den simpleste form for data mining. Den tager sit udgangspunkt i at noget der er placeret tæt på hinanden også har noget til fælles. Danner ikke generelle beskrivelser, men gruppere instanser. A B

Henrik Bulskov Styltsvig13Efterår 2003 K-nearest neighbor Løsningen er ikke kun at kigge på den nærmeste nabo, men at udvælge k naboer som grundlag for bestemmelse af naboskabet. A B

Henrik Bulskov Styltsvig14Efterår 2003 Nearest Neighbor Kan ikke bruges til at afgøre hvilke attributter der skal anvendes. Er meget følsom for irrelevante attributter. Er forholdsvis beregnings tung, hvilket dog kan optimeres ved at anvende prototypiske instanser som beskrivelse. Giver ikke en generalisering af data, men der kan dannes generelle beskrivelser af klasserne ved at betragte en mængde af de mest typiske instanser i klasserne.

Henrik Bulskov Styltsvig15Efterår 2003 Clustering Clustering er en metode til gruppering af data, uden på forhånd at kende noget til data. Ofte anvendes clustering når der ønskes et overblik over en given datamængde. Målet for en clustering kan både være at samle similar elementer i segmenter, eller at finde elementer der ikke passer ind – skiller sig ud.

Henrik Bulskov Styltsvig16Efterår 2003 Clustering – formel definition Database D = {t 1, t 2, …, t n } K = antallet af clusters ƒ : D  {1, …, k} hvor hver t i er indeholdt i cluster K j, 1 ≤ j ≥ k. Et cluster k j indeholder netop de tupler som kan tildeles med ƒ, hvilket er k i = {t i | ƒ(t i ) = k j, 1 ≤ j ≥ k og t i D}.

Henrik Bulskov Styltsvig17Efterår 2003 Clustering Hierarkisk Sammenhobningopsplitning Partition

Henrik Bulskov Styltsvig18Efterår 2003 Clustering - similaritet

Henrik Bulskov Styltsvig19Efterår 2003 Clustering - centrum Centroid × × Mediod

Henrik Bulskov Styltsvig20Efterår 2003 Clustering - similaritet Single Link Mindste afstand mellem et element i en cluster og et element i en anden. Complete Link Største afstand mellem et element i en cluster og et element i en anden. Average Den gennemsnitlige afstand mellem et element i en cluster og et element i en anden. Centroid Afstanden mellem centrum i en cluster og centrum i en anden. Mediod Afstanden mellem centerelementet i en cluster og centerelementet i en anden

Henrik Bulskov Styltsvig21Efterår 2003 Clustering - Hierarkisk Sammenhobning opsplitning

Henrik Bulskov Styltsvig22Efterår 2003 Clustering - partition Giver kun en mængde af clusters. Der gives det antal clusters der ønskes. 19 elementer kan deles i 4 clusters på måder!!! Squared error K-Means Nearest neighbor PAM(partition around mediods)

Henrik Bulskov Styltsvig23Efterår 2003 Decision Trees DT er ofte anvendt til klassifikation. Udgangspunktet er en database med {A 1, …, A n } attributter og {K 1, …, k n } klasser. Hver knude (ikke blade) har en attribut som etiket. Hver kant er et prædikat der kan tildeles til forældre knudens attribut. Hver blad-knude har en klasse som etiket.

Henrik Bulskov Styltsvig24Efterår 2003 Decision Trees Målet med DT er at hver knude deler søgemulighederne i to lige store dele. Valg af splittende attributter Valget af hvilke attributter der skal anvendes til at opdele efter kræver analyse af træningsdata og ofte inddragelse af ekspert viden. Rækkefølgen af splittende attributter Rækkefølgen er vigtig, idet rækkefølgen bestemmer dybden af træet.

Henrik Bulskov Styltsvig25Efterår 2003 Decision Trees Antallet af gang der skal opdeles Ved simple attributter, såsom køn, er det oplagt hvor mange delinger en given attribut behøver, men ved mere komplekse domæner kan det være meget vanskeligt at afgøre. Træ strukturen Et balanceret træ med mindst højde er at fortrække Stop betingelser Optimalt skal der først stoppes når træningsdata er perfekt klassificeret, men det kan være nødvendigt at stoppe før ved store træer.

Henrik Bulskov Styltsvig26Efterår 2003 Decision Trees Træningsdata Strukturen i DT bestemmes af træningsdata, er disse for små er træet måske ikke generelt nok, mens det hvis datamængden er for stort måske bliver overfittet. Beskæring Efter dannelse af et DT kan det være nødvendigt at modificere strukturen af optimeringshensyn.

Henrik Bulskov Styltsvig27Efterår 2003 Neural Networks NN bliver ofte brugt til klassifikation. Målet er at afgøre hvilket output der kan forventes fra et givent input. NN skal oplæres med træningsdata. NN er robust overfor støj og manglende input NN kan fortsætte med at lære efter den egentlig træningsfase. For at benytte NN skal antallet af output knuder afgøres, og hvilke attributter der skal benyttes i input.

Henrik Bulskov Styltsvig28Efterår 2003 Neural Networks En simple neuron kan modtage flere input giver et enkelt output.

Henrik Bulskov Styltsvig29Efterår 2003 Neural Networks I McCulloch and Pitts model vægtes input. Det er netop disse vægte der benyttes under indlæring.

Henrik Bulskov Styltsvig30Efterår 2003 Neural Networks Et neuralt netværk er normalt opbygget af input og output neuroner samt et eller flere skjulte lag af neuroner.

Henrik Bulskov Styltsvig31Efterår 2003 Neural Networks

Henrik Bulskov Styltsvig32Efterår 2003 Neural Networks Aktiveringsfunktion Aktiveringsfunktionen bestemmer hvilke mønstre det neurale netværk kan genkende. Ofte anvendes logistiske funktioner. Læringsrate Læringsraten bestemmer hvor store udsving der kan være i indlæringsprocessen. Små udsving betyder en længere læringsproces og fare for at finde lokale minimum, for store udsving fare for at overse mønstret. Antal neuroner Antallet af neuroner bestemmer hvor mange attributter netværket kan inddrage. Problemet med for mange er overfitting, mens for få kan give et for generelt netværk.

Henrik Bulskov Styltsvig33Efterår 2003 Neural Networks NN er vanskelige at forstå og overskue. Det er vanskeligt at udlede regler fra NN. Input skal være numerisk. Testning af NN er omfattende Det er vanskeligt at verificere NN Det er måske ikke mulig at få et NN til at konvergere Det kan være kostbart at anvende NN

Henrik Bulskov Styltsvig34Efterår 2003 Associationsregler Associationsregler er implikationer. Implikationerne kan være komplekse IF A & B & C  Z IF A & B  X & Z & Q Selvom associationsregler er implikationer er disse ikke kausale.

Henrik Bulskov Styltsvig35Efterår 2003 Associationsregler Nøjagtighed Dækning RegelNøjagtighedDækning If breakfast cereal purchased then milk purchased. 85%20% If bread purchased then Swiss cheese purchased. 15%6% If 42 years old and purchased pretzels and purchased dry roasted peanuts then beer will be purchased. 95%0,01%

Henrik Bulskov Styltsvig36Efterår 2003 Associationsregler Beskrivelse Makroniveau – kan beskrive sammenhænge mellem attributter og kan opsummere. Mikroniveau – Meget detaljerede regler kan udledes og specifikke konsekvenser undersøges. Forudsigelser Regler kan også benyttes til forudsigelser. Hver regel kan benyttes til forudsigelse og konsekvensen og nøjagtigheden definere udfaldet og forudsigelsens nøjagtighed.