Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Datalogiafdelingen, hus 42.1 Roskilde Universitetscenter Universitetsvej 1 Postboks 260 4000 Roskilde Telefon: 4674 2000 Fax: 4674 3072 www.dat.ruc.dk.

Lignende præsentationer


Præsentationer af emnet: "Datalogiafdelingen, hus 42.1 Roskilde Universitetscenter Universitetsvej 1 Postboks 260 4000 Roskilde Telefon: 4674 2000 Fax: 4674 3072 www.dat.ruc.dk."— Præsentationens transcript:

1 Datalogiafdelingen, hus 42.1 Roskilde Universitetscenter Universitetsvej 1 Postboks 260 4000 Roskilde Telefon: 4674 2000 Fax: 4674 3072 www.dat.ruc.dk Henrik Bulskov Styltsvig Efterår 2003 Data Mining

2 Henrik Bulskov Styltsvig2Efterår 2003 Målsætning Data Mining Forudsigelse Beskrivelse Klassifikation Regression Temporale serierClustering Associationsregler Sekvenser

3 Henrik Bulskov Styltsvig3Efterår 2003 Forudsigelse Ved at tage udgangspunkt i kendt viden ønskes viden om fremtidige mønstre Hvis man skal markedsføre et nyt produkt, hvem er så målgruppen? Hvilke varer skal placeres tæt på hinanden i et supermarked? Hvornår på året er det bedst at reklamere for et bestemt produkt?

4 Henrik Bulskov Styltsvig4Efterår 2003 Forudsigelse - Nøjagtighed og dækning Nøjagtighed (accuracy) og dækning (coverage) bruges til at beskrive sikkerheden i forudsigelsen. Nøjagtighed beskriver hvor ofte de behandlede data opfylder forudsigelsen når betingelsen er opfyldt. Dækning beskriver hvor stor del af en gruppering der dækkes. IF opsparing = ja & alder = 29-39 & indkomst = 40-59K THEN gruppering 1 {nøjagtighed = 0.8, dækning = 0.5}

5 Henrik Bulskov Styltsvig5Efterår 2003 Beskrivelse Ønsket om at forstå eksisterende informationer på en ny måde At udlede viden/mønstre fra eksisterende informationer, som ikke er allerede er kendt Associationerne mellem emneord i afleveringsopgaven er et eksempel på dette

6 Henrik Bulskov Styltsvig6Efterår 2003 Similaritet For at kunne udføre data mining er det nødvendigt med en mulighed for at afgøre om/hvor meget to elementer ligner hinanden. Numeriske værdier er naturligvis simple, men for booleske værdier og kategoriseringer skal der dannes mulighed for similaritet.

7 Henrik Bulskov Styltsvig7Efterår 2003 Indlæring Kontrolleret indlæring Læring hvor indlæringsprocessen kontrolleres og tilpasses facit Målet er at danne den model der bedst beskriver de givne informationer Ukontrolleret indlæring Læring hvor resultatet ikke er kendt på forhånd Målet er en model der beskriver ny viden over de givne informationer

8 Henrik Bulskov Styltsvig8Efterår 2003 Nearest Neighbor Nærmeste nabo er den simpleste form for data mining. Den tager sit udgangspunkt i at noget der er placeret tæt på hinanden også har noget til fælles. Danner ikke generelle beskrivelser, men gruppere instanser.

9 Henrik Bulskov Styltsvig9Efterår 2003 Nearest Neighbor Nærmeste nabo er den simpleste form for data mining. Den tager sit udgangspunkt i at noget der er placeret tæt på hinanden også har noget til fælles. Danner ikke generelle beskrivelser, men gruppere instanser. BA

10 Henrik Bulskov Styltsvig10Efterår 2003 Nearest Neighbor Nærmeste nabo er en af de simpleste former for data mining. Den tager sit udgangspunkt i at noget der er placeret tæt på hinanden også har noget til fælles. Danner ikke generelle beskrivelser, men gruppere instanser.

11 Henrik Bulskov Styltsvig11Efterår 2003 Nearest Neighbor Nærmeste nabo er den simpleste form for data mining. Den tager sit udgangspunkt i at noget der er placeret tæt på hinanden også har noget til fælles. Danner ikke generelle beskrivelser, men gruppere instanser.

12 Henrik Bulskov Styltsvig12Efterår 2003 Nearest Neighbor Nærmeste nabo er den simpleste form for data mining. Den tager sit udgangspunkt i at noget der er placeret tæt på hinanden også har noget til fælles. Danner ikke generelle beskrivelser, men gruppere instanser. A B

13 Henrik Bulskov Styltsvig13Efterår 2003 K-nearest neighbor Løsningen er ikke kun at kigge på den nærmeste nabo, men at udvælge k naboer som grundlag for bestemmelse af naboskabet. A B

14 Henrik Bulskov Styltsvig14Efterår 2003 Nearest Neighbor Kan ikke bruges til at afgøre hvilke attributter der skal anvendes. Er meget følsom for irrelevante attributter. Er forholdsvis beregnings tung, hvilket dog kan optimeres ved at anvende prototypiske instanser som beskrivelse. Giver ikke en generalisering af data, men der kan dannes generelle beskrivelser af klasserne ved at betragte en mængde af de mest typiske instanser i klasserne.

15 Henrik Bulskov Styltsvig15Efterår 2003 Clustering Clustering er en metode til gruppering af data, uden på forhånd at kende noget til data. Ofte anvendes clustering når der ønskes et overblik over en given datamængde. Målet for en clustering kan både være at samle similar elementer i segmenter, eller at finde elementer der ikke passer ind – skiller sig ud.

16 Henrik Bulskov Styltsvig16Efterår 2003 Clustering – formel definition Database D = {t 1, t 2, …, t n } K = antallet af clusters ƒ : D  {1, …, k} hvor hver t i er indeholdt i cluster K j, 1 ≤ j ≥ k. Et cluster k j indeholder netop de tupler som kan tildeles med ƒ, hvilket er k i = {t i | ƒ(t i ) = k j, 1 ≤ j ≥ k og t i D}.

17 Henrik Bulskov Styltsvig17Efterår 2003 Clustering Hierarkisk Sammenhobningopsplitning Partition

18 Henrik Bulskov Styltsvig18Efterår 2003 Clustering - similaritet

19 Henrik Bulskov Styltsvig19Efterår 2003 Clustering - centrum Centroid × × Mediod

20 Henrik Bulskov Styltsvig20Efterår 2003 Clustering - similaritet Single Link Mindste afstand mellem et element i en cluster og et element i en anden. Complete Link Største afstand mellem et element i en cluster og et element i en anden. Average Den gennemsnitlige afstand mellem et element i en cluster og et element i en anden. Centroid Afstanden mellem centrum i en cluster og centrum i en anden. Mediod Afstanden mellem centerelementet i en cluster og centerelementet i en anden

21 Henrik Bulskov Styltsvig21Efterår 2003 Clustering - Hierarkisk Sammenhobning opsplitning

22 Henrik Bulskov Styltsvig22Efterår 2003 Clustering - partition Giver kun en mængde af clusters. Der gives det antal clusters der ønskes. 19 elementer kan deles i 4 clusters på 11.259.666.000 måder!!! Squared error K-Means Nearest neighbor PAM(partition around mediods)

23 Henrik Bulskov Styltsvig23Efterår 2003 Decision Trees DT er ofte anvendt til klassifikation. Udgangspunktet er en database med {A 1, …, A n } attributter og {K 1, …, k n } klasser. Hver knude (ikke blade) har en attribut som etiket. Hver kant er et prædikat der kan tildeles til forældre knudens attribut. Hver blad-knude har en klasse som etiket.

24 Henrik Bulskov Styltsvig24Efterår 2003 Decision Trees Målet med DT er at hver knude deler søgemulighederne i to lige store dele. Valg af splittende attributter Valget af hvilke attributter der skal anvendes til at opdele efter kræver analyse af træningsdata og ofte inddragelse af ekspert viden. Rækkefølgen af splittende attributter Rækkefølgen er vigtig, idet rækkefølgen bestemmer dybden af træet.

25 Henrik Bulskov Styltsvig25Efterår 2003 Decision Trees Antallet af gang der skal opdeles Ved simple attributter, såsom køn, er det oplagt hvor mange delinger en given attribut behøver, men ved mere komplekse domæner kan det være meget vanskeligt at afgøre. Træ strukturen Et balanceret træ med mindst højde er at fortrække Stop betingelser Optimalt skal der først stoppes når træningsdata er perfekt klassificeret, men det kan være nødvendigt at stoppe før ved store træer.

26 Henrik Bulskov Styltsvig26Efterår 2003 Decision Trees Træningsdata Strukturen i DT bestemmes af træningsdata, er disse for små er træet måske ikke generelt nok, mens det hvis datamængden er for stort måske bliver overfittet. Beskæring Efter dannelse af et DT kan det være nødvendigt at modificere strukturen af optimeringshensyn.

27 Henrik Bulskov Styltsvig27Efterår 2003 Neural Networks NN bliver ofte brugt til klassifikation. Målet er at afgøre hvilket output der kan forventes fra et givent input. NN skal oplæres med træningsdata. NN er robust overfor støj og manglende input NN kan fortsætte med at lære efter den egentlig træningsfase. For at benytte NN skal antallet af output knuder afgøres, og hvilke attributter der skal benyttes i input.

28 Henrik Bulskov Styltsvig28Efterår 2003 Neural Networks En simple neuron kan modtage flere input giver et enkelt output.

29 Henrik Bulskov Styltsvig29Efterår 2003 Neural Networks I McCulloch and Pitts model vægtes input. Det er netop disse vægte der benyttes under indlæring.

30 Henrik Bulskov Styltsvig30Efterår 2003 Neural Networks Et neuralt netværk er normalt opbygget af input og output neuroner samt et eller flere skjulte lag af neuroner.

31 Henrik Bulskov Styltsvig31Efterår 2003 Neural Networks

32 Henrik Bulskov Styltsvig32Efterår 2003 Neural Networks Aktiveringsfunktion Aktiveringsfunktionen bestemmer hvilke mønstre det neurale netværk kan genkende. Ofte anvendes logistiske funktioner. Læringsrate Læringsraten bestemmer hvor store udsving der kan være i indlæringsprocessen. Små udsving betyder en længere læringsproces og fare for at finde lokale minimum, for store udsving fare for at overse mønstret. Antal neuroner Antallet af neuroner bestemmer hvor mange attributter netværket kan inddrage. Problemet med for mange er overfitting, mens for få kan give et for generelt netværk.

33 Henrik Bulskov Styltsvig33Efterår 2003 Neural Networks NN er vanskelige at forstå og overskue. Det er vanskeligt at udlede regler fra NN. Input skal være numerisk. Testning af NN er omfattende Det er vanskeligt at verificere NN Det er måske ikke mulig at få et NN til at konvergere Det kan være kostbart at anvende NN

34 Henrik Bulskov Styltsvig34Efterår 2003 Associationsregler Associationsregler er implikationer. Implikationerne kan være komplekse IF A & B & C  Z IF A & B  X & Z & Q Selvom associationsregler er implikationer er disse ikke kausale.

35 Henrik Bulskov Styltsvig35Efterår 2003 Associationsregler Nøjagtighed Dækning RegelNøjagtighedDækning If breakfast cereal purchased then milk purchased. 85%20% If bread purchased then Swiss cheese purchased. 15%6% If 42 years old and purchased pretzels and purchased dry roasted peanuts then beer will be purchased. 95%0,01%

36 Henrik Bulskov Styltsvig36Efterår 2003 Associationsregler Beskrivelse Makroniveau – kan beskrive sammenhænge mellem attributter og kan opsummere. Mikroniveau – Meget detaljerede regler kan udledes og specifikke konsekvenser undersøges. Forudsigelser Regler kan også benyttes til forudsigelser. Hver regel kan benyttes til forudsigelse og konsekvensen og nøjagtigheden definere udfaldet og forudsigelsens nøjagtighed.


Download ppt "Datalogiafdelingen, hus 42.1 Roskilde Universitetscenter Universitetsvej 1 Postboks 260 4000 Roskilde Telefon: 4674 2000 Fax: 4674 3072 www.dat.ruc.dk."

Lignende præsentationer


Annoncer fra Google