Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Frank Bjergø Data, Web og Text Mining konsulent

Lignende præsentationer


Præsentationer af emnet: "Frank Bjergø Data, Web og Text Mining konsulent"— Præsentationens transcript:

1 Frank Bjergø Data, Web og Text Mining konsulent
Data Mining Frank Bjergø Data, Web og Text Mining konsulent Copyright , SPSS Inc.

2 Agenda – efter middag Opsamling på formiddagen – spørgsmål til Clementine og øvelserne. Eksempel data mining i teleindustrien. Kort overblik over algoritmerne i data mining. Øvelser til næste gang. Copyright , SPSS Inc.

3 Spørgsmål Opsamling på formiddagen – spørgsmål til Clementine og øvelserne. Copyright , SPSS Inc.

4 Data mining modellerne i korte træk
Statistik og data mining vil typisk have samme formål. At bygge modeller der kan forklare relationerne mellem med et antal variable og deres relation med et resultat. Fordelene ved at bygge DM modeller kan opledes i to: 1) Enten kan modellen kan være deskriptiv og forklarende : Den klarligger situationen og fortæller «hvor du skal kigge». Hvilke af de variabler, som er til rådighed, er signifikante og bestemmende for at beskrive data og deres relationer på et mere generelt niveau. 2) Eller modellen kan være prædiktiv : Man benytte et antal variable, til at træne din model efter i bestemt mål. Efterfølgende vil kunne «køre» modellen på et tilsvarende sæt variable og opnå en prædiktion af det forventede resultat. Copyright , SPSS Inc.

5 Data mining modeller i korte træk
Prædiktion Deskription tidsserie Klustering Sekvens Analyse Klassifikation Associationsregler Regression Copyright , SPSS Inc.

6 Data mining modeller i Clementine
Prædiktion Deskription Klustering K-means Kohonen Two Step Tidsserie Først fra clem 9.0 Sekvensanalyse Sekvens Klassifikation C5 (klassifikationstræ) CART (klassifikationstræ) Neurale netværk Logistisk regression Associationsregler GRI (generalized rule induction) Carma Apriori Regression Lineær regression Neurale netværk CART (regressionstræ) Eneste model i Clementine, som ikke er beskrevet her er factor (analyse), som benyttes til at reducere antallet af input faktorer, samtidigt med at data beholder deres varians Copyright , SPSS Inc.

7 Prædiktion Ved at tage udgangspunkt i kendt viden ønskes viden om fremtidige mønstre (klassifikation eller regression) Hvem vil være potentielle svindlere, hvem betaler fx ikke deres kommende telefonregning? Hvem kan det bedst betale sig at henvende sig til hvis man skal reklamere? Hvem kunne det bedst betale sig at kigge efter i sømmene, i udvælgelsen af personer til ligning hos Told og Skat. Hvordan kommer de kommende halve år til at se ud. F.eks. i forhold til indkomne ordre. Copyright , SPSS Inc.

8 Deskription Ønsket om at forstå eksisterende informationer på en ny måde (associationsanalyse). Hvordan finder man relationer mellem de varer som bliver købt sammen. At udlede viden/mønstre fra eksisterende informationer, som ikke er allerede er kendt (sekvensanalyse) Hvilke varer skal placeres tæt på hinanden i et supermarked? Og i hvilke sekvens bliver de købt? Copyright , SPSS Inc.

9 Deskription Ønsket om at finde og visualisere sammenhænge i blandt data som findes i flere dimensioner. Hvordan kan man segmenterer sin kunder efter en række parametre som ikke umiddelbart er overskuelige. Copyright , SPSS Inc.

10 Superviseret læringsmetode
Superviseret indlæring neurale netværk, beslutningstræer (regression og klassifikationstræer), samt regressionsmodeller (lineær og logistisk). Læring hvor indlæringsprocessen kontrolleres og tilpasses facit. (f.eks backprop i NN) Målet er at danne den model der bedst beskriver de givne informationer i forhold til targetvariablen (i statistikken kaldet den afhængige variable) Copyright , SPSS Inc.

11 Ikke superviseret læringsmetode
Ikke superviseret indlæring (klusteranalyse (Kohonen), sekvens- og associationsmetoder ) Læring hvor resultatet ikke er kendt på forhånd Målet er en model der beskriver ny viden over den givne information, der eksisterer i basen. Copyright , SPSS Inc.

12 Eksempel: Teleselskab i Frankrig
Business understanding Hvad der formålet for teleselskabet? I dette eksempel, en af de klassiske data mining opgaver: ”Fraud” Forståelse af begrebet fraud i teleindustrien. Vi skal ud fra ringemønstre, finde de fok som ikke vi kunne eller intenderer at betale deres næste regning. Telemarkedet er meget anderledes end i Danmark – flere shopper rundt mellem flere selskaber, og derfor er flere kunder tilbøjelige til ikke at betale deres regning. Hvad for nogle modeller ønsker virksomheden at der skal implementeres. Her scoringsmodel for fraud (med konfidensinterval ) Copyright , SPSS Inc.

13 Eksempel: Teleselskab i Frankrig
Data understanding Hvordan der data repræsenteret og hvad repræsenterer de. CDR er en ”loglinie” som repræsenterer et hvert udgående og indgående opkald og sms’er fra og til en kunde i selskabet. Copyright , SPSS Inc.

14 Eksempel: Teleselskab i Frankrig
Kunde data Altså en række forskellige tabeller som indeholder facts omkring kunden og dennes opkald – her status – opdelt efter, ok,suspenderet og begrænset . Copyright , SPSS Inc.

15 Eksempel: Teleselskab i Frankrig
Data preparation - enkelt histogram over antallet af kunder og størrelsen af deres ikke betalte regninger. Copyright , SPSS Inc.

16 Eksempel: Teleselskab i Frankrig
Data preparation – eksempel på binding. Man vil kunne sammenlægge flere af de kategoriske variable i samme, uden at miste variansen for de tre status felter Copyright , SPSS Inc.

17 Eksempel: Teleselskab i Frankrig
Data preperation Udledning af nye variabler som kan afspejle kundernes ringemønstre. Copyright , SPSS Inc.

18 Eksempel: Teleselskab i Frankrig
Modellering Eksempel med et neuralt netværk, som træner til at prædiktere status (ok, begrænset, suspenderet) for kunderne på deres aggregerede profil. Copyright , SPSS Inc.

19 Eksempel: Teleselskab i Frankrig
Scoring af kunderne i de tre kategorier. Status Konfidensinterval (fra 0-1) Copyright , SPSS Inc.

20 Eksempel: Teleselskab i Frankrig
Evaluering Copyright , SPSS Inc.

21 Eksempel: Teleselskab i Frankrig
Andre overvejelser man bør gøre sig i evalueringen af de generede modeller. Hvilke variabler er indikative i forhold til at prædiktere kundens status. Overfitter modellerne vi på nogle variable. I stedet ønsker man generaliserende modeller, som kan benyttes til prædiktion - på et nyt sæt data (validerings- og træningsdata). Og derfor ønsker man heller ikke at modellerne bliver for generelle – således siger de ingenting om fremtiden. Copyright , SPSS Inc.

22 Næste gang Mødes i computer lokalet – altså øvelser inden middag.
Eftermiddag – gennemgang af DM algoritmerne mere udførligt. Ønsker? Spørgsmål til denne forelæsning. Copyright , SPSS Inc.

23 Øvelser til næste gang Indhent data fra fladfiler (status og agg. kundeprofil) og merge filerne over id. Tjek data kvaliteten. Check data i Data Audit (få overblik over data). Aflæs distributionen af svindlere. Reklassifisere status feltet, så det kun indeholder to variable. Skab en ny variabel som beskriver den samlede tid for hver enkel kunde Lav en distribution over alder (set type, husk at normalisere distribution). Inddel kunderne i kvartiler (i henhold til deres alder, lav en femte kategori for dem uden værdi, tildel dem evt. middelværdien ). Med matrice noden aflæses den nye status kategori overfor de fem aldersgrupper. Aflæs andre korrelationer i datasættet med webnoden Forsøg at kluster kunderne efter deres ringemønstre og andre variable. Beskriv eller visualiser de forskellige klusters evt. med C5 algoritmen eller ved editering af kohonens clutsterviewer (sæt den genererede algoritme i strømmen efter type noden). Ændre i antallet af klusters og forsøg at bruge ”binding” nogle af de numeriske variabler, prøv at lave en normaliseret distribution af jeres kluster, farvelagt med staus. Copyright , SPSS Inc.


Download ppt "Frank Bjergø Data, Web og Text Mining konsulent"

Lignende præsentationer


Annoncer fra Google