Frank Bjergø Data, Web og Text Mining konsulent

Slides:

Advertisements

Lignende præsentationer

Katalog over nationale standarder på sundhedsområdet.

Advertisements

Dimensioner i refleksionsskabelon og introduktion til scoringer

Kim Lyng Madsen Lau Kingo Marcussen

Dummyvariabler 13. oktober 2006

Statistik Lektion 17 Multipel Lineær Regression

Formularer (Access, del 3)

Trivselsundersøgelse og ledelsesevaluering

Virksomheder - definition

Grundlæggende teoretisk statistik

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.

KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.

Økonometri 1: Instrumentvariabelestimation1 Økonometri 1 Instrumentvariabelestimation 14. april 2003.

Økonometri 1: Instrumentvariabelestimation1 Økonometri 1 Instrumentvariabelestimation 26. november 2004.

Variansanalyse Modelkontrol

Introduktion til Access (Access, del 1)

Opslagsfelter (Access, del 6). RHS – Informationsteknologi 2 Udgangspunkt Vi er ofte i den situation, at valg af en type for et felt ikke begrænser vores.

Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Økonometri 1: Dummy variable

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.

The KaosPilots August Arne Kleven og & friends Opgaven Introduktion til analysen Praktisk gennemførsel - personlig tilbagemelding.

Begrebskort for lineære differentialligningsmodeller

Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.

Opsamling Simpel/Multipel Lineær Regression Logistisk Regression

Opslagsfelter (Access, del 6). RHS – Informationsteknologi – Udgangspunkt Vi er ofte i den situation, at valg af en type for et felt ikke begrænser.

Introduktion til Access (Access, del 1). RHS – Informationsteknologi – Fra design til udvikling Vi ved nu, hvordan vi finder et design for en database,

DIEB4.1 Kursusgang 4 Oversigt: Sidste kursusgang Opgaver Aktivitet 2: Generer design (fortsat) Design af interaktionselementer.

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.

KM2: F151 Kvantitative metoder 2 Funktionel form. Goodness-of-fit. Prediktioner og residualer 26. marts 2007.

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.

Instrumentvariabel estimation 21. maj 2007

Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.

Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.

Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.

Simpel Lineær Regression

Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.

Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.

Økonometri 1: F151 Økonometri 1 Specifikation og dataproblemer 10. november 2006.

Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.

KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.

Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.

Kvantitative metoder 2: F31 Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007.

Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.

Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.

Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.

Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.

Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 FunktioneI form i den lineære regressionsmodel 11. oktober 2005.

Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.

Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.

Statistik II 4. Lektion Logistisk regression.

Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.

Økonometri – lektion 6 Multipel Lineær Regression

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.

Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.

Datalogiafdelingen, hus 42.1 Roskilde Universitetscenter Universitetsvej 1 Postboks Roskilde Telefon: Fax:

Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.

Økonometri 1: Instrumentvariabelestimation1 Økonometri 1 Instrumentvariabelestimation I 2. December 2005.

KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.

Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.

Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.

Ellen Holm, Forskningscafé

Den multiple regressionsmodel 21. september 2005

TEMA 5 Realisering: Tilpas idéen

Heteroskedasticitet 25. oktober 2005

Anvendt Statistik Lektion 8

Niveau 3: Regressionsanalyse: Tværsnitsundersøgelser

Teoretiske kontinuerte fordelinger

Præsentationens transcript:

Frank Bjergø Data, Web og Text Mining konsulent Data Mining Frank Bjergø Data, Web og Text Mining konsulent Copyright 2003-4, SPSS Inc.

Agenda – efter middag Opsamling på formiddagen – spørgsmål til Clementine og øvelserne. Eksempel data mining i teleindustrien. Kort overblik over algoritmerne i data mining. Øvelser til næste gang. Copyright 2003-4, SPSS Inc.

Spørgsmål Opsamling på formiddagen – spørgsmål til Clementine og øvelserne. Copyright 2003-4, SPSS Inc.

Data mining modellerne i korte træk Statistik og data mining vil typisk have samme formål. At bygge modeller der kan forklare relationerne mellem med et antal variable og deres relation med et resultat. Fordelene ved at bygge DM modeller kan opledes i to: 1) Enten kan modellen kan være deskriptiv og forklarende : Den klarligger situationen og fortæller «hvor du skal kigge». Hvilke af de variabler, som er til rådighed, er signifikante og bestemmende for at beskrive data og deres relationer på et mere generelt niveau. 2) Eller modellen kan være prædiktiv : Man benytte et antal variable, til at træne din model efter i bestemt mål. Efterfølgende vil kunne «køre» modellen på et tilsvarende sæt variable og opnå en prædiktion af det forventede resultat. Copyright 2003-4, SPSS Inc.

Data mining modeller i korte træk Prædiktion Deskription tidsserie Klustering Sekvens Analyse Klassifikation Associationsregler Regression Copyright 2003-4, SPSS Inc.

Data mining modeller i Clementine Prædiktion Deskription Klustering K-means Kohonen Two Step Tidsserie Først fra clem 9.0 Sekvensanalyse Sekvens Klassifikation C5 (klassifikationstræ) CART (klassifikationstræ) Neurale netværk Logistisk regression Associationsregler GRI (generalized rule induction) Carma Apriori Regression Lineær regression Neurale netværk CART (regressionstræ) Eneste model i Clementine, som ikke er beskrevet her er factor (analyse), som benyttes til at reducere antallet af input faktorer, samtidigt med at data beholder deres varians Copyright 2003-4, SPSS Inc.

Prædiktion Ved at tage udgangspunkt i kendt viden ønskes viden om fremtidige mønstre (klassifikation eller regression) Hvem vil være potentielle svindlere, hvem betaler fx ikke deres kommende telefonregning? Hvem kan det bedst betale sig at henvende sig til hvis man skal reklamere? Hvem kunne det bedst betale sig at kigge efter i sømmene, i udvælgelsen af personer til ligning hos Told og Skat. Hvordan kommer de kommende halve år til at se ud. F.eks. i forhold til indkomne ordre. Copyright 2003-4, SPSS Inc.

Deskription Ønsket om at forstå eksisterende informationer på en ny måde (associationsanalyse). Hvordan finder man relationer mellem de varer som bliver købt sammen. At udlede viden/mønstre fra eksisterende informationer, som ikke er allerede er kendt (sekvensanalyse) Hvilke varer skal placeres tæt på hinanden i et supermarked? Og i hvilke sekvens bliver de købt? Copyright 2003-4, SPSS Inc.

Deskription Ønsket om at finde og visualisere sammenhænge i blandt data som findes i flere dimensioner. Hvordan kan man segmenterer sin kunder efter en række parametre som ikke umiddelbart er overskuelige. Copyright 2003-4, SPSS Inc.

Superviseret læringsmetode Superviseret indlæring neurale netværk, beslutningstræer (regression og klassifikationstræer), samt regressionsmodeller (lineær og logistisk). Læring hvor indlæringsprocessen kontrolleres og tilpasses facit. (f.eks backprop i NN) Målet er at danne den model der bedst beskriver de givne informationer i forhold til targetvariablen (i statistikken kaldet den afhængige variable) Copyright 2003-4, SPSS Inc.

Ikke superviseret læringsmetode Ikke superviseret indlæring (klusteranalyse (Kohonen), sekvens- og associationsmetoder ) Læring hvor resultatet ikke er kendt på forhånd Målet er en model der beskriver ny viden over den givne information, der eksisterer i basen. Copyright 2003-4, SPSS Inc.

Eksempel: Teleselskab i Frankrig Business understanding Hvad der formålet for teleselskabet? I dette eksempel, en af de klassiske data mining opgaver: ”Fraud” Forståelse af begrebet fraud i teleindustrien. Vi skal ud fra ringemønstre, finde de fok som ikke vi kunne eller intenderer at betale deres næste regning. Telemarkedet er meget anderledes end i Danmark – flere shopper rundt mellem flere selskaber, og derfor er flere kunder tilbøjelige til ikke at betale deres regning. Hvad for nogle modeller ønsker virksomheden at der skal implementeres. Her scoringsmodel for fraud (med konfidensinterval ) Copyright 2003-4, SPSS Inc.

Eksempel: Teleselskab i Frankrig Data understanding Hvordan der data repræsenteret og hvad repræsenterer de. CDR er en ”loglinie” som repræsenterer et hvert udgående og indgående opkald og sms’er fra og til en kunde i selskabet. Copyright 2003-4, SPSS Inc.

Eksempel: Teleselskab i Frankrig Kunde data Altså en række forskellige tabeller som indeholder facts omkring kunden og dennes opkald – her status – opdelt efter, ok,suspenderet og begrænset . Copyright 2003-4, SPSS Inc.

Eksempel: Teleselskab i Frankrig Data preparation - enkelt histogram over antallet af kunder og størrelsen af deres ikke betalte regninger. Copyright 2003-4, SPSS Inc.

Eksempel: Teleselskab i Frankrig Data preparation – eksempel på binding. Man vil kunne sammenlægge flere af de kategoriske variable i samme, uden at miste variansen for de tre status felter Copyright 2003-4, SPSS Inc.

Eksempel: Teleselskab i Frankrig Data preperation Udledning af nye variabler som kan afspejle kundernes ringemønstre. Copyright 2003-4, SPSS Inc.

Eksempel: Teleselskab i Frankrig Modellering Eksempel med et neuralt netværk, som træner til at prædiktere status (ok, begrænset, suspenderet) for kunderne på deres aggregerede profil. Copyright 2003-4, SPSS Inc.

Eksempel: Teleselskab i Frankrig Scoring af kunderne i de tre kategorier. Status Konfidensinterval (fra 0-1) Copyright 2003-4, SPSS Inc.

Eksempel: Teleselskab i Frankrig Evaluering Copyright 2003-4, SPSS Inc.

Eksempel: Teleselskab i Frankrig Andre overvejelser man bør gøre sig i evalueringen af de generede modeller. Hvilke variabler er indikative i forhold til at prædiktere kundens status. Overfitter modellerne vi på nogle variable. I stedet ønsker man generaliserende modeller, som kan benyttes til prædiktion - på et nyt sæt data (validerings- og træningsdata). Og derfor ønsker man heller ikke at modellerne bliver for generelle – således siger de ingenting om fremtiden. Copyright 2003-4, SPSS Inc.

Næste gang Mødes i computer lokalet – altså øvelser inden middag. Eftermiddag – gennemgang af DM algoritmerne mere udførligt. Ønsker? Spørgsmål til denne forelæsning. Copyright 2003-4, SPSS Inc.

Øvelser til næste gang Indhent data fra fladfiler (status og agg. kundeprofil) og merge filerne over id. Tjek data kvaliteten. Check data i Data Audit (få overblik over data). Aflæs distributionen af svindlere. Reklassifisere status feltet, så det kun indeholder to variable. Skab en ny variabel som beskriver den samlede tid for hver enkel kunde Lav en distribution over alder (set type, husk at normalisere distribution). Inddel kunderne i kvartiler (i henhold til deres alder, lav en femte kategori for dem uden værdi, tildel dem evt. middelværdien ). Med matrice noden aflæses den nye status kategori overfor de fem aldersgrupper. Aflæs andre korrelationer i datasættet med webnoden Forsøg at kluster kunderne efter deres ringemønstre og andre variable. Beskriv eller visualiser de forskellige klusters evt. med C5 algoritmen eller ved editering af kohonens clutsterviewer (sæt den genererede algoritme i strømmen efter type noden). Ændre i antallet af klusters og forsøg at bruge ”binding” nogle af de numeriske variabler, prøv at lave en normaliseret distribution af jeres kluster, farvelagt med staus. Copyright 2003-4, SPSS Inc.