Dagens program Informationer Opsamling Projekt 3 Regression

Slides:



Advertisements
Lignende præsentationer
Case: Tekst på Call-To-Action link
Advertisements

Dagens program Kursusevaluering Information Spørgsmål om eksamen
Dagens program Teori Øvelser Eksperimentelle design Kausalitet
Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Anvendt Statistik Lektion 6
Grundlæggende teoretisk statistik
Case.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Program Korrelation Gamma Pearsons r Regression Kausalitet 1.
Signifikanstest ved (en eller) to stikprøver
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Learning Objectives 5 Steps of a Significance Test Assumptions
1 Dagens program 1.Information –Klaus’ frokost: 11:45-12:30, går 13:15. –Winston Churchill –Sidste forelæsning (19/11): Eksamen, kursus- evaluering, eksperimentelt.
Statistik II 5. Lektion Log-lineære modeller.
Dagens program 1.Information Alle projekter er godkendt Sumkurve 2.Opsamling T-test 3.Variansanalyse (one-way) ANOVA 4.Intro til projekt 3 (Excels LOPSLAG.
Learning Objectives 5 Steps of a Significance Test Assumptions
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Forudsigelse i markedsanalyse Burns & Bush ch. 19 Carsten Stig Poulsen Mandag d. 6. april 2009.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statistik Lektion 16 Multipel Lineær Regression
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri 1: Instrumentvariabelestimation1 Økonometri 1 Instrumentvariabelestimation II 7. december 2005.
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Ellen Holm, Forskningscafé
Den multiple regressionsmodel 21. september 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Niveau 3: Regressionsanalyse: Tværsnitsundersøgelser
Præsentationens transcript:

Dagens program Informationer Opsamling Projekt 3 Regression 4 lektioner tilbage 1-2 til indv. vejl. Opsamling Projekt 3 Regionsfordeling Antal links, etc. Regression Korrelation Igang med projekt 3 1

Opsamling: Chi-i-anden fordeling og teststørrelse 2 2

Regressionsanalyse. Trin 1 Første trin i en regressions-analyse er at identificere den afhængige og / de uafh. variabel. Y benyttes som forkortelse for ”the dependent variable” aka. criterion / outcome variable afhæng. var / responsvar. X benyttes som forkortelse for ”the independent variable” aka. predictor variable uafh. / forklarende variable Hvilke oplysninger (her til højre) er responsvariable hhv. forklarende variable? Responsvariable: Forklarende variable: Titlen i headeren er beskrivende Hjemmesiden giver alt i alt et positivt helhedsindtryk. Man kan ud fra teksten på alle links forstå, hvor de fører hen. Det er nemt at finde rundt på hjemmesiden. Teksterne på hjemmesiden er skrevet i et klart og letforståeligt sprog. Hjemmesiden indeholder det, jeg har behov for. Y: Uafhængig variabel X: Afhængig variabel

Regressionsanalyse. Trin 2 Andet trin i en regressionsanalyse er at plotte sine data i et x-y diagram. På x-aksen afsættes den forklarende variabel På y-aksen afsættes responsvariablen Eksempler på problemstillinger vedr. brugervenlighed Har antallet af sider på et website betydning for om de besøgende ”let kan finde det, de leder efter”? Har antallet af links i hovedmenuen betydning for, om ”det er nemt at finde rundt på hjemmesiden”? Har lix-tallet betydning for, om brugerne oplever, at ”teksterne er skrevet i et klart og letforståeligt sprog”?

Eksempel på analyse af brugervenlighed ved spørgsmålet: ”Jeg fandt let det, jeg ledte efter”. En stikprøve på 20 udtages blandt landets kommuner. Webmasteren spørges, hvor mange sider der er på kommunens website. Data kobles til scoren på spørgsmålet ”Jeg fandt let det, jeg ledte efter.” Antal sider. Gns: 1.127. Std.afv.: 162. Brugervenlighed. Gns: 2,7. Std.afv.: 0,7.

Regressionsanalyse. Trin 4 Plot x og y mod hinanden og se om de danner en ret linje

Regressionsanalyse. Trin 5 Estimer regressionsligningen Hvis punkterne i x-y diagrammet omtrent danner en ret linje, er det meningsfuldt at (få Excel / SPSS til) tegne en ret linje igennem punkterne og finde ligningen for linjen. Ligningen for regressionslinjen er: ŷ er et estimat på y (responsvariablen) ud fra ligningen a er linjens skæring med y-aksen b er hældningen på kurven

Stå i x-y diagrammet, højreklik på punkterne og vælg: ”Add trendline”

Eksempel: Brugervenlighed og antal web-sider

Eksempel: Brugervenlighed og antal web-sider Man kan også gå i Excel Data Analyse og vælge regressionsanalyse.

Eksempel: Brugervenlighed og antal web-sider To fordele ved denne metode: Dels får man testet om modellens parametre er 0. Dels kan man anvende flere forklarende variable.

Eksempel: Brugervenlighed og antal web-sider Analysen fortæller os: Brugervenlighed = 0,0034 x antal sider – 1,15. Hældningen på linjen er 0,0034. Skæring med y-aksen er i -1,15 Har en kommune 1.500 sider, er et kvalificeret gæt, at kommunen scorer: 0,0034 x 1.500) - 1,15 = 3,87 – 1,15 = 2,72 på BV-spørgsmålet. Regressionsanalysen kan bruges til at forudsige værdien af y, når man kender værdien af x. Forudsigelsen er i sagens natur ikke 100% præcis, y varierer. Man bør tjekke for outliers, da de kan påvirke resultatet betydeligt

Kausalitet: Årsag og virkning Figuren viser sammenhængen mellem x og y (kvaliten af indhold og helhedsindtryk) for samme år Hvis man får oplyst x, kan man gætte (”forudsige”), hvad y er. Figuren viser ændringen i helhedsindtryk ved en ændring i kvaliten af indhold (udviklingen over 2 år) Hvis man ønsker en stigning i y på ca. 8,5, kræver det en stigning i x på 10 (alt andet lige).

Fører øget brugervenlighed fx. til øget salg? Y, responsvariabel Fælles Antal besøgende på hjemmesiden Kommercielle organisationer Antal besøgende, der køber (hitrate) Størrelsen af købet (basketsize) Ikke-kommercielle organisationer Brugerne betjener sig selv (færre pers. og tlf. henvendelser) Fremme af organisationens formål Y = salg X = brugervenlighed 14

Kausalitet: Årsag og virkning Betingelser for kausalitet Rækkefølge (X → Y, ikke X ← Y) Association mellem X og Y. Udtrykkes operationelt f.eks. ved regression eller en korrelationskoefficient, f.eks. r. Positive r værdier tyder på en positive association (sammenhæng) Negative r værdier tyder på en negative association r værdier tæt på +1 eller -1 tyder på en stærk lineær association r værdier tæt på 0 tyder på en svag association Udelukkelse af andre forklaringer X: Salg af is, Y: Drukne ulykker Hypotese: X → Y Z: Årstid Mere plausibel hypotese: X ← Z → Y 4 P’er 15

Outliers ingen outliers en outlier, derløfter regressionslinjen (linjens skæring med y-aksen) en outlier, der påvirker hældningen på regressionslinjen (så hældningen bliver mindre) en outlier, derløfter ikke påvirker skæringen med y-aksen eller hældningen på regressionslinjen

Populations regressionsligning Populationens regressionsligning beskriver relationen i populationen mellem y’s gennemsnit og x. Ligningen er: α er populationsligningens skæring med y-aksen. β er is populationsligningens hældning. α og β er parametere. I praksis estimerer vi populationens regressionsligning på basis af data fra en stikprøve. Stikprøvens regressionsligning er: ŷ = a + bx

Multipel regression Har antallet af links i hovedmenuen betydning for, om ”det er nemt at finde rundt på hjemme-siden”? y = Det er nemt at finde rundt på hjemmesiden x1 = Antal hovedmenupunkter, f.eks. 5 som på www.kk.dk x2 = Antal links pr. hoved-menupunkt, f.eks. 12 i punktet ”Borger”. x3 = Antal links på forsiden Populationsmodel: Stikprøvemodel:

Residualer Ligningen, ŷ = a + bx, kaldes en regressionsmodel. Den benyttes til at forudsige gennemsnittet af y-værdierne ved de forskellige x-værdier. Forskellen, (y – ŷ), mellem en faktisk observeret værdi og en forudsigelse er en fejl (error) i forudsigelsen. Fejlen kaldes et residual. Et residual er den lodrette afstand mellem observationen og regressionslinjen. Hver observation har et residual. Hvornår er det 0?

Hvor god er modellen til at forudsige y? Consider the prediction error: The difference between the observed and predicted values of y (the residual) Using the regression line to make a prediction, each error is: Using only the sample mean, , to make a prediction, each error is:

Hvor god er modellen til at forudsige y? When we predict y using (that is, ignoring x), the error summary equals: This is called the total sum of squares

Hvor god er modellen til at forudsige y? When we predict y using x with the regression equation, the error summary is: This is called the residual sum of squares

Hvor god er modellen til at forudsige y? When a strong linear association exists, the regression equation predictions tend to be much better than the predictions using We measure the proportional reduction in error and call it, r2

Hvor god er modellen til at forudsige y? We use the notation r2 for this measure because it equals the square of the correlation r

Hvor god er modellen til at forudsige y? Properties: r2 falls between 0 and 1 r2=1 when . This happens only when all the data points fall exactly on the regression line r2=0 when . This happens when the slope b=0, in which case each The closer r2 is to 1, the stronger the linear association: The more effective the regression equation is compared to in predicting y

Learning Objective 3: Correlation r and Its Square r2 Both r and r2 describe the strength of association ‘r’ falls between -1 and +1 It represents the slope of the regression line when x and y have been standardized ‘r2’ falls between 0 and 1 It summarizes the reduction in sum of squared errors in predicting y using the regression line instead of using

Model En (statistisk) model er ikke eksakt beskrivelse af virkeligheden. Modellen er ”kun” en approksimation Den er praktisk nyttig, hvis den estimerer relationen mellem x og y relativt godt. Sort: Virkeligheden. Rød en estimeret regressionsligning.

Eksempel: Korrelation En stikprøve på 18 udtages blandt studerende på ITU. De bedes vurdere brugervenligheden af en app på fire parametre: Vejledningen Menustrukturen Det visuelle udtryk Brugervenligheden, alt i alt

Korrelation

Eksempel: Korrelation I Excels Data Analyse vælger man Korrelation.

Korrelation Korrelationen, som forkortes med bogstavet r, beskriver den linære association mellem x og y. Korrelationen ‘r’ har samme fortegn, +/-, som hældningen, b, i regressionsligningen. Korrelationen ‘r’ er et tal i intervallet mellem -1 og +1, begge tal inklusiv. Jo større absolut værdi af r, des stærkere er den lineære association. Man kan ikke bruge hældningen, b, til at beskrive styrken af associationen mellem x og y, fordi hældningens nummeriske værdi afhænger af den enhed, der måles i. Korrelationen er en standardiseret version af hældningen. Korrelationen afhænger ikke af den enhed, der måles i.