Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Dagens program Informationer Opsamling Projekt 3 Regression

Lignende præsentationer


Præsentationer af emnet: "Dagens program Informationer Opsamling Projekt 3 Regression"— Præsentationens transcript:

1 Dagens program Informationer Opsamling Projekt 3 Regression
4 lektioner tilbage 1-2 til indv. vejl. Opsamling Projekt 3 Regionsfordeling Antal links, etc. Regression Korrelation Igang med projekt 3 1

2 Opsamling: Chi-i-anden fordeling og teststørrelse
2 2

3 Regressionsanalyse. Trin 1
Første trin i en regressions-analyse er at identificere den afhængige og / de uafh. variabel. Y benyttes som forkortelse for ”the dependent variable” aka. criterion / outcome variable afhæng. var / responsvar. X benyttes som forkortelse for ”the independent variable” aka. predictor variable uafh. / forklarende variable Hvilke oplysninger (her til højre) er responsvariable hhv. forklarende variable? Responsvariable: Forklarende variable: Titlen i headeren er beskrivende Hjemmesiden giver alt i alt et positivt helhedsindtryk. Man kan ud fra teksten på alle links forstå, hvor de fører hen. Det er nemt at finde rundt på hjemmesiden. Teksterne på hjemmesiden er skrevet i et klart og letforståeligt sprog. Hjemmesiden indeholder det, jeg har behov for. Y: Uafhængig variabel X: Afhængig variabel

4 Regressionsanalyse. Trin 2
Andet trin i en regressionsanalyse er at plotte sine data i et x-y diagram. På x-aksen afsættes den forklarende variabel På y-aksen afsættes responsvariablen Eksempler på problemstillinger vedr. brugervenlighed Har antallet af sider på et website betydning for om de besøgende ”let kan finde det, de leder efter”? Har antallet af links i hovedmenuen betydning for, om ”det er nemt at finde rundt på hjemmesiden”? Har lix-tallet betydning for, om brugerne oplever, at ”teksterne er skrevet i et klart og letforståeligt sprog”?

5 Eksempel på analyse af brugervenlighed ved spørgsmålet: ”Jeg fandt let det, jeg ledte efter”.
En stikprøve på 20 udtages blandt landets kommuner. Webmasteren spørges, hvor mange sider der er på kommunens website. Data kobles til scoren på spørgsmålet ”Jeg fandt let det, jeg ledte efter.” Antal sider. Gns: Std.afv.: 162. Brugervenlighed. Gns: 2,7. Std.afv.: 0,7.

6 Regressionsanalyse. Trin 4 Plot x og y mod hinanden og se om de danner en ret linje

7 Regressionsanalyse. Trin 5 Estimer regressionsligningen
Hvis punkterne i x-y diagrammet omtrent danner en ret linje, er det meningsfuldt at (få Excel / SPSS til) tegne en ret linje igennem punkterne og finde ligningen for linjen. Ligningen for regressionslinjen er: ŷ er et estimat på y (responsvariablen) ud fra ligningen a er linjens skæring med y-aksen b er hældningen på kurven

8 Stå i x-y diagrammet, højreklik på punkterne og vælg: ”Add trendline”

9 Eksempel: Brugervenlighed og antal web-sider

10 Eksempel: Brugervenlighed og antal web-sider
Man kan også gå i Excel Data Analyse og vælge regressionsanalyse.

11 Eksempel: Brugervenlighed og antal web-sider
To fordele ved denne metode: Dels får man testet om modellens parametre er 0. Dels kan man anvende flere forklarende variable.

12 Eksempel: Brugervenlighed og antal web-sider
Analysen fortæller os: Brugervenlighed = 0,0034 x antal sider – 1,15. Hældningen på linjen er 0,0034. Skæring med y-aksen er i -1,15 Har en kommune sider, er et kvalificeret gæt, at kommunen scorer: 0,0034 x 1.500) - 1,15 = 3,87 – 1,15 = 2,72 på BV-spørgsmålet. Regressionsanalysen kan bruges til at forudsige værdien af y, når man kender værdien af x. Forudsigelsen er i sagens natur ikke 100% præcis, y varierer. Man bør tjekke for outliers, da de kan påvirke resultatet betydeligt

13 Kausalitet: Årsag og virkning
Figuren viser sammenhængen mellem x og y (kvaliten af indhold og helhedsindtryk) for samme år Hvis man får oplyst x, kan man gætte (”forudsige”), hvad y er. Figuren viser ændringen i helhedsindtryk ved en ændring i kvaliten af indhold (udviklingen over 2 år) Hvis man ønsker en stigning i y på ca. 8,5, kræver det en stigning i x på 10 (alt andet lige).

14 Fører øget brugervenlighed fx. til øget salg?
Y, responsvariabel Fælles Antal besøgende på hjemmesiden Kommercielle organisationer Antal besøgende, der køber (hitrate) Størrelsen af købet (basketsize) Ikke-kommercielle organisationer Brugerne betjener sig selv (færre pers. og tlf. henvendelser) Fremme af organisationens formål Y = salg X = brugervenlighed 14

15 Kausalitet: Årsag og virkning
Betingelser for kausalitet Rækkefølge (X → Y, ikke X ← Y) Association mellem X og Y. Udtrykkes operationelt f.eks. ved regression eller en korrelationskoefficient, f.eks. r. Positive r værdier tyder på en positive association (sammenhæng) Negative r værdier tyder på en negative association r værdier tæt på +1 eller -1 tyder på en stærk lineær association r værdier tæt på 0 tyder på en svag association Udelukkelse af andre forklaringer X: Salg af is, Y: Drukne ulykker Hypotese: X → Y Z: Årstid Mere plausibel hypotese: X ← Z → Y 4 P’er 15

16 Outliers ingen outliers
en outlier, derløfter regressionslinjen (linjens skæring med y-aksen) en outlier, der påvirker hældningen på regressionslinjen (så hældningen bliver mindre) en outlier, derløfter ikke påvirker skæringen med y-aksen eller hældningen på regressionslinjen

17 Populations regressionsligning
Populationens regressionsligning beskriver relationen i populationen mellem y’s gennemsnit og x. Ligningen er: α er populationsligningens skæring med y-aksen. β er is populationsligningens hældning. α og β er parametere. I praksis estimerer vi populationens regressionsligning på basis af data fra en stikprøve. Stikprøvens regressionsligning er: ŷ = a + bx

18 Multipel regression Har antallet af links i hovedmenuen betydning for, om ”det er nemt at finde rundt på hjemme-siden”? y = Det er nemt at finde rundt på hjemmesiden x1 = Antal hovedmenupunkter, f.eks. 5 som på x2 = Antal links pr. hoved-menupunkt, f.eks. 12 i punktet ”Borger”. x3 = Antal links på forsiden Populationsmodel: Stikprøvemodel:

19 Residualer Ligningen, ŷ = a + bx, kaldes en regressionsmodel. Den benyttes til at forudsige gennemsnittet af y-værdierne ved de forskellige x-værdier. Forskellen, (y – ŷ), mellem en faktisk observeret værdi og en forudsigelse er en fejl (error) i forudsigelsen. Fejlen kaldes et residual. Et residual er den lodrette afstand mellem observationen og regressionslinjen. Hver observation har et residual. Hvornår er det 0?

20 Hvor god er modellen til at forudsige y?
Consider the prediction error: The difference between the observed and predicted values of y (the residual) Using the regression line to make a prediction, each error is: Using only the sample mean, , to make a prediction, each error is:

21 Hvor god er modellen til at forudsige y?
When we predict y using (that is, ignoring x), the error summary equals: This is called the total sum of squares

22 Hvor god er modellen til at forudsige y?
When we predict y using x with the regression equation, the error summary is: This is called the residual sum of squares

23 Hvor god er modellen til at forudsige y?
When a strong linear association exists, the regression equation predictions tend to be much better than the predictions using We measure the proportional reduction in error and call it, r2

24 Hvor god er modellen til at forudsige y?
We use the notation r2 for this measure because it equals the square of the correlation r

25 Hvor god er modellen til at forudsige y?
Properties: r2 falls between 0 and 1 r2=1 when This happens only when all the data points fall exactly on the regression line r2=0 when This happens when the slope b=0, in which case each The closer r2 is to 1, the stronger the linear association: The more effective the regression equation is compared to in predicting y

26 Learning Objective 3: Correlation r and Its Square r2
Both r and r2 describe the strength of association ‘r’ falls between -1 and +1 It represents the slope of the regression line when x and y have been standardized ‘r2’ falls between 0 and 1 It summarizes the reduction in sum of squared errors in predicting y using the regression line instead of using

27 Model En (statistisk) model er ikke eksakt beskrivelse af virkeligheden. Modellen er ”kun” en approksimation Den er praktisk nyttig, hvis den estimerer relationen mellem x og y relativt godt. Sort: Virkeligheden. Rød en estimeret regressionsligning.

28 Eksempel: Korrelation
En stikprøve på 18 udtages blandt studerende på ITU. De bedes vurdere brugervenligheden af en app på fire parametre: Vejledningen Menustrukturen Det visuelle udtryk Brugervenligheden, alt i alt

29 Korrelation

30 Eksempel: Korrelation
I Excels Data Analyse vælger man Korrelation.

31 Korrelation Korrelationen, som forkortes med bogstavet r, beskriver den linære association mellem x og y. Korrelationen ‘r’ har samme fortegn, +/-, som hældningen, b, i regressionsligningen. Korrelationen ‘r’ er et tal i intervallet mellem -1 og +1, begge tal inklusiv. Jo større absolut værdi af r, des stærkere er den lineære association. Man kan ikke bruge hældningen, b, til at beskrive styrken af associationen mellem x og y, fordi hældningens nummeriske værdi afhænger af den enhed, der måles i. Korrelationen er en standardiseret version af hældningen. Korrelationen afhænger ikke af den enhed, der måles i.


Download ppt "Dagens program Informationer Opsamling Projekt 3 Regression"

Lignende præsentationer


Annoncer fra Google