Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Simpel Lineær Regression

Lignende præsentationer


Præsentationer af emnet: "Simpel Lineær Regression"— Præsentationens transcript:

1 Simpel Lineær Regression
Statistik Lektion 3 Simpel Lineær Regression

2 Kriminalitet og uddannelse i Florida: Er der en sammenhæng?
Plot af ”kriminalitet” (y) mod ”uddannelsesniveau” (x): Er der en sammenhæng? Scatterplot

3 Scatterplot Et scatterplot er et plot af to variable:
Y Et scatterplot er et plot af to variable: x : forklarende variabel (percent high school) y : respons variabel (crime rate) For den i’te observation har vi xi (crime rate for i’te distrikt) yi (% high school for i’te distrikt) Data: (x1,y1), (x2,y2),…, (xn,yn) (xi,yi) yi x xi

4 Forventet respons: En ret linje
Den rette linje a + bx beskriver den forventede (dvs. middel) respons: E[y] = a + bx Eksempel: E[y] = ,5x Fortolkning: Antag x = 40 (% high school), så er den forventede crime rate ,5·40 = 310 Hvis x øges med 1, så øges den forventede værdi af y med 2,5. y UK: Expected E[y] = a + bx b 1 a x Hvis x = 0 , så er den forventede værdi af y = 210.

5 Fejlleddet y De enkelte datapunkter (xi,yi) ligger ikke præcist på regressionslinjen. Afvigelsen mellem punkt og linjen betegnes fejlleddet ei. Regressionsmodel: yi = a + bxi+ ei Bemærk: n fejlled e1, e2, ..., en. (xi,yi) a + bx yi ei x xi Flere detaljer og antagelser på næste slide…

6 Simpel lineær regressionsmodel
Y - den afhængige variabel. X - den uafhængige variabel – faste β - det græske bogstav ”beta” β0 - skæringspunkt med y-aksen β1 - hældningskoefficient iid - UK: independent, identically distributed = uafhængig, identisk fordelte ε - det græske bogstav ”epsilon” εi - det eneste stokastiske element i modellen

7 Lineær regressionsmodel: Figur
yi = a + bxi+ ei Om fejlledene ei antager vi: Normalfordelt Middelværdi nul Konstant standard-afvigelse s Dvs. punkterne ligger usystematisk spredt omkring en ret linje, hvor variationen er konstant. Y Fordelingen af yi omkring regressionslinjen. i.i.d. normalfordelte fejlled x1 x3 x2 x4 x5 X Kontinuert forklarende variabel x

8 Visuelt check af antagelser
Lav et scatter plot y y % y % y x

9 En tilnærmet linje En estimeret regressionslinje er givet ved: Her er
y En estimeret regressionslinje er givet ved: Her er a et estimat af a b et estimat af b ”y hat” er estimat af E(y) Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi (xi,yi) E[y] = a + bx = a + bx yi ei = a + bx x xi

10 Mindste kvadraters metode
y Summen af de kvadrede residualer betegnes: UK: Sum of Squared Errors. SSE kan skrives som (xi,yi) E[y] = a + bx yi ei = a + bx x xi Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode.

11 Simpel lineær regression i SPSS
Analyze → General Linear Model → Univariate y x

12 SPSS: Resultat Den estimerede regressionslinje er altså: Fortolkning
b Den estimerede regressionslinje er altså: Fortolkning Hver gang procent high school stiger et point stiger den forventede crime rate med 1,501 mord pr Hvis der er nul procent high school, så er den forventede crime rate -51,806… Hvis procent high school er 71,2, så er den prædikterede crime rate: -51, ,501·71,2 = 55,07. = -51, ,501 x

13 Regressionslinje i SPSS
Graphs → Chart builder → Scatter/Dot → Simple Scatter Efterfølgende dobbelt-klik på plottet og vælg: Elements → Fit line at total

14 Hypotesetest af b Nul-hypoteser: H0: b = 0 Alternativ-hypoteser:
Ha: b  0 Ha: b > 0 Ha: b < 0 Teststørrelse hvor se er standardfejlen: Hvis H0 er sand, så følger t en t-fordeling med df=n-2 frihedsgrader ,hvor

15 Ikke-lineær sammenhæng
Fortolkning af H0: β = 0 Er der en lineær sammenhæng mellem X og Y? H0: β1 = 0 ingen lineær sammenhæng Ha: β1 ≠ 0 lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineær sammenhæng Y Y Y X X X

16 Hypotesetest i SPSS H0: b = 0 vs Ha: b  0
t-fordeling med df = n-2 P-værdi H0: b = 0 vs Ha: b  0 Ifølge SPSS er P-værdien < Dvs. vi afviser H0. Dvs. er er en lineær sammenhæng ml. crime og high school. -4.156 4.156

17 Total og uforklaret variation - illustration
TSS SSE Den totale variation ses når vi ”kigger langs” x-aksen. Den uforklarede variation ses når vi ”kigger langs” regressionslinjen.

18 Determinationskoefficienten r 2
TSS Den totale variation TSS – SSE Den forklarede variation (totale – uforklarede) Determinationskoefficienten Fortolkning r2 er andelen af den totale variation i yi’erne der er forklaret af xi’erne. Fx: Hvis r2 = 0.62, så er 62% af variation i y forklaret af x.

19 Determinationskoefficienten i SPSS
Som en del af output’et for lineær regression får man bl.a. følgende kasse: Determinationskoefficienten er her R2 = 0.218, dvs. 21,8% af variationen i crime rate er forklaret af % high school. Determinationskoefficienten r2

20 Determinationskoefficienten i SPSS
Graphs → Chart builder → Scatter/Dot → Simple Scatter r2

21 Multipel Lineær Regression (MLR)
a + b1x1+b2x2 Antag vi har y : afhængig variabel x1 : første forklarende var. x2 : anden forklarende var. MLR model: yi = a + b1x1,i+b2x2,i+e Her: x1,i er værdien af x1 for i’te ”person”. Forventede værdi: E[y] = a + b1x1+b2x2 Dvs. regressionsplanet angiver gennemsnittet for responsen y yi ei x2 x2,i x1,i x1

22 yi = a + b1x1,i+b2x2,i+ ··· +bkxk,i +e
Fortolkning af bi Antag vi har k forklarende variable: yi = a + b1x1,i+b2x2,i+ ··· +bkxk,i +e Fortolkningen af bj: Hvis x1 øges med 1, så øges den forventede værdi af y med b1, hvis x2, x3, …, xk forbliver uændrede.

23 Eksempel: Kriminalitet i Florida (fortsat)
Teori: Kriminalitet afhænger også af graden af ubanisering. Multipel lineær regression af Crime rate (y) mod både Uddannelser (x1) og Urbanisering (x2). Prædiktionsligning: Bemærk: Effekten af uddannelser er nu negativ og ikke længere signifikant (P-værdi >> 5%).

24 Eksempel: Kriminalitet i Florida (fortsat)
Prædiktionsligning: Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering). For hver ekstra procent-point uddannede falder crime rate med 0.54. Bemærk at effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

25 Simpsons paraksok - igen
Sammenhæng mellem crime rate og uddannelse Sort linje: SLR for alle data Blå linje: SLR kun for områder med høj grad af urbanisering. Grøn linje: SLR kun for områder med lav urbanisering. Bemærk hvor forskellig sammenhængen er i de to grupper.

26 Eksempel: Kriminalitet i Florida (fortsat)
Prædiktionsligning: Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering). For hver ekstra procent-point uddannede falder crime rate med 0.54. Bemærk: Effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

27 Hypotesetest for MLR: F-test
MLR model: y = a + b1x1+b2x2+ ··· +bkxk +e Er der mindst en af xj’erne der har en lineær sammenhæng med y? Nul-hypotese: H0: b1 = b2 = … = bk = 0 Alternativ-hypotese: Ha: Mindst et bj  0 Teststørrelse: y har ingen lineær sammenhæng med et eneste xj. y har en lineær sammenhæng med med mindst et af xj’erne. Jo større F jo mindre tror vi på H0.

28 F-testet Hvis H0 er sand, så følger F en F-fordeling.
Som c2-fordelingen kan F-fordelingen kun tage positive værdier. P-værdien finder vi vha. SPSS (næste slide). Hvis P-værdien < 0.05 afviser vi H0, dvs. y har en lineær sammenhæng med mindst en af de forklarende variable. P-værdi Observeret F

29 F-test i SPSS I eksemplet: Konklusion? F-værdi P-værdi P-værdi 9.495
Nyl-hypotesen vedrører to b ’er. I eksemplet: Konklusion? F-værdi P-værdi P-værdi 9.495


Download ppt "Simpel Lineær Regression"

Lignende præsentationer


Annoncer fra Google