Simpel Lineær Regression

Slides:



Advertisements
Lignende præsentationer
Hypotese test – kapitel 6 (Signifikans test)
Advertisements

Anvendt Statistik Lektion 3
Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Grundlæggende teoretisk statistik
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Simpel Lineær Regression Statistik Lektion 3 Simpel Lineær Regression

Kriminalitet og uddannelse i Florida: Er der en sammenhæng? Plot af ”kriminalitet” (y) mod ”uddannelsesniveau” (x): Er der en sammenhæng? Scatterplot

Scatterplot Et scatterplot er et plot af to variable: Y Et scatterplot er et plot af to variable: x : forklarende variabel (percent high school) y : respons variabel (crime rate) For den i’te observation har vi xi (crime rate for i’te distrikt) yi (% high school for i’te distrikt) Data: (x1,y1), (x2,y2),…, (xn,yn) (xi,yi) yi x xi

Forventet respons: En ret linje Den rette linje a + bx beskriver den forventede (dvs. middel) respons: E[y] = a + bx Eksempel: E[y] = 210 + 2,5x Fortolkning: Antag x = 40 (% high school), så er den forventede crime rate 210 + 2,5·40 = 310 Hvis x øges med 1, så øges den forventede værdi af y med 2,5. y UK: Expected E[y] = a + bx b 1 a x Hvis x = 0 , så er den forventede værdi af y = 210.

Fejlleddet y De enkelte datapunkter (xi,yi) ligger ikke præcist på regressionslinjen. Afvigelsen mellem punkt og linjen betegnes fejlleddet ei. Regressionsmodel: yi = a + bxi+ ei Bemærk: n fejlled e1, e2, ..., en. (xi,yi) a + bx yi ei x xi Flere detaljer og antagelser på næste slide…

Simpel lineær regressionsmodel Y - den afhængige variabel. X - den uafhængige variabel – faste β - det græske bogstav ”beta” β0 - skæringspunkt med y-aksen β1 - hældningskoefficient iid - UK: independent, identically distributed = uafhængig, identisk fordelte ε - det græske bogstav ”epsilon” εi - det eneste stokastiske element i modellen

Lineær regressionsmodel: Figur yi = a + bxi+ ei Om fejlledene ei antager vi: Normalfordelt Middelværdi nul Konstant standard-afvigelse s Dvs. punkterne ligger usystematisk spredt omkring en ret linje, hvor variationen er konstant. Y Fordelingen af yi omkring regressionslinjen. i.i.d. normalfordelte fejlled x1 x3 x2 x4 x5 X Kontinuert forklarende variabel x

Visuelt check af antagelser Lav et scatter plot y y √ % y √ % y x

En tilnærmet linje En estimeret regressionslinje er givet ved: Her er y En estimeret regressionslinje er givet ved: Her er a et estimat af a b et estimat af b ”y hat” er estimat af E(y) Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi - . (xi,yi) E[y] = a + bx = a + bx yi ei = a + bx x xi

Mindste kvadraters metode y Summen af de kvadrede residualer betegnes: UK: Sum of Squared Errors. SSE kan skrives som (xi,yi) E[y] = a + bx yi ei = a + bx x xi Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode.

Simpel lineær regression i SPSS Analyze → General Linear Model → Univariate y x

SPSS: Resultat Den estimerede regressionslinje er altså: Fortolkning b Den estimerede regressionslinje er altså: Fortolkning Hver gang procent high school stiger et point stiger den forventede crime rate med 1,501 mord pr 100.000. Hvis der er nul procent high school, så er den forventede crime rate -51,806… Hvis procent high school er 71,2, så er den prædikterede crime rate: -51,806 + 1,501·71,2 = 55,07. = -51,806 + 1,501 x

Regressionslinje i SPSS Graphs → Chart builder → Scatter/Dot → Simple Scatter Efterfølgende dobbelt-klik på plottet og vælg: Elements → Fit line at total

Hypotesetest af b Nul-hypoteser: H0: b = 0 Alternativ-hypoteser: Ha: b  0 Ha: b > 0 Ha: b < 0 Teststørrelse hvor se er standardfejlen: Hvis H0 er sand, så følger t en t-fordeling med df=n-2 frihedsgrader ,hvor

Ikke-lineær sammenhæng Fortolkning af H0: β = 0 Er der en lineær sammenhæng mellem X og Y? H0: β1 = 0 ingen lineær sammenhæng Ha: β1 ≠ 0 lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineær sammenhæng Y Y Y X X X

Hypotesetest i SPSS H0: b = 0 vs Ha: b  0 t-fordeling med df = n-2 P-værdi H0: b = 0 vs Ha: b  0 Ifølge SPSS er P-værdien < 0.0005 Dvs. vi afviser H0. Dvs. er er en lineær sammenhæng ml. crime og high school. -4.156 4.156

Total og uforklaret variation - illustration TSS SSE Den totale variation ses når vi ”kigger langs” x-aksen. Den uforklarede variation ses når vi ”kigger langs” regressionslinjen.

Determinationskoefficienten r 2 TSS Den totale variation TSS – SSE Den forklarede variation (totale – uforklarede) Determinationskoefficienten Fortolkning r2 er andelen af den totale variation i yi’erne der er forklaret af xi’erne. Fx: Hvis r2 = 0.62, så er 62% af variation i y forklaret af x.

Determinationskoefficienten i SPSS Som en del af output’et for lineær regression får man bl.a. følgende kasse: Determinationskoefficienten er her R2 = 0.218, dvs. 21,8% af variationen i crime rate er forklaret af % high school. Determinationskoefficienten r2

Determinationskoefficienten i SPSS Graphs → Chart builder → Scatter/Dot → Simple Scatter r2

Multipel Lineær Regression (MLR) a + b1x1+b2x2 Antag vi har y : afhængig variabel x1 : første forklarende var. x2 : anden forklarende var. MLR model: yi = a + b1x1,i+b2x2,i+e Her: x1,i er værdien af x1 for i’te ”person”. Forventede værdi: E[y] = a + b1x1+b2x2 Dvs. regressionsplanet angiver gennemsnittet for responsen y yi ei x2 x2,i x1,i x1

yi = a + b1x1,i+b2x2,i+ ··· +bkxk,i +e Fortolkning af bi Antag vi har k forklarende variable: yi = a + b1x1,i+b2x2,i+ ··· +bkxk,i +e Fortolkningen af bj: Hvis x1 øges med 1, så øges den forventede værdi af y med b1, hvis x2, x3, …, xk forbliver uændrede.

Eksempel: Kriminalitet i Florida (fortsat) Teori: Kriminalitet afhænger også af graden af ubanisering. Multipel lineær regression af Crime rate (y) mod både Uddannelser (x1) og Urbanisering (x2). Prædiktionsligning: Bemærk: Effekten af uddannelser er nu negativ og ikke længere signifikant (P-værdi >> 5%).

Eksempel: Kriminalitet i Florida (fortsat) Prædiktionsligning: Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering). For hver ekstra procent-point uddannede falder crime rate med 0.54. Bemærk at effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

Simpsons paraksok - igen Sammenhæng mellem crime rate og uddannelse Sort linje: SLR for alle data Blå linje: SLR kun for områder med høj grad af urbanisering. Grøn linje: SLR kun for områder med lav urbanisering. Bemærk hvor forskellig sammenhængen er i de to grupper.

Eksempel: Kriminalitet i Florida (fortsat) Prædiktionsligning: Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering). For hver ekstra procent-point uddannede falder crime rate med 0.54. Bemærk: Effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

Hypotesetest for MLR: F-test MLR model: y = a + b1x1+b2x2+ ··· +bkxk +e Er der mindst en af xj’erne der har en lineær sammenhæng med y? Nul-hypotese: H0: b1 = b2 = … = bk = 0 Alternativ-hypotese: Ha: Mindst et bj  0 Teststørrelse: y har ingen lineær sammenhæng med et eneste xj. y har en lineær sammenhæng med med mindst et af xj’erne. Jo større F jo mindre tror vi på H0.

F-testet Hvis H0 er sand, så følger F en F-fordeling. Som c2-fordelingen kan F-fordelingen kun tage positive værdier. P-værdien finder vi vha. SPSS (næste slide). Hvis P-værdien < 0.05 afviser vi H0, dvs. y har en lineær sammenhæng med mindst en af de forklarende variable. P-værdi Observeret F

F-test i SPSS I eksemplet: Konklusion? F-værdi P-værdi P-værdi 9.495 Nyl-hypotesen vedrører to b ’er. I eksemplet: Konklusion? F-værdi P-værdi P-værdi 9.495