Anvendt Statistik Lektion 7

Slides:



Advertisements
Lignende præsentationer
Anvendt Statistik Lektion 3
Advertisements

Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Grundlæggende teoretisk statistik
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II 5. Lektion Log-lineære modeller.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Heteroskedasticitet 17. marts 2006
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Heteroskedaticitet (Specifikation og dataproblemer) 2. november 2005.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
KM2: F61 Kvantitative metoder 2 Den simple regressionsmodel 21. februar 2007.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Anvendt Statistik Lektion 7 Simpel Lineær Regression

Er der en sammenhæng? Plot af mordraten (y) mod fattigdomsraten (x): Afhænger mordraten af fattigdomsraten? Scatterplot

Scatterplot Et scatterplot er et plot af to variable: Y Et scatterplot er et plot af to variable: x : forklarende variabel (fattigdomsraten) y : respons-variabel (mordraten) For den i’te observation har vi xi (fattigdomsraten for i’te stat) yi (mordraten for i’te stat) Data: (x1,y1), (x2,y2),…, (xn,yn) (xi,yi) yi x xi

Forventet respons: En ret linje Den rette linje a + bx beskriver den forventede (dvs. middel) respons: E[y] = a + bx Eksempel: E[y] = 210 + 25x Fortolkning: Antag x = 4 (fattigdomsraten), så er det forventede mordrate 210 + 25·4 = 310. Hvis x øges med 1, så øges den forventede værdi af y med 25. y UK: Expected E[y] = a + bx b 1 a x Hvis x = 0 , så er den forventede værdi af y = 210.

Fejlleddet y De enkelte datapunkter (xi,yi) ligger typisk ikke præcist på regressionslinjen. Afvigelsen mellem punkt og linjen betegnes fejlleddet ei. Regressionsmodel: yi = a + bxi+ ei Bemærk: n fejlled e1, e2, ..., en. (xi,yi) a + bx yi ei x xi Flere detaljer og antagelser på næste slide…

Simpel lineær regressionsmodel Y - afhængige/respons variabel. X - uafhængige/forklarende variabel – faste tal a - skæringspunkt med y-aksen b - det græske bogstav ”beta” b1 - hældningskoefficient iid - UK: independent, identically distributed = uafhængig, identisk fordelte e - det græske bogstav ”epsilon” ei - fejlled - det eneste stokastiske element i modellen

Lineær regressionsmodel: Figur yi = a + bxi+ ei Om fejlledene ei antager vi: Normalfordelt Middelværdi nul Konstant standard-afvigelse s Dvs. punkterne ligger usystematisk spredt omkring en ret linje, hvor variationen er konstant. Y Fordelingen af yi omkring regressionslinjen. iid normalfordelte fejlled x1 x3 x2 x4 x5 X Kontinuert forklarende variabel x

Forudsætninger for SLR (1/3) Der er en lineær sammenhæng mellem X og Y. Indledende tjek: Scatter plot af (x,y) – ser punkterne ud til at ligge langs en ret linje? y y y y x

Forudsætninger for SLR (2/3) Værdierne af de uafhængige variable x antages at være faste – dvs. ikke stokastiske. Mao. Antages x at være kendt eller målt uden ”støj”/”målefejl” Indledende tjek: Logisk sans.

Forudsætninger for SLR (3/3) Fejledene ei antages være uafhængige og normalfordelte med middelværdi 0 og konstant standardafvigelse s. Indledende tjek: Se efter indlysende problemer i scatter plot af (x,y). y y y y x

Er der en sammenhæng? Graphs → Chart builder → Scatter/Dot → Simple Scatter Er antagelserne opfyldt? Outlier Scatterplot Samme plot uden outlier’eren

En tilnærmet linje En estimeret regressionslinje er givet ved: Her er y En estimeret regressionslinje er givet ved: Her er a et estimat af a b et estimat af b ”y hat” er estimat af E(y) Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi - . (xi,yi) E[y] = a + bx = a + bx yi ei = a + bx x xi

Mindste kvadraters metode y Summen af de kvadrede residualer betegnes: UK: Sum of Squared Errors. SSE kan skrives som (xi,yi) E[y] = a + bx yi ei = a + bx x xi Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode.

Estimater af a , b og s Mindste kvadraters metode giver følgende estimater Estimatet for b er Estimatet for a er Estimat for s er

Mere om lineær regression Prædiktion: For en ny værdi x kan vi prædiktere værdien af y: Skæring i middel: Regressionslinjen skærer i : Summen af residualer: Summen af alle residualer er nul: y = a + bx x x

Simpel lineær regression i SPSS Anazyze → Regression → Linear y x

SPSS: Resultat Den estimerede regressionslinje er altså: Fortolkning b Den estimerede regressionslinje er altså: Fortolkning Hver gang fattigdomsraten stiger et point stiger den forventede mordrate med 1,323 mord pr 100.000. Hvis der er nul procent fattige, så er den forventede mordrate -10,136… Hvis procent fattige er 16.2, så er den prædikterede mordrate: -10.136 + 1.323·16.2 = 11.30. = -10,136 + 1,323 x

Regressionslinje i SPSS Graphs → Chart builder → Scatter/Dot → Simple Scatter Efterfølgende dobbelt-klik på plottet og vælg: Elements → Fit line at total Outlier

Estimat af s Simpel lineær regression i SPSS giver også følgende resultater: Estimat af s : Dvs. vi forventer at ca. 95% af punkterne ligger højst 2·8.9 enheder fra regressionslinjen. SSE n--2 SSE/(n-2)

Hypotesetest af b Nul-hypoteser: H0: b = 0 Alternativ-hypoteser: Ha: b  0 Ha: b > 0 Ha: b < 0 Teststørrelse hvor se er standardfejlen: Hvis H0 er sand, så følger t en t-fordeling med df = n-2 frihedsgrader ,hvor

Ikke-lineær sammenhæng Fortolkning af H0: β = 0 Er der en lineær sammenhæng mellem X og Y? H0: β = 0 ingen lineær sammenhæng Ha: β ≠ 0 lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineær sammenhæng Y Y Y X X X

Hypotesetest i SPSS H0: b = 0 vs Ha: b  0 t-fordeling med df = n-2 P-værdi H0: b = 0 vs Ha: b  0 Ifølge SPSS er P-værdien < 0.0005 Dvs. vi afviser H0. Dvs. er er en lineær sammenhæng ml. fattigdoms- og mordraten. -4.804 4.804

Konfidensintervaller for b Konfidensintervallet for b følger det sædvanlige mønster: b ± tn-2,a/2 · se Standardfejlen se udregnes som før, og udregnes i praksis af SPSS. I dialogboksen for lineær regression tilvælges konfidensintervaller under ’statistics’ 95% konf. int.: 1.323 ± 2.01 · 0.275 = [ 0.770 ; 1.876 ] t49,0.025 = 2.01

Korrelationen r Graden af lineær sammenhæng mellem x og y kan måles ved korrelation r . Korrelationen kan udregnes som Hvor sx og sy standardafvigelserne for hhv. x og y: og

Korrelationen: Egenskaber Egenskaber ved korrelationen: -1 ≤ r ≤ 1 r har samme fortegn som b r = 0 : ingen lineær sammenhæng r = ± 1 : perfekt lineær sammenhæng Jo større absolut værdi, jo stærkere lineær sammenhæng

Illustration af korrelation Y X r = 1 Y X r = -1 Y X r = 0 Y X r = -.8 Y X r = 0 Y X r = .8

Korrelation i SPSS Som en del af output’et for lineær regression får man bl.a. følgende kasse: Korrelationen er her r = 0.565, dvs. en middel lineær sammenhæng. Korrelationen r

Forklaret og uforklaret afvigelse Yi’s afvigelse fra kan opdeles i to: Y Uforklaret afvigelse Totale afvigelse Forklaret afvigelse x

Kvadratsummer Sums of squares: Total sum of squares: TSS er den totale variation i yi’erne. Sum of squared errors: SSE er den uforklarede del af variationen i yi’erne. SSE ≤ TSS TSS – SSE ≥ 0 den forklarede variation.

Total og uforklaret variation - illustration TSS SSE Den totale variation ses når vi ”kigger langs” x-aksen. Den uforklarede variation ses når vi ”kigger langs” regressionslinjen.

Determinationskoefficienten r 2 TSS Den totale variation TSS – SSE Den forklarede variation Determinationskoefficienten Fortolkning r2 er andelen af den totale variation i yi’erne der er forklaret af xi’erne. Fx: Hvis r2 = 0.62, så er 62% af variation i y forklaret af x.

Determinationskoefficienten i SPSS Som en del af output’et for lineær regression får man bl.a. følgende kasse: Determinationskoefficienten er her r2 = 0.320, dvs. 32% af variationen i mordraten er forklaret af fattigdomsraten. Determinationskoefficienten r2

Determinationskoefficienten i SPSS Graphs → Chart builder → Scatter/Dot → Simple Scatter r2