Statistik Lektion 15 Mere Lineær Regression

Slides:



Advertisements
Lignende præsentationer
Hypotese test – kapitel 6 (Signifikans test)
Advertisements

Statistik Lektion 18 Multipel Linear Regression
Statistik Lektion 17 Multipel Lineær Regression
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 6
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri 1: F81 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
KM2: F61 Kvantitative metoder 2 Den simple regressionsmodel 21. februar 2007.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Inge Henningsen Stat BK uge
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statistik Lektion 15 Mere Lineær Regression Modelkontrol Prædiktion Multipel Lineære Regression

Simpel Lineær Regression - repetition Model: Spørgsmål: ”Afhænger y lineært af x ?”. Systematisk komponent + Stokastisk komponent

Estimation - repetition Vha. Mindste Kvadraters Metode finder vi regressionslinjen hvor Residual:

Kovarians og Korrelation Definition af kovarians: Cov(X,Y)=E[(EX-μX )(EY-μY)] Definition af korrelationskoefficient: r beskriver i hvor høj grad der er en lineær sammenhæng mellem X og Y. Estimat af r :

Forklaret og uforklaret afvigelse Yi’s afvigelse fra kan opdeles i to: Y Uforklaret afvigelse Totale afvigelse Forklaret afvigelse X

Den totale variation Den totale variation for data er ”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total

Total og forklaret variation - illustration Y X Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinien

Opslitning af den totale variation Den totale variation kan opslittes: er den uforklarede variation. er den forklarede variation. SSR = Sum of Squares Regression

Total og forklaret variation Opsplitning af variationen

Determinations koeffcienten Determinations Koeffcienten: Andelen af den totale variation, der er forklaret. Pr definition: 0 ≤ r2 ≤ 1. Jo tættere r2 er på 1, jo mere af variationen i data er forklaret af modellen. r2 >0.8 er godt! … r2 meget tæt på 1 er dog mistænkeligt.

Eksempler på r2 Y Y Y X X X SST SST SST SSE SSE SSR SSR r2 = 0

Eksempel: Reklamebudget vs salg

Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! Er der en lineær sammenhæng mellem X og Y ? Er fejlleddene ε1,…, εn uafhænige? Følger fejlleddene ε1,…, εn alle N(0,s2) ?

Residualanalyse Bemærk at residualet er et estimat af fejlledet ei. Dvs. ei’erne groft sagt skal opføre sig som uafhængige N(0,s2) variable! Grafisk kontrol: Plot ei’erne mod xi eller .

Residualplot Residualer Residualer ٪ √ Homoskedastisk: Residualerne ser ud til at variere lige meget for alle x eller . Desuden er residualerne ufahængige af hinanden og x. Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. Residualer Residualer ٪ ٪ Tid Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

TV-Statistik-Køkken Jeg har snydt og lavet mit eget data… Det ligner reklame/salg data, men med flere observationer (n=30).

Residualer i SPSS I ’Linear Regression’ vinduet vælges ’Save…’ I ’Save’ vinduet vælges ’Unstandardized’ både under ’Reresiduals’ (ei’erne) og ’Predicted Values’ ( ’erne) .

Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder residualer (’RES_1’) prædiktioner (’PRE_1’) . Derefter kan man fx lave scatter plots.

Scatter plot af residualer (ei’erne) mod ’højde’ (xi’erne) (øverst) residualer (ei’erne) mod prædiktionerne ( ’erne) (nederst). Ser jo ganske usystematisk ud!

Grafiske check for Normalfordeling For at tjekke holdbarheden af antagelsen om normalfordelte fejlled: ( εi~N(0,σ2) ) Lav et histogram over residualerne og se efter om det normalfordelt ud. Lave et normalfordelingsplot (Q-Q plot). Lav et formelt χ2-test for ”goodness of fit” til en normalfordeling for residualerne (Kapitel 14)

Histogram af residualer Det ser jo ca normalfordelt ud…

Normalfordelingsplot (Q-Q plot) For hvert residual ei udregner vi hvor li er antallet af residualer der er mindre end ei, og mi er antallet af residualer med samme værdi som ei. For hvert qi finder vi zi , så P(Z≤ zi )= qi , hvor Z~N(0,1). Hvis ei’erne er normalfordelte vil et plot af (ei, zi) ligge på en ret linie.

Normalfordelingsplot (Q-Q plot) Hvis alle ei’erne er forskellige kan vi bruge en tegning: zi’erne opnås ved at inddele normalfordelingen i n+1 ”lige store stykker”. Areal = 1/(n+1) z5

Vælg ’Analyze → Descriptive Statistics → Q-Q plots’ Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen.

Prædiktion i SLR-modellen Punktprædiktion: Hvilken værdi vil y forventeligt antage, hvis x antager en bestemt værdi, fx x=10 ? Svar: Dvs. vi prædikterer som bedste bud på punktets værdi. Bedst ikke at prædiktere for x–værdier for langt fra, hvor vi har data. Ganske simpelt ved at indsætte x i den estimerede regressions linje!

Prædiktionsinterval for observationen Et (1-α)100% prædiktions interval for Y|X=x er Hvor s=√MSE. Et (1-α)100% konfidens interval for E(Y|X=x) er

Prædiktionsbånd Y Prædiktionsbånd for E[Y|X] Regressionslinje Prædiktionsbånd for Y|X X Prædiktionsbåndene fremkommer ved at betragte konfidensintervallets endepunkter som funktion af x.

Multipel Lineær Regression Data: Sæt af observationer (x1i , x2i , …, xki , yi ) , i = 1,…,n yi er den afhængige variabel x1i , x2i , …, xki er de k forklarende/uafhængige forklarende variable for yi. Model: Yi = β0 + β1x1i +…+ βkxki + εi ε1 ,…,εn IID εi ~ N(0,σ2) E[Yi | x ] = β0 + β1x1 +…+ βkxk (lineær middelværdi-struktur)

Forudsætninger Lineær sammenhæng mellem Y og Xj. Xj’erne er faste tal εi~N(0,σ2) (uafhængigt af x og andre ε) Xi’erne skal være lineært uafhængige

Eksempel Model for i’te persons vægt: Eksempel: Y = Vægt Yi = Vægt for i’te person X1 = Højde X1i = Højde for i’te person X2 = Alder X2i = Alder for i’te person Model for i’te persons vægt:

Multipel regression – illustration (k = 2) x2 y y ε 2 1 0 x1

Parameter fortolkninger β0 = Værdi af E(Y| x1=x2=…=xk=0) βj = Konstant der siger, hvor meget E(Y|X) ændrer sig hvis xj vokser med 1 og alle andre xi’er forbliver uforandrede. Eks: β2 marginal ændring i vægt som funktion af marginal ændring i alder.

Estimeret Model og Residualer ei Model Estimeret model Residual x2 x1 y

Estimation: Mindste kvadraters metode Minimer summen af de kvadrerede residualer Matematisk set samme procedure som i simpel lineær regression: Differentier med hensyn til bj , j=0,...,k og sæt de k+1 ligninger lig nul. Resultat: (k+1) ligninger med (k+1) ubekendte. Løs!! (kræver mere avanceret matematik og ekstra meget te på kanden)

Multipel Lineær Regression i SPSS En måde at lave multipel lineær regression på er vha. ’Linear Regression’ funktionen, hvor I blot indsætter flere variable som ’Independent’.

Eksempel Model: yi = Vægt for i’te person x1i = Højde og x2i = Alder for i’te person. Estimerede regressionslinje:

Estimat af s2 – Fejlleds-variansen Estimatoren er unbiased.

Test: ”Er modellen umagen værd”? (Vi kan lige så godt sige, at y’erne alle har en og samme middelværdi) Hypoteser H0: b1 = b2 = …= bk = 0 H1: Mindst et bj ≠ 0 Hvis H0 er sand: MSR = SSR/k også et estimat af s2. Hvis H0 ej sand: Så er MSR generelt større end s2. Hvis H0 sand: MSR/MSE ~ F(k,n-k-1) (Der er en lineær sammenhæng mellem y og mindst ét af xj’erne)

ANOVA Tabellen Jo større F=MSR/MSE er, jo mindre tror vi på H0. Source of variation Sums of squares df Mean Squares F-ratio P-værdi Regression SSR k MSR=SSR/k MSR/MSE ? Error SSE n-k-1 MSE= SSE/(n-k-1) Total SST n-1 Jo større F=MSR/MSE er, jo mindre tror vi på H0. P-værdien er sandsynligheden for at observere en større F værdi ”næste gang”, hvis H0 er sand.

Eksempel (fortsat…) F = MSR / MSE = 104615,0 / 111,98 = 934,23 P-værdien er mindre end 0,05, så afviser vi H0 hypotesen, dvs. Vægt har en lineær sammenhæng med enten Højde eller vægt – eller begge.

Test for regressionsparametre Som i simpel lineær regression har vi hvor σ(bi)2 estimeres ved s(bi)2. Udregningen af s(bi)2 overlader vi til SPSS.

Test for regressionsparametre Test for hypotesen Teststørrelse: Problem: Som ved varians-analysen har vi problemer med det samlede signifikans-niveau når vi laver mange test. (Ingen lineær sammenhæng mellem y og xi)

Eksempel Betragt H0: β1=0 (Ingen lineær samh. med højde) H1: β1≠0 t-teststørrelsen: Da P-værdien er mindre end 0.05, forkaster vi H0.