Variansanalyse Modelkontrol

Slides:



Advertisements
Lignende præsentationer
Dummyvariabler 13. oktober 2006
Advertisements

Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 6
Variansanalyse Modelkontrol
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Variansanalyse Modelkontrol Statistik II 3. Lektion Variansanalyse Modelkontrol

Multipel Lineær Regression Y afhængig skala variabel X1,…,Xk k forklarende variable, skala eller binære Multipel Lineær Regressionsmodel: xj,i er j’te forklarende variabel for i’te observation. Fejlleddet ei ”opsamler” den uforklarede del af modellen. Antagelser: e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) Konsekvens:

Lidt mere om F-testet Formål: Sammenligne en komplet model med en reduceret model. Komplet model: Reduceret model: Bemærk: Reduktionen består i at fjerne (de sidste) q forklarende variable fra den komplette model. Spørgsmål: Er det ok at fjerne de q variable?

Hypotesen Hypotese: Den reducerede model er tilstrækkelig: H0 : bk-q+1 = … = bk = 0 H1 : Mindst et bj  0 , j = k-q+1,…,k. Determinationskoefficienten (R2) for de to modeller: komplette model. reducerede model. F-teststørrelse: Bemærk:

Afgørelsens time… Intuition: Hvis H0 er sand så… bk-q+1 = … = bk = 0 De forklarende variable xk-q+1 , …, xk har lille betydning Konklusion: Hvis H0 er sand forventer vi altså en lille F-værdi Er F-værdien ”stor” afviser vi H0.

Variansanalyse (ANOVA ) Analysis of Variance Setup: Kun kategoriske forklarende variable Eksempel: Y: Månedlige forbrug (Amount spent - amtspend) X1: Shoppestil (Shopping style - style) Hver anden uge: Biweekly (B) Hver uge: Weekly (W) Ofte: Often (O) Spørgsmål: Påvirker ’style’ forbruget?

Grafisk overblik

Omkodning vha. Dummies For at kunne anvende en MLR model må den kategoriske style variabel omkodes til dummy variable: To binære dummy variable: XB og XW Bemærk: k kategorier omkodes til k-1 dummy variable Model: Style XB XW Biweekly 1 Weekly Often

Hypotesen Model: E[Y | Style = B] = a + bB E[Y | Style = W] = a + bW E[Y | Style = O] = a Hypotese: Middelværdien er den samme for alle styles: H0: bB = bW = 0 H1: bB  0 og/eller bW  0 Afgøres vha. et F-test, hvor q = 2.

SPSS

To-sidet Variansanalyse Ide: Tage højde for køn X2: Køn (Mand/Kvinde) (Gender - gender) Omkodes til dummy variabel: XM = 1 hvis X2 = Mand Model: Tester to nul-hypoteser: H0: bB = bW = 0 (Ingen effekt af style) H0: bM = 0 (Ingen effekt af gender)

SPSS

Interaktion? Er der en vekselvirkning mellem gender og style?

Model med Interaktion Model: Hypotese: Ingen interaktion H0: bBM = bWM = 0 Hypotese: Ingen hovedeffekt af style H0: bB = bW = 0 Hypotese: Ingen hovedeffekt af gender H0: bM = 0 Det hierarkiske princip: Det giver ikke mening at teste hovedeffekter, når de indgår i en interaktion.

SPSS Bemærk: Hoved-effekter før interaktioner!

SPSS Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening. Konklusion?

Estimerede model Estimerede model er: = 405,727 + 2,048 XM -61,751 XB -44,006 XW + 67,042 XBM + 77,196 XWM

F-testen igen igen F-testen også skrives som SSq er ”Sum of Squares” for de q variable vi vil fjerne. MSq og MSE er ”Mean Sqaures…” SSq q MSq = SSq/q F=MSq/MSE SSE n-k-1 MSE=SSE/(n-k-1)

Forbrug = Stil + Køn + Stil*Køn Modelform Modellen for forbrug forklaret ved shoppe-stil og køn kan altså skrives som Her er xB, xW og xM dummy variable. At skrive formlen op kan hurtigt blive uoverskueligt. Modellens modelform kan skrives som Forbrug = Stil + Køn + Stil*Køn I forbindelse med analyse eller fortolkning af model-parametre er det stadig nyttigt at skrive den matematiske formel op.

Modelkontrol - Motivation Vores konklusioner om variables vigtighed baseres på p-værdi. p-værdien er en ”halesandsynlighed” i en fordeling, fx F-fordelingen. F-fordelingen baserer sig på antagelser om at fejlleddet e er normalfordelt og har konstant varians (homoskedastisk). Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiske fejlled passer!

Residual I den sande model har vi Det kan vi skrive om til Residualet, ei, er derfor et estimat af fejlleddet: Da ei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).

Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! Antagelse: Middelværdi-strukturen i modellen er Kan være svært at checke direkte, hvis vi har mange forklarende variable. Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne. Grafisk check: plot af af ei mod .

Modelkontrol Antagelse: Fejlleddene e1,…, en uafhænige? Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne. Grafisk check: Et plot at ei mod eller x. Antagelse: Fejlleddene e1,…, en ~ N(0,s2)? Hvis sandt regner vi med at ei’erne er cirka normalfordelte. Et plot at ei mod kan afsløre om variansen er konstant (homoskedatiske fejlled). Et histogram eller QQ-plot kan afsløre om ei’erne er normalfordelte

Residualplot Residualer √ Residualer ٪ Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x (eller ). Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. Residualer ٪ ٪ Residualer Tid Residualerne udviser lineær trend med tiden (eller en anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

Eksempel: Salg og Reklame Data: n = 30 par af observationer (xi,yi) yi = Ugentlige salg xi = Ugentlige reklame-budget Model: Hvor ei ~N(0,s2)

Residualer i SPSS I ’Linear Regression’ vinduet vælges ’Save…’ I ’Save’ vinduet vælges ’Unstandardized’ både under ’Reresiduals’ (ei’erne) og ’Predicted Values’ ( ’erne) .

Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder residualer (’RES_1’) prædiktioner (’PRE_1’) . Derefter kan man fx lave scatter plots.

Scatter plot af residualer (ei’erne) mod ’højde’ (xi’erne) (øverst) residualer (ei’erne) mod prædiktionerne ( ’erne) (nederst). Ser jo ganske usystematisk ud!

Histogram af residualer Histogrammet burde ligne en normalfordeling. Det gør det også sådan cirka – så ingen problemer her

Normalfordelingsplot (Q-Q plot) Konstruer et ”kunstige” data u1,u2,…,un som følger en normalfordeling. I et Q-Q plot plotter man ui. mod ei. Bemærk at både ui’erne og ei’erne er sorterede. Hvis residualerne er normalfordelte, vil vi have ei ≈ ui. Dvs (ei,ui) ligge usystematisk omkring en linje med hældning 1 og skæring 0.

Normalfordelingsplot (Q-Q plot) Det kunstige data (ui’erne) opnås ved at inddele normalfordelingen i n+1 lige store stykker. Areal = 1/(n+1) u5

Vælg ’Analyze → Descriptive Statistics → Q-Q plots’ Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen. Punkterne ligger rimlig usystematisk omkring linjen: Altså ca. normalfordelt

Modelsøgning Formål: Find den simplest mulig model, der beskriver data tilfredsstillende. Kandidater: Vi vil kun bruge modeller der overholder det hierarkiske princip: Hvis en model indeholder en interaktion, så skal hovedeffekterne også være med. Fx. Hvis modellen indeholder interaktionen A*B, så skal den også indeholde A og B. Hvis modellen indeholder A*B*C, så skal A*B, A*C, B*C, A, B og C være med. Osv… Naiv søgning: Gennemgå alle modeller og vælg den der er bedst efter et eller andet kriterie, fx R2. Backwards søgning: Start med en kompliceret model og fjern derefter en efter en led, der ikke er signifikante.

Justeret R2 Modelsøgning mht. R2 er ikke ideelt. Definition: Trade-off mellem forklaringsgrad, R2, og antallet af parametre, k. Fordel: Vokser kun, hvis ekstra forklarende variabels forklaringsgrad er stor i forhold til antal ekstra parametre. Ulempe: Ikke samme simple fortolkning som R2.

Backwards søgning Backwards-søgning: Startmodel: Vælg til at starte med en model, der indeholder alle variable og vekselvirkninger, der menes at være (fagligt) interessante som forklaring den afhængige variabel. Undgå at specificere en model der er vanskelig at fortolke. Test hvilke led i modellen, der kan fjernes. Mindst signifikante led fjernes, dvs F-test med højest p-værdi, dog så Det hierarkiske princip er overholdt p-værdien > a (typisk a = 0.10) Reduceret model: Når et led er fjernet udføres en ny analyse på den nye og mindre model. Slutmodel: Når ikke flere led kan fjernes har vi vores slutmodel. Forbehold: Før hver ”test-runde” skal man afklare om modellens antagelser er opfyldt – ellers kan man ikke stole på p-værdierne.