Økonometri – lektion 6 Multipel Lineær Regression

Slides:



Advertisements
Lignende præsentationer
Kvantitative metoder 2 Dummyvariabler 28. marts 2007 KM2: F16.
Advertisements

Dummyvariabler 13. oktober 2006
Statistik Lektion 18 Multipel Linear Regression
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 9
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 6
Grundlæggende teoretisk statistik
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Økonometri 1: F91 Økonometri 1 Prediktion. Dummyvariabler 9. oktober 2006.
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Kvalitative variable 8. marts 2006.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 FunktioneI form i den lineære regressionsmodel 11. oktober 2005.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Ellen Holm, Forskningscafé
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Økonometri – lektion 6 Multipel Lineær Regression Kategoriske forklarende variable Polynomiel regression Ikke-lineære modeller

Multipel lineær regression og kvalitative forklarende variable Eksempel Y = Vægt i kg  R (kontinuert. afh. var.) XHøjde = Højde i cm  R (kont. forkl. var.) XKøn = Køn  {Mand,Kvind} (kval. forkla. var.) MLR Model (generelt) Hvordan får vi passet Xkøn ind her?

Omkodning at kvalitativ variabel Omkod Xkøn til binær variabel XKvinde Xkvinde = 1 hvis XKøn = Kvinde Xkvinde = 0 hvis XKøn = Mand Model

Fortolkning af model Når XKøn = Mand Når XKøn = Kvinde To linjer med forskellig skæringspunter! Kvinde angiver forskellen i skæringspunkt.

To regressions linjer med forskellige skæringer, men samme hældning Y Linje for XKvinde=1 β0 + βKvinde Linje for XKvinde=0 β0 X1

Omkodning i SPSS I det konkrete data er køn lagret i variablen ’kon’ som tager værdierne 1 og 2. Da vi skal bruge variabel med værdierne 0 og 1 skaber vi en ny variabel kon2=kon-1. I SPPS anvendes Transform→Compute...

Regressionslinje for mænd: Regressionslinje for kvinder:

Mere end to kategorier Eksempel Y = Vægt i kg  R (kontinuert. afh. var.) XHøjde = Højde i cm  R (kont. forkl. var.) XLøn = Løn  {Lav,Mellem,Høj} (kval. forkla. var.) XLøn har tre kategorier XLøn omkodes til to binære variable

Omkodning at kvalitativ variabel XLøn omkodes til to binære variable XMellem og XHøj: XMellem = 1 hvis XLøn = Mellem XMellem = 0 hvis XLøn ≠ Mellem XHøj = 1 hvis XLøn = Høj XHøj = 0 hvis XLøn ≠ Høj Som tabel XLøn XMellem XHøj Lav Mellem 1 Høj

Fortolkning af model Model: Når XLøn = Lav : Når XLøn = Mellem : Når XLøn = Høj : Tre linjer med forskellig skæringspunter!

Fortolkning af model Fortolkning af model Forskellen i gennemsnitsvægt for to personer med samme højde, men fra hhv. løngruppe ’Mellem’ og ’Lav’. Vi siger at ’Lav’ kategorien er reference-kategori.

Kvalitative Variable og Test Uinteressant hypotesetest (hvorfor?) H0: bMellem = 0 vs H1: bMellem ≠ 0 Interessant hypotesetest (hvorfor?) H0: bMellem = bHøj = 0 H1: bMellem ≠ 0 og/eller bHøj ≠ 0

Hypotesetest H0: bMellem = bHøj = 0 H1: bMellem ≠ 0 og/eller bHøj ≠ 0 SSE: Sum of squared errors for regression, hvor bMellem og bHøj er med. SSE*: Sum of squared errors for regression, hvor bMellem og bHøj ikke er med. Teststørrelse: q: Antal parametre involveret i H0 k: Total antal regressions parametre i modellen

Y b0+bHøj b0+bMellem b0 XHøjde

Dummy-variable Generelt omkodes en kvalitativ/kategorisk variabel med r mulige kategorier til (r-1) dummy variabel. Kategorien uden dummy-variabel kaldes reference-kategorien.

SPSS Output

Vekselvirkning / Interaktion Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, XHøjde og XKvinde som før. Introducer: XHøjde,Kvinde = XHøjde∙XKvinde Model

Fortolkning Når XKøn = Mand: Når XKøn = Kvinde: bHøjde,Kvinde beskriver forskellen i hældningen mellem de to regressionslinjer.

Nu Som Figur! Linie for X2=0 Linie for X2=1 b0 b0+b2 Y Hældning = b1 Hældning = b1+b3 b0+b2

SPSS I SPSS definerer vi en ny variabel ’højde*køn’ vha. ’compute’ funktionen. Teste hypotesen H0: b Højde,Køn = 0 Konklusion: Vi afviser H0 , dvs der er en veksel-virkning.

Mere Vekselvirkning Interaktion opnås generelt ved at indføre nye variable, der er produktet af eksisterende variable. Interaktion med kvalitativ variabel med mere end to kategorier: Indfør interaktions parameter for hver kategori på nær reference-kategorien.

Generelle Lineære Modeller For at undgå at skulle kode en masse binære dummy-variable, kan man i SPSS bruge Analyze → General Linear Model → Univariate Kategoriske variable Kontinuerte variable

Modelkontrol Antag vi har data indsamlet under to forskellige omstændigheder, fx to forskellige årtier. Lad XÅrti være en dummy-variabel, der angiver årtiet. Ved at lade XÅrti vekselvirke med andre variable i modellen, kan man undersøge om sammenhængen mellem Y og de forklarende variable har ændret sig statistisk signifikant fra det ene årti til det andet.

Kun Kvalitativ Forklarende Variabel Y og XLøn, XMellem og XHøj som før. Model: Fortolkning: Vægten af folk i de tre grupper er normalfordelt, med samme varians, men med forskellig middel værdi: Alias: Variansanalyse!

Polynomiel regression Nogle gange er sammenhængen mellem Y og en enkelt forklarende variabel X utilstrækkeligt beskrevet ved en ret linie, men bedre ved et polynomie. I disse tilfælde bruger vi polynomiel regression, hvor modellen er på formen Modellen er stadig lineær!!! Et m’te grads polynomie

Polynomiel Regression: Illustration 2. grads polynomie 3. grads polynomie Y Y $ y b X = + 1 $ y b X = + 1 $ ( ) y b X = + < 1 2 $ y b X = + 1 2 3 X1 X1 Brug kun polynomiel regression, hvis der er et godt argument for det – fx relevant baggrundsviden. Brug helst ikke over 2. grads polynomie (dvs X2) og aldrig mere end 5. grads polynomie (dvs X5) .

Polynomiel Regression som Modelkontrol Vi har en forventning om at sammenhængen mellem Y og X er lineær. Et simpelt tjek er at tilføje det kvadratiske led X2 til modellen. Hvis X2 ledet ikke er signifikant har vi lidt mere grund til at tro på antagelsen om lineær sammenhæng.

Skabe X2 i SPSS På baggrund af variablen ’hojdeim’ hoejdeim2=hojdeim*hojdeim

Scatterplot og estimater Et 2. grads polynomie tilpasset data →

Modellen forklarer kun ca 38% af variationen – ikke imponerende. …men modellen er stadig ”besværet værd”.

Polynomiel regression: Eksempel Body Mass Index: BMI=v/h2, hvor v er vægten målt i kg og h er højden målt i meter. Omskrivning: v=BMI∙h2. Model: hvor Y er vægten og X er højden. I SPSS skabes en ny variabel X2 vha. Transform→Compute...

Polynomiel regression med mere end en variabel Det er muligt at anvende polynomier bestående af mere end en variabel. Fx to variable X1 og X2 – herved kan regressions-fladen fx få form som en paraboloide.

Ikke-lineære modeller og transformation For nogle ikke-lineære modeller er det muligt at transformere modellen, så den bliver lineær. Vi skal se på Den multiplikative model Den eksponentielle model Den reciprokke model

Den Multiplikative Model hvor ε er et fejlled. Logaritme-transformation: Vi tager (den naturlige) logaritme på begge sider af ligningen: Vi har nu en lineær model! Hvis logε ~ N(0,σ2) så kan vi udføre multipel lineær regression som sædvanligt! Vi skal bare logaritme-transformere vores variable først.

Den Eksponentielle Model En logaritme transformation senere: Vi antager logε ~ N(0,σ2) Vi logaritme-transformerer kun Y, men ikke X1 og X2! Derefter kan vi foretage almindelig multipel lineær regression.

Den Eksponentielle Model - fortolkning Antag vi har estimeret Fortolkning af bk=3.2: Hvis xk stiger med 1 (og alle andre x’er holdes fast), så stiger Y med en faktor e3.2.

Den Reciprokke Model Hvis så er Tag reciprokværdien af Y og lad X’erne være. Kør derefter multipel lineære regression som sædvanligt.

Variansstabiliserende transformationer I tilfælde, hvor residualerne ser heteroskedastiske ud, kan man forsøge sig med følgende transformationer: Kvadratrods-transformation: god når variansen er proportional med middelværdien. Logaritme-transformation: god når variansen er proportional med middelværdien i 2. Reciprokke-transformation: god når variansen er proportional med middelværdien i 4. y