Statistik Lektion 16 Multipel Lineær Regression

Slides:



Advertisements
Lignende præsentationer
Dummyvariabler 13. oktober 2006
Advertisements

Statistik Lektion 18 Multipel Linear Regression
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper – kapitel 7
Variansanalyse Modelkontrol
Grundlæggende teoretisk statistik
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Inge Henningsen Stat BK uge Sammenligning af regressionslinier Opsummering af regressionsanalyse (Gennemgang af udvidet version af eksamen Blok.
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Kvalitative variable 8. marts 2006.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Inge Henningsen Stat BK uge
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Ellen Holm, Forskningscafé
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statistik Lektion 16 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR

Opbygning af statistisk model Eksplorativ data-analyse Specificer model Ligninger og antagelser Estimer parametre Modelkontrol Er modellen passende? Nej Ja Anvend modellen Fx. test og prædiktion

Multipel Lineær Regression - Repetition Model: xji er den j’te forklarende variabel for den i’te observation. Estimerede model: i’te residual:

Forudsætninger for MLR Lineær sammenhæng mellem y og xj’erne xj’erne opfattes som faste tal ei = fejlleddene, antages at være uafhængige E(ei) = 0 Var(ei) = s2 konstant ei antages at være normalfordelt x1,…,xk må ikke være indbyrdes lineært afh. homoskedastisk / varianshomogen

Multipel lineær regression (Eksempel 11-2 i bogen) Y = Export Eksport til Singapore i millioner $ X1 = M1 Money supply X2 = Lend Udlånsrente X3 = Price Prisindex X4 = Exchange Vekselkurs ml. S’pore $ og US $ Model:

F-test: Model Besværet Værd? (Vi kan lige så godt sige, at y’erne alle har en og samme middelværdi) Hypoteser H0: b1 = b2 = …= bk = 0 H1: Mindst et bj ≠ 0 Teststørrelse: (Der er en lineær sammenhæng mellem y og mindst ét af xj’erne) Fa/2(k,n-k-1) Kritisk område

F-test: Eksempel F-testet af hypotesen H0:β1= β2 = β3 = β4 =0 vs H1: Mindst et βj  0 Testen har p-værdi < 0.0005 !! Beslutning: Da p-værdi mindre end 0.05 afviser H0. Fortolkning:Y har en lineær sammenhæng med mindst en af de forklarende variable Xi, mao. kan modellen ”betale sig”.

Determinationskoefficienten Som i simpel lineær regression er Som før 0 ≤ R2 ≤ 1. Hvis vi øger antallet af uafhængige variable (x’erne) for en multipel regressionsanalyse, så vil R2 som regel vokse (og aldrig falde)! Hvis vi har n observationer og bruger en model med k=n-1, så kan vi i nogle tilfælde opnå R2=1! Er det ikke fantastisk?! Næh…

Justeret R2 Justeret R2 Justeret R2 tager i nogen grad højde for, problemerne med R2 når k er stor i forhold til n. Hvis adj R2 vokser når nyt xi medtages, så er det nok værd at medtage det xi.

Eksempel: R2 og Justeret R2 R2 = 0.825, dvs. modellen forklarer 82.5% af variationen i Y’erne. Justeret R2 = 0.814

Parameter-estimaterne Estimatoren Bj svarende til bj er normalfordelt: Dvs. Bj er et unbiased estimat af bj. s2(bj) betegner estimatet af variansen s2(bj). s2(bj) beregnes af SPSS. Vi har

Test for regressionsparametre Test for hypotesen Teststørrelse: (Ingen lineær sammenhæng mellem y og xi) -ta/2(n-k-1) ta/2(n-k-1) Kritisk område

Eksempel: Test for regressionsparametre Det ser ud som om ’Lend’ og ’Exchange’ ikke har nogen betydning. Vi ser derfor på en simplere model: NB: Generelt ikke en god ide at fjerne alle ikke signif. par. Simplere model:

Eksempel: Simplere Model Bemærk: R2 uændret men adj R2 større! Bemærk: Er stadig besværet værd:

Eksempel: Simplere Model Bemærk: p-værdierne er blevet mindre for de tilbageværende parametre (selvom det ikke er så nemt at se). Før: Efter:

Grafisk modelkontrol Scatterplots Residualplots Histogrammer Normalfordelingsplot Outliers og Indflydelsesrige observationer

Modelkontrol: Residualplots

Residualplot

Normalfordelingsplot Histogram og q-q plot for residualer

Outliers og Indflydelsesrige Observationer Indflydelsesrig Observation Punkt med stor værdi af xi Regressionslinie uden outlier y y . . ● . . . . . Regressionslinie når alle data-punkter er inkluderet . . . . . . . . . . Regressions-linie med outlier . . . . . . . . . . . . . . ● Ingen sammenhæng mellem x og y i denne ”klump” Outlier x x

Prædiktion Model: Estimeret model: Punktestimat for μY|…:

Prædiktionsintervaller Et (1-a)100% konfidensinterval for E(Y|X=x) er Interval hvor vi er (1-a)100% ”sikre” på, at regressions-linjen ligger for et givet x. Et (1-a)100% prædiktionsinterval for Y|X=x er Interval hvor vi er (1-a)100% ”sikre” på, at en fremtidig observation af y ligger for en given værdi af x.

Estimerede regressionplan for Eksempel 11-2 Export M1 Price Prædiktions intervaller tilgængelige i SPSS for x-værdier i data. Se under ’Save’ menuen.

”Blandede” forklarende variable Antagelser Y er en afhængig skala/kontinuert variabel X1,…,Xk er k forklarende variable Hvis X1,…,Xk alle er kategoriske variable, så anvender vi en (k-sidet) variansanalyse. Hvis X1,…,Xk alle er skala variable, så anvender vi en Multipel lineær regression. Hva’så hvis nogle Xj’er er kategoriske og andre skala?

Multipel lineær regression og kvalitative forklarende variable Y afhængig variabel X1 er skala forklarende variabel og X2 er dikotom forklarende variabel, dvs. kan tage to værdier. Eksempel Y = Vægt i kg  R (kontinuert. afh. var.) XHøjde = Højde i cm  R (kont. forkl. var.) XKøn = Køn  {Mand,Kvind} (kval. forkla. var.)

Omkodning at kvalitativ variabel Omkod Xkøn til binær variabel XKvinde Xkvinde = 1 hvis XKøn = Kvinde Xkvinde = 0 hvis XKøn = Mand Model Bemærk at modellen har form som MLR.

Fortolkning af model Når XKøn = Mand, så er xkvinde = 0: Når XKøn = Kvinde, så er xkvinde = 0: To linjer med forskellig skæringspunter! Kvinde angiver forskellen i skæringspunkt.

To regressions-linjer med forskellige skæringer, men samme hældning Y Linje for XKvinde=1 β0 + βKvinde Linje for XKvinde=0 β0 X1

Omkodning i SPSS I det konkrete data er køn lagret i variablen ’kon’ som tager værdierne 1 og 2. Da vi skal bruge variabel med værdierne 0 og 1 skaber vi en ny variabel kon2=kon-1. I SPPS anvendes Transform→Compute...

Regressionslinje for mænd: Regressionslinje for kvinder:

Vekselvirkning / Interaktion Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, XHøjde og XKvinde som før. Introducer: XHøjde,Kvinde = XHøjde∙XKvinde Model

Fortolkning Når XKøn = Mand: Når XKøn = Kvinde: bHøjde,Kvinde beskriver forskellen i hældningen mellem de to regressionslinjer.

Nu Som Figur! Linie for X2=0 Linie for X2=1 b0 b0+b2 Y Hældning = b1 Hældning = b1+b3 b0+b2

SPSS I SPSS definerer vi en ny variabel ’højde*køn’ vha. ’compute’ funktionen. Teste hypotesen H0: b Højde,Køn = 0 Konklusion: Vi afviser H0 , dvs der er en veksel-virkning.

Mere Vekselvirkning Interaktion opnås generelt ved at indføre nye variable, der er produktet af eksisterende variable.

Mere end to kategorier Eksempel Y = Vægt i kg  R (kontinuert. afh. var.) XHøjde = Højde i cm  R (kont. forkl. var.) XLøn = Løn  {Lav,Mellem,Høj} (kval. forkla. var.) XLøn har tre kategorier XLøn omkodes til to binære variable

Omkodning at kvalitativ variabel XLøn omkodes til to binære variable XMellem og XHøj: XMellem = 1 hvis XLøn = Mellem XMellem = 0 hvis XLøn ≠ Mellem XHøj = 1 hvis XLøn = Høj XHøj = 0 hvis XLøn ≠ Høj Som tabel XLøn XMellem XHøj Lav Mellem 1 Høj

Fortolkning af model Model: Når XLøn = Lav : Når XLøn = Mellem : Når XLøn = Høj : Tre linjer med forskellig skæringspunter!

Fortolkning af model Fortolkning af model Forskellen i gennemsnitsvægt for to personer med samme højde, men fra hhv. løngruppe ’Mellem’ og ’Lav’. Vi siger at ’Lav’ kategorien er reference-kategori.

Y b0+bHøj b0+bMellem b0 XHøjde

Dummy variable i SPSS I SPSS anvend Transform→Recode→ Into Different Variable Under ’Name:’ angiv navn på dummy variabel. Eksempel: Vi vil kode dummy variabel svarende til Mellemindkomst, dvs. lonkat=2 Vi kalder den nye variabel lonkat2 2 1 3 4

lon2 skal svare til Mellemindkomst dvs lonkat=2 lonkat=1 ⇒ lonkat2=0. I SPSS: ’Value’=1, ’New Value’=0, Klik ’Add’ lonkat=2 ⇒ lonkat2=1 lonkat=3 ⇒ lonkat2=0 2 1 3

Dummyvariable

Generelle Lineære Modeller For at undgå at skulle kode en masse binære dummy-variable, kan man i SPSS bruge Analyze → General Linear Model → Univariate Kategoriske variable Kontinuerte variable

Eksamensopgave 3 I finder den tredje eksamens opgave her: www.math.aau.dk/~kkb/Undervisning/HA08/ Opgaveformulering med udgangspunkt i FAUST datasættet: På baggrund af data bedes I besvare følgende spørgsmål: Hvilke forhold påvirker de ansattes vitalitet? Opstil en statistisk model, der beskriver vitaliteten og analyser denne model. Hvorledes indvirker lønform og uddannelse på vitaliteten? Også her skal jeres konklusioner underbygges af en statistisk model og en tilhørende analyse.