Statistik Lektion 16 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR
Opbygning af statistisk model Eksplorativ data-analyse Specificer model Ligninger og antagelser Estimer parametre Modelkontrol Er modellen passende? Nej Ja Anvend modellen Fx. test og prædiktion
Multipel Lineær Regression - Repetition Model: xji er den j’te forklarende variabel for den i’te observation. Estimerede model: i’te residual:
Forudsætninger for MLR Lineær sammenhæng mellem y og xj’erne xj’erne opfattes som faste tal ei = fejlleddene, antages at være uafhængige E(ei) = 0 Var(ei) = s2 konstant ei antages at være normalfordelt x1,…,xk må ikke være indbyrdes lineært afh. homoskedastisk / varianshomogen
Multipel lineær regression (Eksempel 11-2 i bogen) Y = Export Eksport til Singapore i millioner $ X1 = M1 Money supply X2 = Lend Udlånsrente X3 = Price Prisindex X4 = Exchange Vekselkurs ml. S’pore $ og US $ Model:
F-test: Model Besværet Værd? (Vi kan lige så godt sige, at y’erne alle har en og samme middelværdi) Hypoteser H0: b1 = b2 = …= bk = 0 H1: Mindst et bj ≠ 0 Teststørrelse: (Der er en lineær sammenhæng mellem y og mindst ét af xj’erne) Fa/2(k,n-k-1) Kritisk område
F-test: Eksempel F-testet af hypotesen H0:β1= β2 = β3 = β4 =0 vs H1: Mindst et βj 0 Testen har p-værdi < 0.0005 !! Beslutning: Da p-værdi mindre end 0.05 afviser H0. Fortolkning:Y har en lineær sammenhæng med mindst en af de forklarende variable Xi, mao. kan modellen ”betale sig”.
Determinationskoefficienten Som i simpel lineær regression er Som før 0 ≤ R2 ≤ 1. Hvis vi øger antallet af uafhængige variable (x’erne) for en multipel regressionsanalyse, så vil R2 som regel vokse (og aldrig falde)! Hvis vi har n observationer og bruger en model med k=n-1, så kan vi i nogle tilfælde opnå R2=1! Er det ikke fantastisk?! Næh…
Justeret R2 Justeret R2 Justeret R2 tager i nogen grad højde for, problemerne med R2 når k er stor i forhold til n. Hvis adj R2 vokser når nyt xi medtages, så er det nok værd at medtage det xi.
Eksempel: R2 og Justeret R2 R2 = 0.825, dvs. modellen forklarer 82.5% af variationen i Y’erne. Justeret R2 = 0.814
Parameter-estimaterne Estimatoren Bj svarende til bj er normalfordelt: Dvs. Bj er et unbiased estimat af bj. s2(bj) betegner estimatet af variansen s2(bj). s2(bj) beregnes af SPSS. Vi har
Test for regressionsparametre Test for hypotesen Teststørrelse: (Ingen lineær sammenhæng mellem y og xi) -ta/2(n-k-1) ta/2(n-k-1) Kritisk område
Eksempel: Test for regressionsparametre Det ser ud som om ’Lend’ og ’Exchange’ ikke har nogen betydning. Vi ser derfor på en simplere model: NB: Generelt ikke en god ide at fjerne alle ikke signif. par. Simplere model:
Eksempel: Simplere Model Bemærk: R2 uændret men adj R2 større! Bemærk: Er stadig besværet værd:
Eksempel: Simplere Model Bemærk: p-værdierne er blevet mindre for de tilbageværende parametre (selvom det ikke er så nemt at se). Før: Efter:
Grafisk modelkontrol Scatterplots Residualplots Histogrammer Normalfordelingsplot Outliers og Indflydelsesrige observationer
Modelkontrol: Residualplots
Residualplot
Normalfordelingsplot Histogram og q-q plot for residualer
Outliers og Indflydelsesrige Observationer Indflydelsesrig Observation Punkt med stor værdi af xi Regressionslinie uden outlier y y . . ● . . . . . Regressionslinie når alle data-punkter er inkluderet . . . . . . . . . . Regressions-linie med outlier . . . . . . . . . . . . . . ● Ingen sammenhæng mellem x og y i denne ”klump” Outlier x x
Prædiktion Model: Estimeret model: Punktestimat for μY|…:
Prædiktionsintervaller Et (1-a)100% konfidensinterval for E(Y|X=x) er Interval hvor vi er (1-a)100% ”sikre” på, at regressions-linjen ligger for et givet x. Et (1-a)100% prædiktionsinterval for Y|X=x er Interval hvor vi er (1-a)100% ”sikre” på, at en fremtidig observation af y ligger for en given værdi af x.
Estimerede regressionplan for Eksempel 11-2 Export M1 Price Prædiktions intervaller tilgængelige i SPSS for x-værdier i data. Se under ’Save’ menuen.
”Blandede” forklarende variable Antagelser Y er en afhængig skala/kontinuert variabel X1,…,Xk er k forklarende variable Hvis X1,…,Xk alle er kategoriske variable, så anvender vi en (k-sidet) variansanalyse. Hvis X1,…,Xk alle er skala variable, så anvender vi en Multipel lineær regression. Hva’så hvis nogle Xj’er er kategoriske og andre skala?
Multipel lineær regression og kvalitative forklarende variable Y afhængig variabel X1 er skala forklarende variabel og X2 er dikotom forklarende variabel, dvs. kan tage to værdier. Eksempel Y = Vægt i kg R (kontinuert. afh. var.) XHøjde = Højde i cm R (kont. forkl. var.) XKøn = Køn {Mand,Kvind} (kval. forkla. var.)
Omkodning at kvalitativ variabel Omkod Xkøn til binær variabel XKvinde Xkvinde = 1 hvis XKøn = Kvinde Xkvinde = 0 hvis XKøn = Mand Model Bemærk at modellen har form som MLR.
Fortolkning af model Når XKøn = Mand, så er xkvinde = 0: Når XKøn = Kvinde, så er xkvinde = 0: To linjer med forskellig skæringspunter! Kvinde angiver forskellen i skæringspunkt.
To regressions-linjer med forskellige skæringer, men samme hældning Y Linje for XKvinde=1 β0 + βKvinde Linje for XKvinde=0 β0 X1
Omkodning i SPSS I det konkrete data er køn lagret i variablen ’kon’ som tager værdierne 1 og 2. Da vi skal bruge variabel med værdierne 0 og 1 skaber vi en ny variabel kon2=kon-1. I SPPS anvendes Transform→Compute...
Regressionslinje for mænd: Regressionslinje for kvinder:
Vekselvirkning / Interaktion Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, XHøjde og XKvinde som før. Introducer: XHøjde,Kvinde = XHøjde∙XKvinde Model
Fortolkning Når XKøn = Mand: Når XKøn = Kvinde: bHøjde,Kvinde beskriver forskellen i hældningen mellem de to regressionslinjer.
Nu Som Figur! Linie for X2=0 Linie for X2=1 b0 b0+b2 Y Hældning = b1 Hældning = b1+b3 b0+b2
SPSS I SPSS definerer vi en ny variabel ’højde*køn’ vha. ’compute’ funktionen. Teste hypotesen H0: b Højde,Køn = 0 Konklusion: Vi afviser H0 , dvs der er en veksel-virkning.
Mere Vekselvirkning Interaktion opnås generelt ved at indføre nye variable, der er produktet af eksisterende variable.
Mere end to kategorier Eksempel Y = Vægt i kg R (kontinuert. afh. var.) XHøjde = Højde i cm R (kont. forkl. var.) XLøn = Løn {Lav,Mellem,Høj} (kval. forkla. var.) XLøn har tre kategorier XLøn omkodes til to binære variable
Omkodning at kvalitativ variabel XLøn omkodes til to binære variable XMellem og XHøj: XMellem = 1 hvis XLøn = Mellem XMellem = 0 hvis XLøn ≠ Mellem XHøj = 1 hvis XLøn = Høj XHøj = 0 hvis XLøn ≠ Høj Som tabel XLøn XMellem XHøj Lav Mellem 1 Høj
Fortolkning af model Model: Når XLøn = Lav : Når XLøn = Mellem : Når XLøn = Høj : Tre linjer med forskellig skæringspunter!
Fortolkning af model Fortolkning af model Forskellen i gennemsnitsvægt for to personer med samme højde, men fra hhv. løngruppe ’Mellem’ og ’Lav’. Vi siger at ’Lav’ kategorien er reference-kategori.
Y b0+bHøj b0+bMellem b0 XHøjde
Dummy variable i SPSS I SPSS anvend Transform→Recode→ Into Different Variable Under ’Name:’ angiv navn på dummy variabel. Eksempel: Vi vil kode dummy variabel svarende til Mellemindkomst, dvs. lonkat=2 Vi kalder den nye variabel lonkat2 2 1 3 4
lon2 skal svare til Mellemindkomst dvs lonkat=2 lonkat=1 ⇒ lonkat2=0. I SPSS: ’Value’=1, ’New Value’=0, Klik ’Add’ lonkat=2 ⇒ lonkat2=1 lonkat=3 ⇒ lonkat2=0 2 1 3
Dummyvariable
Generelle Lineære Modeller For at undgå at skulle kode en masse binære dummy-variable, kan man i SPSS bruge Analyze → General Linear Model → Univariate Kategoriske variable Kontinuerte variable
Eksamensopgave 3 I finder den tredje eksamens opgave her: www.math.aau.dk/~kkb/Undervisning/HA08/ Opgaveformulering med udgangspunkt i FAUST datasættet: På baggrund af data bedes I besvare følgende spørgsmål: Hvilke forhold påvirker de ansattes vitalitet? Opstil en statistisk model, der beskriver vitaliteten og analyser denne model. Hvorledes indvirker lønform og uddannelse på vitaliteten? Også her skal jeres konklusioner underbygges af en statistisk model og en tilhørende analyse.