Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Statistik Lektion 16 Multipel Lineær Regression

Lignende præsentationer


Præsentationer af emnet: "Statistik Lektion 16 Multipel Lineær Regression"— Præsentationens transcript:

1 Statistik Lektion 16 Multipel Lineær Regression
Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR

2 Opbygning af statistisk model
Eksplorativ data-analyse Specificer model Ligninger og antagelser Estimer parametre Modelkontrol Er modellen passende? Nej Ja Anvend modellen Fx. test og prædiktion

3 Multipel Lineær Regression - Repetition
Model: xji er den j’te forklarende variabel for den i’te observation. Estimerede model: i’te residual:

4 Forudsætninger for MLR
Lineær sammenhæng mellem y og xj’erne xj’erne opfattes som faste tal ei = fejlleddene, antages at være uafhængige E(ei) = 0 Var(ei) = s2 konstant ei antages at være normalfordelt x1,…,xk må ikke være indbyrdes lineært afh. homoskedastisk / varianshomogen

5 Multipel lineær regression (Eksempel 11-2 i bogen)
Y = Export Eksport til Singapore i millioner $ X1 = M1 Money supply X2 = Lend Udlånsrente X3 = Price Prisindex X4 = Exchange Vekselkurs ml. S’pore $ og US $ Model:

6 F-test: Model Besværet Værd?
(Vi kan lige så godt sige, at y’erne alle har en og samme middelværdi) Hypoteser H0: b1 = b2 = …= bk = 0 H1: Mindst et bj ≠ 0 Teststørrelse: (Der er en lineær sammenhæng mellem y og mindst ét af xj’erne) Fa/2(k,n-k-1) Kritisk område

7 F-test: Eksempel F-testet af hypotesen
H0:β1= β2 = β3 = β4 =0 vs H1: Mindst et βj  0 Testen har p-værdi < !! Beslutning: Da p-værdi mindre end 0.05 afviser H0. Fortolkning:Y har en lineær sammenhæng med mindst en af de forklarende variable Xi, mao. kan modellen ”betale sig”.

8 Determinationskoefficienten
Som i simpel lineær regression er Som før 0 ≤ R2 ≤ 1. Hvis vi øger antallet af uafhængige variable (x’erne) for en multipel regressionsanalyse, så vil R2 som regel vokse (og aldrig falde)! Hvis vi har n observationer og bruger en model med k=n-1, så kan vi i nogle tilfælde opnå R2=1! Er det ikke fantastisk?! Næh…

9 Justeret R2 Justeret R2 Justeret R2 tager i nogen grad højde for, problemerne med R2 når k er stor i forhold til n. Hvis adj R2 vokser når nyt xi medtages, så er det nok værd at medtage det xi.

10 Eksempel: R2 og Justeret R2
R2 = 0.825, dvs. modellen forklarer 82.5% af variationen i Y’erne. Justeret R2 = 0.814

11 Parameter-estimaterne
Estimatoren Bj svarende til bj er normalfordelt: Dvs. Bj er et unbiased estimat af bj. s2(bj) betegner estimatet af variansen s2(bj). s2(bj) beregnes af SPSS. Vi har

12 Test for regressionsparametre
Test for hypotesen Teststørrelse: (Ingen lineær sammenhæng mellem y og xi) -ta/2(n-k-1) ta/2(n-k-1) Kritisk område

13 Eksempel: Test for regressionsparametre
Det ser ud som om ’Lend’ og ’Exchange’ ikke har nogen betydning. Vi ser derfor på en simplere model: NB: Generelt ikke en god ide at fjerne alle ikke signif. par. Simplere model:

14 Eksempel: Simplere Model
Bemærk: R2 uændret men adj R2 større! Bemærk: Er stadig besværet værd:

15 Eksempel: Simplere Model
Bemærk: p-værdierne er blevet mindre for de tilbageværende parametre (selvom det ikke er så nemt at se). Før: Efter:

16 Grafisk modelkontrol Scatterplots Residualplots Histogrammer
Normalfordelingsplot Outliers og Indflydelsesrige observationer

17 Modelkontrol: Residualplots

18 Residualplot

19 Normalfordelingsplot
Histogram og q-q plot for residualer

20 Outliers og Indflydelsesrige Observationer
Indflydelsesrig Observation Punkt med stor værdi af xi Regressionslinie uden outlier y y . . . . . . . Regressionslinie når alle data-punkter er inkluderet . . . . . . . . . . Regressions-linie med outlier . . . . . . . . . . . . . . Ingen sammenhæng mellem x og y i denne ”klump” Outlier x x

21 Prædiktion Model: Estimeret model: Punktestimat for μY|…:

22 Prædiktionsintervaller
Et (1-a)100% konfidensinterval for E(Y|X=x) er Interval hvor vi er (1-a)100% ”sikre” på, at regressions-linjen ligger for et givet x. Et (1-a)100% prædiktionsinterval for Y|X=x er Interval hvor vi er (1-a)100% ”sikre” på, at en fremtidig observation af y ligger for en given værdi af x.

23 Estimerede regressionplan for Eksempel 11-2
Export M1 Price Prædiktions intervaller tilgængelige i SPSS for x-værdier i data. Se under ’Save’ menuen.

24 ”Blandede” forklarende variable
Antagelser Y er en afhængig skala/kontinuert variabel X1,…,Xk er k forklarende variable Hvis X1,…,Xk alle er kategoriske variable, så anvender vi en (k-sidet) variansanalyse. Hvis X1,…,Xk alle er skala variable, så anvender vi en Multipel lineær regression. Hva’så hvis nogle Xj’er er kategoriske og andre skala?

25 Multipel lineær regression og kvalitative forklarende variable
Y afhængig variabel X1 er skala forklarende variabel og X2 er dikotom forklarende variabel, dvs. kan tage to værdier. Eksempel Y = Vægt i kg  R (kontinuert. afh. var.) XHøjde = Højde i cm  R (kont. forkl. var.) XKøn = Køn  {Mand,Kvind} (kval. forkla. var.)

26 Omkodning at kvalitativ variabel
Omkod Xkøn til binær variabel XKvinde Xkvinde = 1 hvis XKøn = Kvinde Xkvinde = 0 hvis XKøn = Mand Model Bemærk at modellen har form som MLR.

27 Fortolkning af model Når XKøn = Mand, så er xkvinde = 0:
Når XKøn = Kvinde, så er xkvinde = 0: To linjer med forskellig skæringspunter! Kvinde angiver forskellen i skæringspunkt.

28 To regressions-linjer med forskellige skæringer, men samme hældning
Y Linje for XKvinde=1 β0 + βKvinde Linje for XKvinde=0 β0 X1

29 Omkodning i SPSS I det konkrete data er køn lagret i variablen ’kon’ som tager værdierne 1 og 2. Da vi skal bruge variabel med værdierne 0 og 1 skaber vi en ny variabel kon2=kon-1. I SPPS anvendes Transform→Compute...

30 Regressionslinje for mænd:
Regressionslinje for kvinder:

31 Vekselvirkning / Interaktion
Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, XHøjde og XKvinde som før. Introducer: XHøjde,Kvinde = XHøjde∙XKvinde Model

32 Fortolkning Når XKøn = Mand: Når XKøn = Kvinde:
bHøjde,Kvinde beskriver forskellen i hældningen mellem de to regressionslinjer.

33 Nu Som Figur! Linie for X2=0 Linie for X2=1 b0 b0+b2 Y Hældning = b1
Hældning = b1+b3 b0+b2

34 SPSS I SPSS definerer vi en ny variabel ’højde*køn’ vha. ’compute’ funktionen. Teste hypotesen H0: b Højde,Køn = 0 Konklusion: Vi afviser H0 , dvs der er en veksel-virkning.

35 Mere Vekselvirkning Interaktion opnås generelt ved at indføre nye variable, der er produktet af eksisterende variable.

36 Mere end to kategorier Eksempel
Y = Vægt i kg  R (kontinuert. afh. var.) XHøjde = Højde i cm  R (kont. forkl. var.) XLøn = Løn  {Lav,Mellem,Høj} (kval. forkla. var.) XLøn har tre kategorier XLøn omkodes til to binære variable

37 Omkodning at kvalitativ variabel
XLøn omkodes til to binære variable XMellem og XHøj: XMellem = 1 hvis XLøn = Mellem XMellem = 0 hvis XLøn ≠ Mellem XHøj = 1 hvis XLøn = Høj XHøj = 0 hvis XLøn ≠ Høj Som tabel XLøn XMellem XHøj Lav Mellem 1 Høj

38 Fortolkning af model Model: Når XLøn = Lav : Når XLøn = Mellem :
Når XLøn = Høj : Tre linjer med forskellig skæringspunter!

39 Fortolkning af model Fortolkning af model
Forskellen i gennemsnitsvægt for to personer med samme højde, men fra hhv. løngruppe ’Mellem’ og ’Lav’. Vi siger at ’Lav’ kategorien er reference-kategori.

40 Y b0+bHøj b0+bMellem b0 XHøjde

41 Dummy variable i SPSS I SPSS anvend Transform→Recode→ Into Different Variable Under ’Name:’ angiv navn på dummy variabel. Eksempel: Vi vil kode dummy variabel svarende til Mellemindkomst, dvs. lonkat=2 Vi kalder den nye variabel lonkat2 2 1 3 4

42 lon2 skal svare til Mellemindkomst dvs lonkat=2 lonkat=1 ⇒ lonkat2=0.
I SPSS: ’Value’=1, ’New Value’=0, Klik ’Add’ lonkat=2 ⇒ lonkat2=1 lonkat=3 ⇒ lonkat2=0 2 1 3

43 Dummyvariable

44 Generelle Lineære Modeller
For at undgå at skulle kode en masse binære dummy-variable, kan man i SPSS bruge Analyze → General Linear Model → Univariate Kategoriske variable Kontinuerte variable

45 Eksamensopgave 3 I finder den tredje eksamens opgave her: Opgaveformulering med udgangspunkt i FAUST datasættet: På baggrund af data bedes I besvare følgende spørgsmål: Hvilke forhold påvirker de ansattes vitalitet? Opstil en statistisk model, der beskriver vitaliteten og analyser denne model. Hvorledes indvirker lønform og uddannelse på vitaliteten? Også her skal jeres konklusioner underbygges af en statistisk model og en tilhørende analyse.


Download ppt "Statistik Lektion 16 Multipel Lineær Regression"

Lignende præsentationer


Annoncer fra Google