Økonometri – lektion 5 Multipel Lineær Regression

Økonometri – lektion 5 Multipel Lineær Regression
Inferens Modelkontrol Prædiktion

Multipel Lineær Regression
Data: Sæt af observationer (x1i , x2i , …, xki , yi ) , i = 1,…,n yi er den afhængige variabel x1i , x2i , …, xki er de k forklarende/uafhængige forklarende variable for yi. Model: Yi = β0 + β1x1i +…+ βkxki + εi ε1 ,…,εn IID εi ~ N(0,σ2) E[Yi | x ] = β0 + β1x1 +…+ βkxk (lineær middelværdi-struktur)

Estimation Estimation pr mindste kvadraters metode:
Også kaldet Ordinary Least Squares (OLS). b er en lineær estimator af b. MKM forudsætter at søjlerne i X er lineært uafhængige. Hvis fejlledene er uafhængige, med middelværdi nul og samme varians, så er b et central estimat.

Eksempel (Eksempel 3.3 i JD)
Eksempel hvor n=5 observationer med to forklarende variable: Heraf følger

Stokastiske Vektorer og middelværdi
Stokastisk vektor: Middelværdi: Regneregel: Stokastisk variabel

Stokastiske Vektorer Varians-Covarians matrix
Bemærk at diagonalen indeholder varianserne. Regneregel:

Middelværdi af b Skriv b om: Middelværdien af b-β er:
Dvs. b er en central estimator. Bemærk: E(ε) = 0 er nok, dvs. normalford. antagelse ikke nødvendig.

Variansen af b Varians-kovarians matricen for b er:
Bemærk: Hvis søjlerne i X ikke indbyrdes vinkelrette, så kan de enkelte βi’er være indbyrdes korrelerede.

Eksempel fortsat Variansen af estimator b

MKM-estimatet b er BLUE
BLUE = Best Linear Unbiased Estimator Vi har set Hvilket gør b til lineær og central estimator – men er det den bedste lineære og centrale estimator? Definer: Hvis c = (0,…,0,1,0,…,0) så er μ = βj. j+1’te element

MKM-estimatet b er BLUE
Vælge lineær estimator m af μ: Estimatoren m er kun central hvis a’X=c’. Vælg a så Var(m) mindst mulig. Løsning: a = X(XTX)-1c Dvs. m = c’b er den bedste centrale og lineære estimator.

Estimation of σ2 Man kan vise Dvs. er en central estimator af σ2.
Desuden gælder

Fordelingen af b Hvis e1,…, en er uafhængige og ei~N(0,s2), så gælder
Hvilket betyder at b følger en n-dimensional multivariat normalfordeling.

Multivariate Normalfordeling
Lad S være den (k+1)* (k+1) varians-kovarians matrix. Hvis Gælder Og i+1’te element i S’s diagonal

Generel Hypotesetest i MLR
H0: vs H1: Fortolkning af H0: En given lineær transformation, R, af b har en bestemt værdi, r.

Generel Hypotesetest i MLR (fortsat)
Et estimatet af Rb er Rb. Egenskaber for Rb: Middelværdi: Varians:

Fordelingen af Rb Under antagelse af at e1,…,en IID og ei~N(0,s2):
Det kan vises at

F-test Fra tidligere har vi:
Da fordelingen af eTe og (*) er uafhængig gælder

Signifikanstest af enkelt parameter
H0: bi = 0 vs H1: bi ≠ 0 H0 hypotesen kan skrives som: Konsekvens: i+1’te element i matrix R

Signifikanstest af enkelt parameter
Lad Da har vi: Desuden: hvor Vi afviser H0 hvis

Signifikanstest af alle regressions-parametre: ”Er MLR besværet værd?”
H0: b1= b2 =…=bk = vs H1: Mindst et bi ≠ 0 H0 hypotesen kan skrives som: Det kan vises at i dette tilfælde er

”Er MLR besværet værd?” Under H0 har vi da:
Hvis F > Fa (k,n-k-1), så afviser vi H0. Bemærk følgende omskrivning: Dvs jo mere modellen forklare (stort R2) jo mindre sandsynligt er det at viafviser H0.

ANOVA Tabellen Store værdier af F er ufordelagtige for H0.
Source of variation Sums of squares df Mean Squares F-ratio P-værdi Regression SSR k MSR=SSR/k MSR/MSE ? Error SSE n-k-1 MSE=SSE/(n-k-1) Total SST n-1 Store værdier af F er ufordelagtige for H0. Hvis F > Fα(k,n-k-1) afviser vi H0, dvs. MLR er besværet værd

Signifikanstest af en gruppe parametre
H0: b2 = b4 = vs H1: b2 ≠ 0 og/eller b4 ≠ 0 Hypotesen kan omskrives til:

Signifikanstest af en gruppe parametre
Lad SSE være sum of squared errors når b2 og b4 er med i modellen. Lad SSE være sum of squared errors når b2 og b4 ikke er med i modellen. Da gælder Vi afviser H0 hvis F > Fa (q,n-k-1).

Multipel lineær regression (Eksempel 11-2 i bogen)
Y = Export Eksport til Singapore i millioner $ X1 = M1 Money supply X2 = Lend Udlånsrente X3 = Price Prisindex X4 = Exchange Vekselkurs ml. S’pore $ og US $ Model:

R2 = 0.825 betyder at modellen forklarer 82,5% af den totale variation i data.
F-testet af hypotesen H0:β1= β2 = β3 = β4 =0 har P-værdi mindre end 0,05, så vi afviser H0, dvs. Y har en lineær sammenhæng med mindst et Xi, mao. kan modellen ”betale sig”. Stemmer overens med R2.

Test for regressionsparametre
Det ser ud som om ’Lend’ og ’Exchange’ ikke har nogen betydning. Vi ser derfor på en simplere model: NB: Generelt ikke en god ide at fjerne alle ikke signif. par. Simplere model:

Test for at fjerne to prametre
b2 og b4 med b2 og b4 fjernet

Reduceret model Parameter estimater og test: R2 og justeret R2
Bemærk R2 er uændret men justeret R2 er øget!

Grafisk modelkontrol Scatterplots Residualplots Histogrammer
Normalfordelingsplot Outliers og Indflydelsesrige observationer

Modelkontrol: Residualplots

Residualplot

Normalfordelingsplot
Histogram og q-q plot for residualer

Outliers og Indflydelsesrige Observationer
Indflydelsesrig Observation Punkt med stor værdi af xi Regressionslinie uden outlier y y . . ● . . . . . Regressionslinie når alle data-punkter er inkluderet . . . . . . . . . . Regressions-linie med outlier . . . . . . . . . . . . . . ● Ingen sammenhæng mellem x og y i denne ”klump” Outlier x x

Prædiktion Mål: Prædiktere y når kovariaterne er Punkt-prædiktion
Egenskaber:

Konfidensinterval for
Fordelingn af = cTb med kendt varians Fordelingen af med ukendt varians (1-a)100% konfidens interval for

Prædiktionsinterval Model: y = cTb + e e~N (0,s2) Residual:
Variansen af residualet Fordelingen af y (1-a)100% prædiktions-interval

Estimerede regressionplane for Eksempel 11-2
Export M1 Price Prædiktions-intervaller tilgængelige i SPSS for x-værdier i data. Se under ’Save’ menuen.

Multipel lineær regression og dikotom forklarende variable
Y afhængig variabel X1 er skala forklarende variabel og X2 er dikotom forklarende variabel, dvs. kan tage to værdier. Eksempel: Y er vægt, X1 er højde og X2 er køn. Fremgangsmåde: X2 omkodes til binær variabel: X2 = 0 hvis X2 = Mand X2 = 1 hvis X2 = Kvinde

Antag X2=0 hvis mand og X1=1 hvis kvinde.
Model: For mænd har vi X2=0 og For kvinder har vi X2=1 og Bemærk: To linier med forskellige skæringspunkter, hhv β0 og β0+β2.

To regressions liner med forskellig skæring, men samme hældning
X1 Y Line for X2=1 Line for X2=0 β0 β0 + β2

Økonometri – lektion 5 Multipel Lineær Regression

Lignende præsentationer

Præsentationer af emnet: "Økonometri – lektion 5 Multipel Lineær Regression"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Økonometri – lektion 5 Multipel Lineær Regression

Lignende præsentationer

Præsentationer af emnet: "Økonometri – lektion 5 Multipel Lineær Regression"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback