Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Økonometri – lektion 5 Multipel Lineær Regression

Lignende præsentationer


Præsentationer af emnet: "Økonometri – lektion 5 Multipel Lineær Regression"— Præsentationens transcript:

1 Økonometri – lektion 5 Multipel Lineær Regression
Inferens Modelkontrol Prædiktion

2 Multipel Lineær Regression
Data: Sæt af observationer (x1i , x2i , …, xki , yi ) , i = 1,…,n yi er den afhængige variabel x1i , x2i , …, xki er de k forklarende/uafhængige forklarende variable for yi. Model: Yi = β0 + β1x1i +…+ βkxki + εi ε1 ,…,εn IID εi ~ N(0,σ2) E[Yi | x ] = β0 + β1x1 +…+ βkxk (lineær middelværdi-struktur)

3 Estimation Estimation pr mindste kvadraters metode:
Også kaldet Ordinary Least Squares (OLS). b er en lineær estimator af b. MKM forudsætter at søjlerne i X er lineært uafhængige. Hvis fejlledene er uafhængige, med middelværdi nul og samme varians, så er b et central estimat.

4 Eksempel (Eksempel 3.3 i JD)
Eksempel hvor n=5 observationer med to forklarende variable: Heraf følger

5 Stokastiske Vektorer og middelværdi
Stokastisk vektor: Middelværdi: Regneregel: Stokastisk variabel

6 Stokastiske Vektorer Varians-Covarians matrix
Bemærk at diagonalen indeholder varianserne. Regneregel:

7 Middelværdi af b Skriv b om: Middelværdien af b-β er:
Dvs. b er en central estimator. Bemærk: E(ε) = 0 er nok, dvs. normalford. antagelse ikke nødvendig.

8 Variansen af b Varians-kovarians matricen for b er:
Bemærk: Hvis søjlerne i X ikke indbyrdes vinkelrette, så kan de enkelte βi’er være indbyrdes korrelerede.

9 Eksempel fortsat Variansen af estimator b

10 MKM-estimatet b er BLUE
BLUE = Best Linear Unbiased Estimator Vi har set Hvilket gør b til lineær og central estimator – men er det den bedste lineære og centrale estimator? Definer: Hvis c = (0,…,0,1,0,…,0) så er μ = βj. j+1’te element

11 MKM-estimatet b er BLUE
Vælge lineær estimator m af μ: Estimatoren m er kun central hvis a’X=c’. Vælg a så Var(m) mindst mulig. Løsning: a = X(XTX)-1c Dvs. m = c’b er den bedste centrale og lineære estimator.

12 Estimation of σ2 Man kan vise Dvs. er en central estimator af σ2.
Desuden gælder

13 Fordelingen af b Hvis e1,…, en er uafhængige og ei~N(0,s2), så gælder
Hvilket betyder at b følger en n-dimensional multivariat normalfordeling.

14 Multivariate Normalfordeling
Lad S være den (k+1)* (k+1) varians-kovarians matrix. Hvis Gælder Og i+1’te element i S’s diagonal

15 Generel Hypotesetest i MLR
H0: vs H1: Fortolkning af H0: En given lineær transformation, R, af b har en bestemt værdi, r.

16 Generel Hypotesetest i MLR (fortsat)
Et estimatet af Rb er Rb. Egenskaber for Rb: Middelværdi: Varians:

17 Fordelingen af Rb Under antagelse af at e1,…,en IID og ei~N(0,s2):
Det kan vises at

18 F-test Fra tidligere har vi:
Da fordelingen af eTe og (*) er uafhængig gælder

19 Signifikanstest af enkelt parameter
H0: bi = 0 vs H1: bi ≠ 0 H0 hypotesen kan skrives som: Konsekvens: i+1’te element i matrix R

20 Signifikanstest af enkelt parameter
Lad Da har vi: Desuden: hvor Vi afviser H0 hvis

21 Signifikanstest af alle regressions-parametre: ”Er MLR besværet værd?”
H0: b1= b2 =…=bk = vs H1: Mindst et bi ≠ 0 H0 hypotesen kan skrives som: Det kan vises at i dette tilfælde er

22 ”Er MLR besværet værd?” Under H0 har vi da:
Hvis F > Fa (k,n-k-1), så afviser vi H0. Bemærk følgende omskrivning: Dvs jo mere modellen forklare (stort R2) jo mindre sandsynligt er det at viafviser H0.

23 ANOVA Tabellen Store værdier af F er ufordelagtige for H0.
Source of variation Sums of squares df Mean Squares F-ratio P-værdi Regression SSR k MSR=SSR/k MSR/MSE ? Error SSE n-k-1 MSE=SSE/(n-k-1) Total SST n-1 Store værdier af F er ufordelagtige for H0. Hvis F > Fα(k,n-k-1) afviser vi H0, dvs. MLR er besværet værd

24 Signifikanstest af en gruppe parametre
H0: b2 = b4 = vs H1: b2 ≠ 0 og/eller b4 ≠ 0 Hypotesen kan omskrives til:

25 Signifikanstest af en gruppe parametre
Lad SSE være sum of squared errors når b2 og b4 er med i modellen. Lad SSE være sum of squared errors når b2 og b4 ikke er med i modellen. Da gælder Vi afviser H0 hvis F > Fa (q,n-k-1).

26 Multipel lineær regression (Eksempel 11-2 i bogen)
Y = Export Eksport til Singapore i millioner $ X1 = M1 Money supply X2 = Lend Udlånsrente X3 = Price Prisindex X4 = Exchange Vekselkurs ml. S’pore $ og US $ Model:

27 R2 = 0.825 betyder at modellen forklarer 82,5% af den totale variation i data.
F-testet af hypotesen H0:β1= β2 = β3 = β4 =0 har P-værdi mindre end 0,05, så vi afviser H0, dvs. Y har en lineær sammenhæng med mindst et Xi, mao. kan modellen ”betale sig”. Stemmer overens med R2.

28 Test for regressionsparametre
Det ser ud som om ’Lend’ og ’Exchange’ ikke har nogen betydning. Vi ser derfor på en simplere model: NB: Generelt ikke en god ide at fjerne alle ikke signif. par. Simplere model:

29 Test for at fjerne to prametre
b2 og b4 med b2 og b4 fjernet

30 Reduceret model Parameter estimater og test: R2 og justeret R2
Bemærk R2 er uændret men justeret R2 er øget!

31 Grafisk modelkontrol Scatterplots Residualplots Histogrammer
Normalfordelingsplot Outliers og Indflydelsesrige observationer

32 Modelkontrol: Residualplots

33 Residualplot

34 Normalfordelingsplot
Histogram og q-q plot for residualer

35 Outliers og Indflydelsesrige Observationer
Indflydelsesrig Observation Punkt med stor værdi af xi Regressionslinie uden outlier y y . . . . . . . Regressionslinie når alle data-punkter er inkluderet . . . . . . . . . . Regressions-linie med outlier . . . . . . . . . . . . . . Ingen sammenhæng mellem x og y i denne ”klump” Outlier x x

36 Prædiktion Mål: Prædiktere y når kovariaterne er Punkt-prædiktion
Egenskaber:

37 Konfidensinterval for
Fordelingn af = cTb med kendt varians Fordelingen af med ukendt varians (1-a)100% konfidens interval for

38 Prædiktionsinterval Model: y = cTb + e e~N (0,s2) Residual:
Variansen af residualet Fordelingen af y (1-a)100% prædiktions-interval

39 Estimerede regressionplane for Eksempel 11-2
Export M1 Price Prædiktions-intervaller tilgængelige i SPSS for x-værdier i data. Se under ’Save’ menuen.

40 Multipel lineær regression og dikotom forklarende variable
Y afhængig variabel X1 er skala forklarende variabel og X2 er dikotom forklarende variabel, dvs. kan tage to værdier. Eksempel: Y er vægt, X1 er højde og X2 er køn. Fremgangsmåde: X2 omkodes til binær variabel: X2 = 0 hvis X2 = Mand X2 = 1 hvis X2 = Kvinde

41 Antag X2=0 hvis mand og X1=1 hvis kvinde.
Model: For mænd har vi X2=0 og For kvinder har vi X2=1 og Bemærk: To linier med forskellige skæringspunkter, hhv β0 og β0+β2.

42 To regressions liner med forskellig skæring, men samme hældning
X1 Y Line for X2=1 Line for X2=0 β0 β0 + β2


Download ppt "Økonometri – lektion 5 Multipel Lineær Regression"

Lignende præsentationer


Annoncer fra Google