Multipel Lineær Regression

Slides:



Advertisements
Lignende præsentationer
Hypotese test – kapitel 6 (Signifikans test)
Advertisements

Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 9
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 3
Grundlæggende teoretisk statistik
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Statistik Lektion 8 Test for ens varians.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Præsentationens transcript:

Multipel Lineær Regression Statistik II 2. Lektion Multipel Lineær Regression

Middelværdi og Varians Antag at X er en kontinuert stokastisk variabel Antag at X har tæthedsfunktion f(x). Middelværdien (eller den forventede værdi) for X er Variansen for X er Variansen er altså den forventede kvadrerede afstand fra middelværdien. kaldes standardafvigelsen.

Normalfordelingen Normal fordelingen har tæthedsfunktionen hvor m er middelværdien og s er standardafvigelsen 95% 2.5% 2.5% m m-1.96s m+1.96s

Regneregler Antag X er en stokastisk variabel. Antag a og b er konstanter Regneregel for middelværdi: Regneregel for varians: Eksempel: Håndboldspiller tjener 10,000kr/md + 250kr/mål. Lad X være det (tilfældige) antal mål/md. E[X] = 12 og V[X] = 4 Hvad er middelværdi og varians for indkomst?

Sammen gennemsnit og standardafv. (ca.)

Middelværdi og Varians for en Stikprøve Middelværdi for en stikprøve: Varians for en stikprøve: Interessante fakta:

Multipel Lineær Regression Y afhængig skala variabel X1,…,Xk k forklarende variable, skala eller binære Multipel Lineær Regressionsmodel: xj,i er j’te forklarende variabel for i’te observation. Fejlleddet ei ”opsamler” den uforklarede del af modellen. Antagelser: e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) Konsekvens:

Simpel lineær regression MLR med én skala forklarende variabel (k = 1) Y E[Y | X] = a + β1X Modellen er Yi { b1 ei 1 Modellen siger: E(Y | X) = a +b1 X V(Y | X) = s2 Y | X ~ N(a +b1X , s2) a X Xi

Endnu en tegning… Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled

Estimation Model: yi = a + b1 xi + ei εi er i.i.d. N(0,σ2) a, β1 og σ2 er modellens parametre – ukendte! Estimation af a og b1 svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje a er estimat for a og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi a og b1?

Residual led er den lodrette afstanden fra den estimerede linje til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi

Mindste kvadraters metode Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable (a og b1).

Minimering SSE er en funktion af a og b1. Vi vil finde a og b1 så SSE er mindst mulig. SSE a b1

Hypotestest af hældning (β1) Spørgsmål: Har den forklarende variabel xj virkelig en betydning for y? Test for om hældningen, β1 er forskellig fra nul: Teststørrelse: Intuition: Værdier af t langt fra nul er ufordelagtige for H0. SE(b1) er standardfejlen for estimatet b1. Hvis H0 er sand er stikprøvefordelingen af t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < a afvises H0. t-fordeling med n-2 frihedsgrader . 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 . Orange område = p-værdi

Fortolkning/Eksempler på H0 Er der en lineær sammenhæng mellem X og Y? H0: b1 = 0 ingen lineær sammenhæng H1: b1  0 lineær sammenhæng Følgende er eksempler, hvor H0 ikke kan afvises. Konstant Y Usystematisk variation Ikke-lineær sammenhæng Y Y Y X X X

SPSS Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable

Eksempel Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot → SPSS: Estimerede model: Både skæring (a) og hældning (b1) er signifikante! Fortolkning?

Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle yi’er yi’s afvigelse fra kan opdeles i to. Y . Uforklaret afvigelse Totale afvigelse Forklaret afvigelse X

Den Totale Variation Den totale variation i y’erne er givet ved Sum of Squares Total (SST):

Den Uforklarede Variation Den uforklarede variation i y’erne er givet ved Sum of Squares Errors (SSE):

Den Forklarede Variation Den forklarede variation er betegnes Sum of Squares Regression (SSR) Man kan vise: Dvs. Total variation = Forklaret variation + Uforklaret variation

Determinations koeffcienten R2 Determinations Koefficienten: Andelen af den totale variation, der er forklaret. Pr definition: 0 ≤ R2 ≤ 1. Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen. R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

Eksempler på R2 Y Y Y X X X SST SST SST SSE SSE SSR SSR R2 = 0

Er modellen besværet værd? Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable H0: b1 = b2 = … = bk = 0 H1: Mindst et bi ≠ 0 Teststørrelse: Store værdier af F er ufordelagtige for H0. Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable Mean Squared Regression Mean Squared Error

Eksempel: R2 og F-test SSR MSR SSE p-værdi SST F=MSR/MSE MSE

F-fordelingen F F-fordeling Areal = p-værdi ) F ( f F . 7 . 6 . 5 . 4 . 7 . 6 . 5 . 4 ) F f ( . 3 Areal = p-værdi . 2 . 1 . F 1 2 3 4 5 F

Eksempel - fortsat Model: Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp) XIsolering: {Før, Efter}, kategorisk (insulate) Omkod XIsolering til binær dummy variabel XFør XFør = 1 hvis XIsolering = Før XFør = 0 hvis XIsolering = Efter Model:

Fortolkning af model Når XIsolering = Før Når XIsolering = Efter To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.

To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for XFør=1 a + bFør Linje for XFør=0 a X1

Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!

Eksempel og SPSS Estimater Estimeret model: Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

Vekselvirkning / Interaktion Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, XTemp og XFør er som før. Introducer: XTemp,Før = XTemp∙XFør Model

Fortolkning Når XIsolering = Før: Når XIsolering = Efter: bTemp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.

SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. Indsæt altid hoved-effekter først!

Scatterplot → Estimater Estimeret model: