Statikstik II 4. Lektion Generelle Lineære Modeller.

Slides:



Advertisements
Lignende præsentationer
Dummyvariabler 13. oktober 2006
Advertisements

Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper – kapitel 7
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 6
Grundlæggende teoretisk statistik
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Kvalitative variable 8. marts 2006.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Ellen Holm, Forskningscafé
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statikstik II 4. Lektion Generelle Lineære Modeller

Generel Lineær Model Yafhængig skala variabel X 1,…,X k forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i’te observation ud af n er givet ved x j,i er j’te forklarende variabel for i’te observation.  1,…,  n er uafhængige og identisk fordelt  i ~ N(0,  2 ) IID

Simpel lineær regression X Y XiXi YiYi { β1β1 1 00 εiεi E[Y|X] =  + β 1 X GLM med én skala forklarende variabel (k=1) Modellen er  Modellen siger:  E(Y|X) =  +  1 X  V(Y|X) = σ 2  Y|X ~ N(  + β 1 X, σ 2 )

Endnu en tegning… X Y i.i.d. normalfordelte fejlled Y i |x i ~N(  + β 1 x i,σ 2 ) i=1 x1x1 x1x1 x3x3 x2x2 x4x4 x5x5

Estimation Model:  y i =  +  1 x i +  i  ε i er i.i.d. N(0,σ 2 )  , β 1 og σ 2 er modellens parametre – ukendte! Estimation af  og   svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje a er estimat for  og b 1 er estimat for β 1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi  og   ?

er den lodrette afstanden fra den estimerede linie til datapunktet (x i,y i ). Residual led Y X XiXiXiXi Den estimerede regressionslinje

Mindste kvadraters metode Vi vil finde a og b 1 så summen af de kvadrerede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable ( a og b 1 ).

SSE er en funktion af a og b 1. Vi vil finde a og b 1 så SSE er mindst mulig. Minimering a SSE b1b1

Test af hældning (β 1 ) Test for om hældningen, β 1 er forskellig fra nul: Teststørrelse: Numerisk store værdier af t er ufordelagtige for H 0. SE(b 1 ) er standardfejlen for estimatet b 1. Hvis H 0 er sand følger t en såkaldt t-fordeling med n-k- 1 frihedsgrader, hvor n er antal observationer.

Test af hældning (β 1 ) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H Orange område = p-værdi t-fordeling med n-2 frihedsgrader

Fortolkning/Eksempler på H 0 Er der en lineær sammenhæng mellem X og Y? H 0 :  1 = 0 ingen lineær sammenhæng H 1 :      lineær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Y X Y X Y X Konstant Y Usystematisk variationIkke-lineær sammenhæng

SPSS Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable

Eksempel Y :Forbrug af gas (gas) X :Udetemperatur (temp) Scatterplot → SPSS: Estimerede model: Både skæring (  ) og hældning (  1 ) er signifikante!

Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle y i ’er y i ’s afvigelse fra kan opdeles i to.. Y X Forklaret afvigelse Totale afvigelse Uforklaret afvigelse

Total og forklaret variation - illustration Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinjen

Den totale variation Lad være gennemsnittet af alle y i ’er Den totale variation for data er ”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total

Opslitning af den totale variation Den totale variation kan opslittes: er den uforklarede variation. er den forklarede variation. SSR = Sum of Squares Regression

Total og forklaret variation Opsplitning af variationen

Determinations koeffcienten R 2 Determinations Koeffcienten: Andelen af den totale variation, der er forklaret. Pr definition: 0 ≤ R 2 ≤ 1. Jo tættere R 2 er på 1, jo mere af variationen i data er forklaret af modellen. R 2 >0.8 er godt! … R 2 meget tæt på 1 er dog mistænkeligt.

Eksempler på R 2 Y X R 2 = 0 SSE SST Y X R 2 = 0.90 SSESSE SST SSR Y X R 2 = 0.50 SSE SST SSR

H 0 :  1 =  2 = … =  k = 0 H 1 : Mindst et  i ≠ 0 Teststørrelse: Store værdier af F er ufordelagtige for H 0. Er modellen besværet værd? Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable Mean Squared Error Mean Squared Regression

Eksempel: R 2 og F-test SSR SSE SST MSR p-værdi MSE F=MSR/MSE

F-fordelingen F f ( F ) Areal = p-værdi F-fordeling F

Eksempel - fortsat Y :Forbrug af gas, skala (gas) X Temp :Udetemperatur, skala (temp) X Isolering : {Før, Efter}, kategorisk (insulate) Omkod X Isolering til binær variabel X Før  X Før = 1hvis X Isolering = Før  X Før = 0hvis X Isolering = Efter Model:

Når X Isolering = Før Når X Isolering = Efter To linjer med forskellig skæringspunkter!  Før angiver forskellen i skæringspunkt. Fortolkning af model

To regressionslinjer med forskellige skæringer, men samme hældning X1X1 Y Linje for X Før =1 Linje for X Før =0   +  Før

Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ Som ventet er F-testet stadig signifikant. Som ventet er R 2 vokset – med nye variable kan modellen aldrig forklare mindre end før. Bemærk at R 2 er meget større!

Estimater Estimeret model: Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7 o (x Temp = 7 og X Før =1): Eksempel og SPSS

Vekselvirkning / Interaktion Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, X Temp og X Før er som før. Introducer: X Temp,Før = X Temp ∙X Før Model

Fortolkning Når X Isolering = Før: Når X Isolering = Efter:  Temp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.

SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. Indsæt altid hoved-effekter først!

Scatterplot → Estimater Estimeret model:

Variansanalyse (ANOVA) En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse. På engelsk: Analysis of Variance (ANOVA) Eksempel:  Y: Månedlige forbrug  Shoppingstil: Hver 2. uge, Ugentligt, Oftere  Køn: Mand, Kvinde

Dummy-variable To kategoriske variable:  Omkodning til dummy variable. Referencekategorier: ”Kvinde” og ”Ofte” (SPSS vælger altid sidste kategori som reference) KønX Mand Mand1 Kvinde0 StilX H2U X Uge Hver 2. uge10 Ugentlig01 Ofte00

Model Den generelle lineære model er:  E(Y|x) =  +  Kvinde X Kvinde +  H2U X H2U +  Uge X Uge Fortolkning: Sammenligning and mand og kvinde med samme ”Stil”:  E(Y|Køn=Mand, Stil) - E(Y|Køn=Kvinde, Stil) = (  +  Mand ∙ 1 +  H2U X H2U +  Uge X Uge ) – (  +  Mand ∙ 0 +  H2U X H2U +  Uge X Uge ) =  Kvinde Dvs.  Mand angiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).

Mere fortolkning  H2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte.  Uge angiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.

Hypotesetest Hypoteser  H 0 :  H2U =  Uge = 0 Dvs. ingen effekt af shoppe-stil.  H 1 :  H2U ≠ 0 og/eller  Uge ≠ 0 Teststørrelse: SS stil er forskellen i den forklarede variation ( SSR ) med og uden ”Stil” i modellen. Intuition: Jo mere af den totale variation ”Stil” forklarer, jo større er SS Stil og dermed F. Store værdier af F er dermed ufordelagtige for H 0. SS Stil : Sum of Squares for ’Stil’ q : Antal parametre forbundet med ’Stil’ (2)

SPSS Analyze → General Linear Model → Univarite ’amtspend’ som ’dependent’ ’style’ og ’gender’ som ’fixed factor’ Bemærk at ’style’ ikke er signifikant! Bemærk: R 2 = 0.118, dvs. kun 11,8% af den totale variation er forklaret af modellen! SST SSE SSR SS Stil

Estimerede model Den estimerede model:  E(Y|x) =   61,183 X Mand  27,703 X H2U  4,271 X Uge Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er:  E(Y|Køn = Mand, Shopping = Ugentligt ) = 374, ,183 ∙1  27,703 ∙0  4,271∙1 = 431,045

Vekselvirkning Introducer vekselvirkning: Køn*Stil Nye dummy variable: X Køn,Stil = X køn * X Stil. Bemærk: Dummy-variable X Køn,Stil = 0 hvis reference- kategori er indblandet. MandKvinde (ref.kat.) Hver 2. uge X Mand,H2U ٪ Ugentlig X Mand,Uge ٪ Ofte (ref.kat.) ٪٪

Model Den generelle lineære model er:  E(Y|x) =  +  Mand X Mand +  H2U X H2U +  Uge X Uge +  Mand,H2U X Mand,H2U +  Mand,Uge X Mand,Uge Bemærk: Alle X ’er er dummy variable.

SPSS Bemærk: Hoved-effekter før interaktioner!

SPSS R 2 er nu 0,138. Bemærk: Interaktionen ’Køn*Stil’ er signifikant, mens hovedeffekten ’Stil’ ikke er! ”Normalt”: Fjerne led med højest p-værdi, dvs. mindst signifikante led. Hierarkiske princip: Vi fjerner ikke en hoved-effekt, hvis den indgår i en interaktion.

Estimerede model Estimerede model er:  =  +  X Mand  61,751 X H2U  44,006 X Uge +  X Mand,H2U + 77,196 X Mand,Uge