Download præsentationen
Præsentation er lastning. Vent venligst
Offentliggjort afSandra Bjerre Redigeret for ca. et år siden
1
Statikstik II 4. Lektion Generelle Lineære Modeller
2
Generel Lineær Model Yafhængig skala variabel X 1,…,X k forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i’te observation ud af n er givet ved x j,i er j’te forklarende variabel for i’te observation. 1,…, n er uafhængige og identisk fordelt i ~ N(0, 2 ) IID
3
Simpel lineær regression X Y XiXi YiYi { β1β1 1 00 εiεi E[Y|X] = + β 1 X GLM med én skala forklarende variabel (k=1) Modellen er Modellen siger: E(Y|X) = + 1 X V(Y|X) = σ 2 Y|X ~ N( + β 1 X, σ 2 )
4
Endnu en tegning… X Y i.i.d. normalfordelte fejlled Y i |x i ~N( + β 1 x i,σ 2 ) i=1 x1x1 x1x1 x3x3 x2x2 x4x4 x5x5
5
Estimation Model: y i = + 1 x i + i ε i er i.i.d. N(0,σ 2 ) , β 1 og σ 2 er modellens parametre – ukendte! Estimation af og svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje a er estimat for og b 1 er estimat for β 1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi og ?
6
er den lodrette afstanden fra den estimerede linie til datapunktet (x i,y i ). Residual led Y X XiXiXiXi Den estimerede regressionslinje
7
Mindste kvadraters metode Vi vil finde a og b 1 så summen af de kvadrerede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable ( a og b 1 ).
8
SSE er en funktion af a og b 1. Vi vil finde a og b 1 så SSE er mindst mulig. Minimering a SSE b1b1
9
Test af hældning (β 1 ) Test for om hældningen, β 1 er forskellig fra nul: Teststørrelse: Numerisk store værdier af t er ufordelagtige for H 0. SE(b 1 ) er standardfejlen for estimatet b 1. Hvis H 0 er sand følger t en såkaldt t-fordeling med n-k- 1 frihedsgrader, hvor n er antal observationer.
10
Test af hældning (β 1 ) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H 0. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Orange område = p-værdi t-fordeling med n-2 frihedsgrader
11
Fortolkning/Eksempler på H 0 Er der en lineær sammenhæng mellem X og Y? H 0 : 1 = 0 ingen lineær sammenhæng H 1 : lineær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Y X Y X Y X Konstant Y Usystematisk variationIkke-lineær sammenhæng
12
SPSS Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable
13
Eksempel Y :Forbrug af gas (gas) X :Udetemperatur (temp) Scatterplot → SPSS: Estimerede model: Både skæring ( ) og hældning ( 1 ) er signifikante!
14
Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle y i ’er y i ’s afvigelse fra kan opdeles i to.. Y X Forklaret afvigelse Totale afvigelse Uforklaret afvigelse
15
Total og forklaret variation - illustration Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinjen
16
Den totale variation Lad være gennemsnittet af alle y i ’er Den totale variation for data er ”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total
17
Opslitning af den totale variation Den totale variation kan opslittes: er den uforklarede variation. er den forklarede variation. SSR = Sum of Squares Regression
18
Total og forklaret variation Opsplitning af variationen
19
Determinations koeffcienten R 2 Determinations Koeffcienten: Andelen af den totale variation, der er forklaret. Pr definition: 0 ≤ R 2 ≤ 1. Jo tættere R 2 er på 1, jo mere af variationen i data er forklaret af modellen. R 2 >0.8 er godt! … R 2 meget tæt på 1 er dog mistænkeligt.
20
Eksempler på R 2 Y X R 2 = 0 SSE SST Y X R 2 = 0.90 SSESSE SST SSR Y X R 2 = 0.50 SSE SST SSR
21
H 0 : 1 = 2 = … = k = 0 H 1 : Mindst et i ≠ 0 Teststørrelse: Store værdier af F er ufordelagtige for H 0. Er modellen besværet værd? Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable Mean Squared Error Mean Squared Regression
22
Eksempel: R 2 og F-test SSR SSE SST MSR p-værdi MSE F=MSR/MSE
23
F-fordelingen 543210 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 F f ( F ) Areal = p-værdi F-fordeling F
24
Eksempel - fortsat Y :Forbrug af gas, skala (gas) X Temp :Udetemperatur, skala (temp) X Isolering : {Før, Efter}, kategorisk (insulate) Omkod X Isolering til binær variabel X Før X Før = 1hvis X Isolering = Før X Før = 0hvis X Isolering = Efter Model:
25
Når X Isolering = Før Når X Isolering = Efter To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt. Fortolkning af model
26
To regressionslinjer med forskellige skæringer, men samme hældning X1X1 Y Linje for X Før =1 Linje for X Før =0 + Før
27
Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ Som ventet er F-testet stadig signifikant. Som ventet er R 2 vokset – med nye variable kan modellen aldrig forklare mindre end før. Bemærk at R 2 er meget større!
28
Estimater Estimeret model: Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7 o (x Temp = 7 og X Før =1): Eksempel og SPSS
29
Vekselvirkning / Interaktion Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, X Temp og X Før er som før. Introducer: X Temp,Før = X Temp ∙X Før Model
30
Fortolkning Når X Isolering = Før: Når X Isolering = Efter: Temp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.
31
SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. Indsæt altid hoved-effekter først!
32
Scatterplot → Estimater Estimeret model:
33
Variansanalyse (ANOVA) En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse. På engelsk: Analysis of Variance (ANOVA) Eksempel: Y: Månedlige forbrug Shoppingstil: Hver 2. uge, Ugentligt, Oftere Køn: Mand, Kvinde
34
Dummy-variable To kategoriske variable: Omkodning til dummy variable. Referencekategorier: ”Kvinde” og ”Ofte” (SPSS vælger altid sidste kategori som reference) KønX Mand Mand1 Kvinde0 StilX H2U X Uge Hver 2. uge10 Ugentlig01 Ofte00
35
Model Den generelle lineære model er: E(Y|x) = + Kvinde X Kvinde + H2U X H2U + Uge X Uge Fortolkning: Sammenligning and mand og kvinde med samme ”Stil”: E(Y|Køn=Mand, Stil) - E(Y|Køn=Kvinde, Stil) = ( + Mand ∙ 1 + H2U X H2U + Uge X Uge ) – ( + Mand ∙ 0 + H2U X H2U + Uge X Uge ) = Kvinde Dvs. Mand angiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).
36
Mere fortolkning H2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte. Uge angiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.
37
Hypotesetest Hypoteser H 0 : H2U = Uge = 0 Dvs. ingen effekt af shoppe-stil. H 1 : H2U ≠ 0 og/eller Uge ≠ 0 Teststørrelse: SS stil er forskellen i den forklarede variation ( SSR ) med og uden ”Stil” i modellen. Intuition: Jo mere af den totale variation ”Stil” forklarer, jo større er SS Stil og dermed F. Store værdier af F er dermed ufordelagtige for H 0. SS Stil : Sum of Squares for ’Stil’ q : Antal parametre forbundet med ’Stil’ (2)
38
SPSS Analyze → General Linear Model → Univarite ’amtspend’ som ’dependent’ ’style’ og ’gender’ som ’fixed factor’ Bemærk at ’style’ ikke er signifikant! Bemærk: R 2 = 0.118, dvs. kun 11,8% af den totale variation er forklaret af modellen! SST SSE SSR SS Stil
39
Estimerede model Den estimerede model: E(Y|x) = 61,183 X Mand 27,703 X H2U 4,271 X Uge Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: E(Y|Køn = Mand, Shopping = Ugentligt ) = 374,133 + 61,183 ∙1 27,703 ∙0 4,271∙1 = 431,045
40
Vekselvirkning Introducer vekselvirkning: Køn*Stil Nye dummy variable: X Køn,Stil = X køn * X Stil. Bemærk: Dummy-variable X Køn,Stil = 0 hvis reference- kategori er indblandet. MandKvinde (ref.kat.) Hver 2. uge X Mand,H2U ٪ Ugentlig X Mand,Uge ٪ Ofte (ref.kat.) ٪٪
41
Model Den generelle lineære model er: E(Y|x) = + Mand X Mand + H2U X H2U + Uge X Uge + Mand,H2U X Mand,H2U + Mand,Uge X Mand,Uge Bemærk: Alle X ’er er dummy variable.
42
SPSS Bemærk: Hoved-effekter før interaktioner!
43
SPSS R 2 er nu 0,138. Bemærk: Interaktionen ’Køn*Stil’ er signifikant, mens hovedeffekten ’Stil’ ikke er! ”Normalt”: Fjerne led med højest p-værdi, dvs. mindst signifikante led. Hierarkiske princip: Vi fjerner ikke en hoved-effekt, hvis den indgår i en interaktion.
44
Estimerede model Estimerede model er: = + X Mand 61,751 X H2U 44,006 X Uge + X Mand,H2U + 77,196 X Mand,Uge
Lignende præsentationer
© 2024 SlidePlayer.dk Inc.
All rights reserved.