Simpel Lineær Regression Estimation Test i Simpel Lineær Regression Kovarians og Korrelation
Simpel lineær regression Model Observation = Systematisk + Tilfældig Observation = Forklaret + Uforklaret
Estimatorer for b0 og b1 B0 og B1 er er centrale (dvs. unbiased) estimatorer for henholdsvis β0 og β1: Estimater b0 og b1 for henholdsvis β0 og β1 opnåsved at indsætte de observerede yi’er.
Estimatorenes fordeling Estimatorerne B0 og B1 er begge normalfrodelte: Hvor Bemærk: Når SSx er stor så er lille!
Estimation af σ2 – variansen for fejlledene I foråret estimerede vi variansen i en uafhængig stikprøve ved For simpel lineær regression bruger vi MSE = Mean Squared Error Antal frihedsgrader ”Minus én”, da s2 involverer ét estimat, nemlig . Antal frihedsgrader ”Minus to”, da s2 involverer to estimater, nemlig b0 og b1.
Udregning af SSE Hermed opnår vi Som desuden er en unbiased estimator for σ2.
Konfidensinterval for β0 Vi har (1-α)100% konfidensinterval for β0 er hvor
Konfidensinterval for β1 Vi har (1-α)100% konfidensinterval for β0 er hvor
Eksempel: Reklame vs salg Fra sidst har vi: Regne, regne, regne… 410 15650 5445 2512925 191325
Konfidensintervaller 95% konfidens interval for β0 (α=0.05): 95% konfidens interval for β1:
Test af hældning (β1) Test for om hældningen, β1, har en bestemt værdi, K: Hvis H0 er sand, så gælder der Teststørrelse:
Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen Bestem p-værdien. Beslutning: Hvis p-værdien < α afvises H0. t-fordeling med n-2 frihedsgrader . 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 . Orange område = p-værdi
Særlig interessant: H0: β1=0 Er der en lineær sammenhæng mellem X og Y? H0: β1=0 ingen lineær sammenhæng H1: β1≠0 lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineær sammenhæng Y Y Y X X X
Eksempel: Reklame vs Salg Test for lineær sammenhæng mellem reklame og salg: Teststørrelse: Kritisk værdier: Beslutning: Vi forkaster H0 da t > 2.228. p-værdi = 0.027<0.05.
Test for skæringspunkt (β0) Stort set som for β1. Hypoteser: Teststørrelsen er: Antal frihedsgrader er uændret, dvs. n-2.
Kovarians Antag at X og Y er stokastiske variable. Definition af kovarians mellem X og Y: hvor Bemærk: I SLR er X ikke stokastisk!
Kovarians - egenskaber Hvis store X følges med store Y Cov( X ,Y )>0 Hvis store X følges med små Y Cov( X ,Y )<0 Kovariansen mellem X og X: Cov( X ,X ) = Var(X) Variansen af X+Y: Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)
Kovarians, Uafhængighed og Korrelation Hvis X og Y er uafhængige er Cov(X,Y)=0 Hvis X og Y er normalfordelte: X og Y er uafhængige <=> Cov(X,Y)=0 Definition af korrelationen, ρ, mellem X og Y: hvor
Korrelationskoefficienten Korrelationskoefficienten, ρ, måler graden af lineær sammenhæng mellem X og Y:
Illustration af korrelation Y X = 0 = -.8 = .8 = -1 = 1
Estimation of korrelationskoef., ρ Estimatet af ρ betegnes r: r er stikprøve korrelationskoefficienten.
Test for korrelation mellem X og Y Hypoteser H0: r = 0 H1: r ≠ 0 Teststørrelse: Under H0:
Samme historie i SPSS Analyze→Regression→Linear (som sidst) I ’Statistics…’ vælg: Estimates Confidens Intervals
SPSS output Teststørrelsen t. 95% Konfidens-intervaller for β0 og β1. Parameter-estimaterne b0 og b1. Estimerede standard-afvigelser, sb0 og sb1. p-værdien svarende til det tosidede test H0: βi=0.
SPSS output Korrelationen mellem ’Reklame budget’ og ’Salg’. p-værdi hørende til test af hypotesen H0: ρ=0.
Den totale variation Den totale variation for data er ”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total
Opslitning af den totale variation Den totale variation kan opslittes: er den uforklarede variation. er den forklarede variation. SSR = Sum of Squares Regression
Total og forklaret variation Opslitning a variationen
Total og forklaret variation - illustration Y X Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinien
SPSS output