Download præsentationen
Præsentation er lastning. Vent venligst
Offentliggjort afLine Jensen Redigeret for ca. et år siden
1
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller
2
Definitioner: Repetition Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)
3
Hvis ingen afhængighed… Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende: Odds-ratio Logit-forskel
4
Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser NejJaTotal Sætnings- læsning Hurtig80 6.3% 1199 93.7% 1279 100.0% Langsom80 28.1% 205 71.9% 285 100.0% Usikker11 35.5% 20 64.5% 31 100.0% Total171 11.2% 1424 88.8% 1595 100.0% Odds for ”Ja” givet hastighed 1199/80 = 14.99 205/80 = 2.56 20/11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = 2.707 ln(2.56) = 0.94 ln(1.81) = 0.59
5
Logistisk Regressionsmodel Model: Logit(Ja|Hastighed) = + Hastighed Logit(Ja|Hurtig) = + Hurtig Logit(Ja|Langsom) = + Langsom Logit(Ja|Usikker)= + Usikker For reference-kategorien sæt Hurtig = 0.
6
Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) = + Langsom ) - = Langsom Logit(Ja|Usikker) - Logit(Ja|Hurtig) = + Usikker ) - = Usikker Dvs. Langsom og Usikker er de to logit-forskelle af interesse. Hypotesetest H 0 : Langsom = Usikker = 0 H 1 : Langsom ≠ 0 og/eller Usikker ≠ 0
7
For hver kategori introducer en binær variabel: x Hurtig, x Langsom og x Usikker. x Hurtig = 0 altid nul (reference-kategori) x Langsom = 1 hvis Hastighed = Langsom x Langsom = 0 hvis Hastighed ≠ Langsom x Usikker = 1 hvis Hastighed = Usikker x Usikker = 0 hvis Hastighed ≠ Usikker Alternativ: Dummy-variable
8
Dummy-variable: Nu Som Tabel Hastighedx Langsom x Usikker Hurtig00 Langsom10 Usikker01
9
Dummy-variable Model: Eksempel: Bemærk struktur:
10
Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: Og som sandsynlighed:
11
Skala forklarende variabel Eksempel: Afhængig variabel:Er du en god læser(Ja/Nej) Forklarende variable:Antal rigtige i test(0…20) Plot: Andel Ja’er for hver score.
12
Model: Logit(Ja|Score = x) = + x Sandsynlighed: Plot: Logit(Ja|Score=x) Logistisk Regressionsmodel
13
Logistiske funktion
14
Fortolkning af Logit-forskel: Så hver gang ’score’ stiger med 1 stiger logit med . Odds-ratio: Så hver gang score stiger med 1 ændres Odds’et med en faktor e .
15
Hypotesetest H 0 : = 0 H 1 : ≠ 0 Teststørrelse: Jo større ”Wald” jo mindre tror vi på H 0. Hvor langt ude ”Wald” er måles af p-værdien. Hvis vi afviser H 0 siger vi at er signifikant. Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.
16
SPSS Output Estimerede model: Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp( ) = 1,208, hver gang scoren stiger med 1. Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger. Sandsynligheder
17
Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = + x + x 2 Hvis ikke er signifikant, så er en logit-lineær model passende.
18
Modelkontrol: Hosmer-Lemeshows -test Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. O x =observerede antal personer med score x, der svarer ”Ja”. N x = antal personer med score x. E x = forventede antal personer med score x, der svarer ”Ja”.
19
Modelkontrol: Hosmer-Lemeshows -test Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis 2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.
20
SPSS Output Da p-værdien = 0.246 > 0.05 kan vi ikke afvise H 0. Dvs. vi kan ikke afvise at modellen er korrekt. Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.
21
Multipel Logistisk Regression Ide: Mere end en forklarende variabel. Model: Reference-kategorier: Dreng og Hurtig Dvs: Dreng = 0 og Hurtig = 0 Eksempler Logit(Ja|Dreng,Hurtig) = + Dreng + Hurtig = + 0 + 0 = Logit(Ja|Pige,Langsom) = + Pige + Langsom
22
Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed: Logit(Ja|Køn,Langsom) Logit(Ja|Køn,Hurtig) = ( + Køn + Langsom ) ( + Køn + Hurtig ) = Langsom Dvs. Langsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit-forskelle
23
Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed: Logit(Ja|Pige,Hastighed) Logit(Ja|Dreng,Hastighed) = ( + Pige + Hastighed ) ( + Dreng + Hastighed ) = Pige. Dvs. Pige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden. Logit-forskelle
24
Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? Indfør interaktionsled Køn,Hastighed. Model: Logit(Ja|Køn,Hastighed) = Køn Hastighed Køn,Hastighed
25
Parametere der refererer til en eller flere reference- kategorier sættes lig nul: Dreng,Hurtig = 0 Dreng, Langsom = 0 Dreng, Usikker = 0 Pige, Hurtig = 0 Pige, Langsom ≠ 0 Pige, Usikker ≠ 0 Interaktion / Vekselvirkning
26
Logit Tabel Tabel over Logit(Ja|Køn, Hastighed) Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model. Køn DrengPige LæsehastighedHurtig Pige Langsom Langsom Pige Langsom Pige,Langsom Usikker Usikker Pige Usikker Pige,Usikker
27
Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = Pige logit(ja|pige,usikker) – logit(ja|dreng,usikker) = Pige + Pige,Usikker. Dvs. Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = Usikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = Usikker + Pige,Usikker. Dvs. Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.
28
Hypotse H 0 : Pige,Langsom = Pige,Usikker = 0 Dvs. der er ingen interaktion mellem Køn og Hastighed. H 1 : Pige,Langsom ≠ 0 og/eller Pige,Usikker ≠ 0 Dvs. der er interaktion mellem Køn og Hastighed.
29
SPSS SPSS: Analyze → Regression → Binary Logstic Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på ’>a*b>’ Husk at angive kategoriske variable under ’Categorical’ *Klik*
30
SPSS: Output Vores model er for Logit for ’Ja’ ’Hurtig’ og ’Dreng’ er reference-kategorierne Det interessante input står efter ’Block 1: Method = Enter’ H-L Test: p-værdi = 1, da modellen er mættet. Hverken ’køn’ eller ’hastighed*køn’ er signifikante.
31
Generel Lineær Model Yafhængig skala variabel X 1,…,X k forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i’te observation ud af n er givet ved x j,i er j’te forklarende variabel for i’te observation. 1,…, n er uafhængige og identisk fordelt i ~ N(0, 2 ) IID
32
Simpel lineær regression X Y XiXi YiYi { β1β1 1 00 εiεi E[Y|X] = + β 1 X GLM med én skala forklarende variabel (k=1) Modellen er Modellen siger: E(Y|X) = + 1 X V(Y|X) = σ 2 Y|X ~ N( + β 1 X, σ 2 )
33
Endnu en tegning… X Y i.i.d. normalfordelte fejlled Y i |x i ~N( + β 1 x i,σ 2 ) i=1 x1x1 x1x1 x3x3 x2x2 x4x4 x5x5
34
Estimation Model: y i = + 1 x i + i ε i er i.i.d. N(0,σ 2 ) , β 1 og σ 2 er modellens parametre – ukendte! Estimation af og svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje a er estimat for og b 1 er estimat for β 1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi og ?
35
er den lodrette afstanden fra den estimerede linie til datapunktet (x i,y i ). Residual led Y X XiXiXiXi Den estimerede regressionslinje
36
Mindste kvadraters metode Vi vil finde a og b 1 så summen af de kvadrerede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable ( a og b 1 ).
37
SSE er en funktion af a og b 1. Vi vil finde a og b 1 så SSE er mindst mulig. Minimering a SSE b1b1
38
Test af hældning (β 1 ) Test for om hældningen, β 1 er forskellig fra nul: Teststørrelse: Numerisk store værdier af t er ufordelagtige for H 0. SE(b 1 ) er standardfejlen for estimatet b 1. Hvis H 0 er sand følger t en såkaldt t-fordeling med n-k- 1 frihedsgrader, hvor n er antal observationer.
39
Test af hældning (β 1 ) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H 0. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Orange område = p-værdi t-fordeling med n-2 frihedsgrader
40
Fortolkning/Eksempler på H 0 Er der en lineær sammenhæng mellem X og Y? H 0 : 1 = 0 ingen lineær sammenhæng H 1 : lineær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Y X Y X Y X Konstant Y Usystematisk variationIkke-lineær sammenhæng
41
SPSS Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable
42
Eksempel Y :Forbrug af gas (gas) X :Udetemperatur (temp) Scatterplot → SPSS: Estimerede model: Både skæring ( ) og hældning ( 1 ) er signifikante!
Lignende præsentationer
© 2024 SlidePlayer.dk Inc.
All rights reserved.