Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Statistik Lektion 5 Log-lineære modeller.

Lignende præsentationer


Præsentationer af emnet: "Statistik Lektion 5 Log-lineære modeller."— Præsentationens transcript:

1 Statistik Lektion 5 Log-lineære modeller

2 Log-linære Modeller Log-linære modeller bruges til at analysere symmetriske sammenhænge mellem to eller flere kategoriske variable. Kan ses som en udvidelse af c2-testet af uafhængighed.

3 Kontingenstabel Contingency: Mulighed/tilfælde
Kontingenstabel: Antal observationer (frekvenser) i klasser givet ved krydstabulering af et antal kategoriske variable. Eksempel på to-vejstabel: Det ”sædvanlige” c2-test for uafhængighed:

4 Log-lineær Model Antag vi har n personer og to kategoriske variable U (Uddannelse) og H (Holdning). Sandsynligheden for at en tilfældigt valgt person har uddannelse u og holdning h er: Den forventede frekvens for U=u og H=h er:

5 Parametrisk form Generelt antager vi at de log forventede frekvenser er givet ved Præcist som i multipel og lineær regression har vi hoved-effekter (bu og bh) samt en interaktionseffekt (buh). Og som sædvanligt bruger vi dummy variable som regneteknisk trick til at håndtere kategoriske variable. hvor xu, xh og xuh er dummy variable.

6 Uafhængighed To variable U og H er uafhængige hvis og kun hvis
For den log-lineære model betyder det: Dvs. der er ikke et led der afhænger af både U og H.

7 Estimation I SPSS estimerer man en log-lineær model vha. Analyze → Loglinear → General. Vælg ’Estimates’ Under ’Options’. Resultat:

8 Resultat Estimerede model: Fx: F11 = exp(7,097) = 1208.33 ≈ 1208
Bemærk: Der er hhv og 873 i de to kombinationer.

9 Modelform Selv uden dummy variable bliver log-lineære modeller hurtigt besværlige at skrive op. I log-lineære modeller er modellens struktur mere interessant end parametrenes værdi. Derfor skriver vi modellen på modelformen U + H + U*H Da modellen skal overholde det hierarkiske princip kan vi nøjes med at skrive U*H

10 Opbygning af en model Først vælge variable af interesse
Dernæst specificerer vi en startmodel, der indeholder de interaktioner der er af faglig interesse. Dog skal startmodellen overholder det hierarkiske princip. Indeholder startmodellen et interaktionsled, hvor alle variable indgår kaldes startmodellen en mættet model. Med udgangspunkt i en startmodel laves en backwards søgning. I hvert trin fjerner vi det led i modellen med det højest p-værdi over 0.05 – under hensyntagen til det hierarkiske princip. Dvs. vi fjerner det mindst statistisk signifikante modelled. Resultatet kaldes slutmodellen.

11 Større Eksempel Analyse af sammenhængen mellem fire kategoriske variable: B: Boligstandard: 0 = dårlig, 1 = acceptabel, 2 = god H: Helbred: 0 = godt, 1 = dårligt I: Isoleret: 0 = ja, 1 = nej A: Angst: 0 = nej, 1 = ja Vi starter med en mættet model, dvs. en model der indeholder interaktioner mellem alle fire variable. Modelformel A*B*H*I

12 Krydstabel Krydstabel over de fire variable:
SPSS: Analyze → Descriptive Statistics → Crosstabs H i row, B i column, I i Layer 1 og A i Layer 2: Hvad siger I? Hvad er sammenhængene?

13 Startmodel Startmodellen er en mættet model, dvs.
SPSS vælger som standard den sidste kategori som reference. Alle parametre der involverer en eller flere referencekategorier sættes lig nul.  Konstant/skæring  Hovedeffekter  To-vejs-interaktioner  Tre-vejs-interaktioner  Fire-vejs-interaktioner

14 Modelsøgning SPSS: Analyze → Loglinear → Model selection
For hver variabel angiv variablens ”range”. Under ’Model’ angiv startmodellen. Default er en mættet startmodel. Under ’Options’ kan I vælge ’Parameter estimates’

15 Modelsøgning Modelsøgningen følger ”backwards” metoden
I hvert trin tester SPSS hvilke led i modellen, der kan fjernes i henhold til det hierarkiske princip. Eksempel: Efter tre trin i modelsøgningen har vi modellen: B*H*A + H*I*A + B*I Fjerner H*I*A da mindst signifikant (og over 0.05). Ny model: B*H*A+ B*I+H*I+I*A

16 B*I + H*I + I*A + B*H + B*A + H*A
Slutmodel Modelsøgningen ender med en slutmodel: Dvs. slutmodellen er: B*I + H*I + I*A + B*H + B*A + H*A Et ”goodness-of-fit” test af slutmodellen: Konklusion: Vi kan ikke afvise at modellen passer.

17 Grafisk repræsentering
En grafisk repræsentation opnås ved at Tegn en cirkel for hver variabel. Forbind variable, der indgår i samme modelled. Eksempel: Antag modellen er A*B + B*H*I A B I H

18 Fortolkning af slutmodel
Uafhængighed: Hvis A indgår i modelformlen, men A ikke indgår i andre led (fx A*B, A*H, osv), så er A uafhængig. Fx: A + B*H + B*I Forklaret sammenhæng. Hvis B og H er ”forbundet” via andre led, men ikke indgår i samme led, så er en eventuel sammenhæng forklaret af andre variable. Dvs. slutmodellen må ikke indeholde fx B*H, B*H*A eller A*B*H*I. B*I + A*I*H Sammenhægen mellem B og H er forklaret af I og A. A B I H A B I H

19 Fortolkning af slumodel - fortsat
Homogen sammenhæng: Hvis A*H indgår i modellen, men A*H ikke indgår i mere komplicerede led, så er sammenhængen mellem A og H homogen. Dvs. modellen må ikke indeholder A*H*I, A*B*H eller A*B*H*I. Fx: A*H + A*I*B + B*H Heterogen sammenhæng: Hvis A*H indgår i modellen som en del af et mere kompliceret led, så er sammenhængen mellem A og H heterogen. Dvs. modellen skal indeholde A*B*I, A*B*H eller A*B*H*I A*B*H + A*I*B I B A H Bemærk at graferne er ens!! I B A H

20 Slutmodel: Fortolkning
I eksemplet var slutmodellen: B*I + H*I + I*A + B*H + B*A + H*A Vi kan umiddelbart se, at vi ingen uafhængige variable har. Af den grafiske repræsentation kan vi se, at der ingen forklarede sammenhænge optræder i modellen. Vi har homogene sammenhænge mellem alle par af variable. A B I H

21 Parameterestimater + Modelkontrol
Slutmodellen er et udtryk for sammenhænge mellem variablene i modellen. Slutmodellen siger kun, at der er sammenhænge, men ikke om det fx er negative eller positive sammenhænge. Generelt er det svært at fortolke parametre… SPSS kan estimere parametre i en given log-lineær model: Analyze → Loglinear → General Under ’Model’ vælg ’Custom’ og indsæt slutmodellen (først hovedeffekter, derefter to-vejs interaktioner osv). Under ’Options’ vælg ’Estimates’ og de to plot for ’Adjusted residuals’

22 SPSS…

23 Estimater

24 Flere estimater… Hvad er den forventede frekvens for A=0, B=1, H=0 og I=1?

25 Modelkontrol: Forventede vs Observerede
Ønskeligt: Expected ≈ Observed Variationen i Adj. Resid. er usystematisk.

26 QQ-plot Prikkerne bør ligge usystematisk omkring linjen


Download ppt "Statistik Lektion 5 Log-lineære modeller."

Lignende præsentationer


Annoncer fra Google