Statistik II 5. Lektion Log-lineære modeller.

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Kvantitative metoder 2 Dummyvariabler 28. marts 2007 KM2: F16.
Dummyvariabler 13. oktober 2006
Statistik Lektion 18 Multipel Linear Regression
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 9
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 6
Variansanalyse Modelkontrol
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Poissonfordelte observationer Deskriptiv analyse Jens Friis, AAU.
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Kvalitative variable 8. marts 2006.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: F141 Økonometri 1 Specifikation og dataproblemer 6. november 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Log lineære modeller for kontingenstabeller Kontingenstabeller Test for uafhængighed af inddelingskriterier Sammenligning med logistisk regression Odds.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Log lineære modeller for 3- og flervejskontingenstabeller
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Lineær og logistisk regression - fortsat
Logistisk regression - fortsat
KM2: F211 Kvantitative metoder 2 Specifikation og dataproblemer 30. april 2007.
Log-lineære modeller ● Analyse af symmetriske sammenhænge mellem kategoriske variable. ● Ordinal information ignoreres.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Logistisk regression –Odds/Odds ratio Probit model Fortolkning udfra latent variabel.
Den multiple regressionsmodel 21. september 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statistik II 5. Lektion Log-lineære modeller

Log-linære Modeller Log-linære modeller bruges til at analysere symmetriske sammenhænge mellem to eller flere kategoriske variable. Kan ses som en udvidelse af c2-testet af uafhængighed.

Kontingenstabel Contingency: Mulighed/tilfælde Kontingenstabel: Antal observationer (frekvenser) i klasser givet ved krydstabulering af et antal kategoriske variable. Eksempel på to-vejstabel: Det ”sædvanlige” c2-test for uafhængighed:

Log-lineær Model Antag vi har n personer og to kategoriske variable U (Uddannelse) og H (Holdning). Sandsynligheden for at en tilfældigt valgt person har uddannelse u og holdning h er: Den forventede frekvens for U=u og H=h er:

Parametrisk form Generelt antager vi at de log forventede frekvenser er givet ved Præcist som i multipel og lineær regression har vi hoved-effekter (bu og bh) samt en interaktionseffekt (buh). Og som sædvanligt bruger vi dummy variable som regneteknisk trick til at håndtere kategoriske variable. hvor xu, xh og xuh er dummy variable.

Uafhængighed To variable U og H er uafhængige hvis og kun hvis For den log-lineære model betyder det: Dvs. der er ikke et led der afhænger af både U og H.

Estimation I SPSS estimerer man en log-lineær model vha. Analyze → Loglinear → General. Vælg ’Estimates’ Under ’Options’. Resultat:

Resultat Estimerede model: Fx: F11 = exp(7,097) = 1208.33 ≈ 1208 Bemærk: Der er hhv. 1208 og 873 i de to kobinationer.

Modelform Selv uden dummy variable bliver log-lineære modeller hurtigt besværlige at skrive op. I log-lineære modeller er modellens struktur mere interessant end parametrenes værdi. Derfor skriver vi modellen på modelforlen U + H + U*H Da modellen skal overholde det hierarkiske princip kan vi nøjes med at skrive U*H

Opbygning af en model Først vælge variable af interesse Dernæst specificerer vi en startmodel, der indeholder de interaktioner der er af faglig interesse. Dog skal startmodellen overholder det hierarkiske princip. Indeholder startmodellen et interaktionsled, hvor alle variable indgår kaldes startmodellen en mættet model. Med udgangspunkt i en startmodel laves en backwards søgning. I hvert trin fjerner vi det led i modellen med det højst p-værdi over 0.05 – under hensyntagen til det hierarkiske princip. Resultatet kaldes slutmodellen.

Større Eksempel Analyse af sammenhængen mellem fire kategoriske variable: B: Boligstandard: 0 = dårlig, 1 = acceptabel, 2 = god H: Helbred: 0 = godt, 1 = dårligt I: Isoleret: 0 = ja, 1 = nej A: Angst: 0 = nej, 1 = ja Vi starter med en mættet model, dvs. en model der indeholder interaktioner mellem alle fire variable. Modelformel A*B*H*I

Krydstabel Krydstabel over de fire variable: SPSS: Analyze → Descriptive Statistics → Crosstabs H i row, B i column, I i Layer 1 og A i Layer 2: Hvad siger I? Hvad er sammenhængene?

Startmodel Startmodellen er en mættet model, dvs. SPSS vælger som standard den sidste kategori som reference. Alle parametre der involverer en eller flere referencekategorier sættes lig nul.

Modelsøgning SPSS: Modelsøgningen følger ”backwards” metoden I hvert trin tester SPSS hvilke led i modellen, der kan fjernes i henhold til det hierarkiske princip. Eksempel: Efter tre trin i modelsøgningen har vi modellen: B*H*A + H*I*A + B*I Fjerner H*I*A da mindst signifikant (og over 0.05). Ny model: B*H*A+ B*I+H*I+I*A

Modelsøgning SPSS: Analyze → Loglinear → Model selection For hver variabel angiv variablens ”range”. Under ’Model’ angiv startmodellen. Default er en mættet startmodel. Under ’Options’ kan I vælge ’Parameter estimates’

B*I + H*I + I*A + B*H + B*A + H*A Slutmodel Modelsøgningen ender med en slutmodel: Dvs. slutmodellen er: B*I + H*I + I*A + B*H + B*A + H*A Et ”goodness-of-fit” test af slutmodellen: Konklusion: Vi kan ikke afvise at modellen passer.

Grafisk repræsentering En grafisk repræsentering opnås ved at Tegn en cirkel for hver variabel. Forbind variable, der indgår i samme modelled. Eksempel: Antag modellen er A*B + B*H*I A B I H

Fortolkning af slutmodel Uafhængighed: Hvis A indgår i modelformlen, men A ikke indgår i andre led (fx A*B, A*H, osv), så er A uafhængig. Fx: A + B*H + B*I Forklaret sammenhæng. Hvis B og H ikke indgår i samme led, så er en eventuel sammenhæng forklaret af andre variable. Dvs. slutmodellen må ikke indeholde fx B*H, B*H*A eller A*B*H*I. B*I + A*I*H A B I H A B I H

Fortolkning af slumodel - fortsat Homogen sammenhæng: Hvis A*H indgår i modellen, men A*H ikke indgår i merre komplicerede led, så er sammenhængen mellem A og H homogen. Dvs. modellen må ikke indeholder A*H*I, A*B*H eller A*B*H*I. Fx: A*H + A*I*B + B*H Heterogen sammenhæng: Hvis A*H indgår i modellen som en del af et mere kompliceret led, så er sammenhængen mellem A og H heterogen. Dvs. modellen skal indeholde A*B*I, A*B*H eller A*B*H*I A*B*H + A*I*B I B A H Bemærk at graferne er ens!! I B A H

Slutmodel: Fortolkning I eksemplet var slutmodellen: B*I + H*I + I*A + B*H + B*A + H*A Vi kan umiddelbart se, at vi ingen uafhængige variable har. Af den grafiske repræsentation kan vi se, at der ingen forklarede sammenhænge optræder i modellen. Vi har homogene sammenhænge mellem alle par af variable. A B I H

Parameterestimater + Modelkontrol Slutmodellen er et udtryk for sammenhænge mellem variablene i modellen. Slutmodellen siger ikke noget præcist om sammenhængene, fx negative eller positive sammenhænge. Generelt er det svært at fortolke parametre… SPSS kan estimere parametre i en given log-lineær model: Analyze → Loglinear → General Under ’Model’ vælg ’Custom’ og indsæt slutmodellen (først hovedeffekter, derefter to-vejs interaktioner osv). Under ’Options’ vælg ’Estimates’ og de to plot for ’Adjusted residuals’

SPSS…

Estimater

Flere estimater… Hvad er den forventede frekvens for A=0, B=1, H=0 og I=1?

Modelkontrol: Forventede vs Observerede Ønskeligt: Expected ≈ Observed Variationen i Adj. Resid. er usystematisk.

QQ-plot Prikkerne bør ligge usystematisk omkring linjen