Statistik Lektion 5 Log-lineære modeller.

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Kvantitative metoder 2 Dummyvariabler 28. marts 2007 KM2: F16.
Dummyvariabler 13. oktober 2006
Statistik Lektion 18 Multipel Linear Regression
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 9
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 6
Grundlæggende teoretisk statistik
Variansanalyse Modelkontrol
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Kvalitative variable 8. marts 2006.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: F141 Økonometri 1 Specifikation og dataproblemer 6. november 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Log lineære modeller for 3- og flervejskontingenstabeller
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Logistisk regression - fortsat
Log-lineære modeller ● Analyse af symmetriske sammenhænge mellem kategoriske variable. ● Ordinal information ignoreres.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Logistisk regression –Odds/Odds ratio Probit model Fortolkning udfra latent variabel.
Den multiple regressionsmodel 21. september 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statistik Lektion 5 Log-lineære modeller

Log-linære Modeller Log-linære modeller bruges til at analysere symmetriske sammenhænge mellem to eller flere kategoriske variable. Kan ses som en udvidelse af c2-testet af uafhængighed.

Kontingenstabel Contingency: Mulighed/tilfælde Kontingenstabel: Antal observationer (frekvenser) i klasser givet ved krydstabulering af et antal kategoriske variable. Eksempel på to-vejstabel: Det ”sædvanlige” c2-test for uafhængighed:

Log-lineær Model Antag vi har n personer og to kategoriske variable U (Uddannelse) og H (Holdning). Sandsynligheden for at en tilfældigt valgt person har uddannelse u og holdning h er: Den forventede frekvens for U=u og H=h er:

Parametrisk form Generelt antager vi at de log forventede frekvenser er givet ved Præcist som i multipel og lineær regression har vi hoved-effekter (bu og bh) samt en interaktionseffekt (buh). Og som sædvanligt bruger vi dummy variable som regneteknisk trick til at håndtere kategoriske variable. hvor xu, xh og xuh er dummy variable.

Uafhængighed To variable U og H er uafhængige hvis og kun hvis For den log-lineære model betyder det: Dvs. der er ikke et led der afhænger af både U og H.

Estimation I SPSS estimerer man en log-lineær model vha. Analyze → Loglinear → General. Vælg ’Estimates’ Under ’Options’. Resultat:

Resultat Estimerede model: Fx: F11 = exp(7,097) = 1208.33 ≈ 1208 Bemærk: Der er hhv. 1208 og 873 i de to kombinationer.

Modelform Selv uden dummy variable bliver log-lineære modeller hurtigt besværlige at skrive op. I log-lineære modeller er modellens struktur mere interessant end parametrenes værdi. Derfor skriver vi modellen på modelformen U + H + U*H Da modellen skal overholde det hierarkiske princip kan vi nøjes med at skrive U*H

Opbygning af en model Først vælge variable af interesse Dernæst specificerer vi en startmodel, der indeholder de interaktioner der er af faglig interesse. Dog skal startmodellen overholder det hierarkiske princip. Indeholder startmodellen et interaktionsled, hvor alle variable indgår kaldes startmodellen en mættet model. Med udgangspunkt i en startmodel laves en backwards søgning. I hvert trin fjerner vi det led i modellen med det højest p-værdi over 0.05 – under hensyntagen til det hierarkiske princip. Dvs. vi fjerner det mindst statistisk signifikante modelled. Resultatet kaldes slutmodellen.

Større Eksempel Analyse af sammenhængen mellem fire kategoriske variable: B: Boligstandard: 0 = dårlig, 1 = acceptabel, 2 = god H: Helbred: 0 = godt, 1 = dårligt I: Isoleret: 0 = ja, 1 = nej A: Angst: 0 = nej, 1 = ja Vi starter med en mættet model, dvs. en model der indeholder interaktioner mellem alle fire variable. Modelformel A*B*H*I

Krydstabel Krydstabel over de fire variable: SPSS: Analyze → Descriptive Statistics → Crosstabs H i row, B i column, I i Layer 1 og A i Layer 2: Hvad siger I? Hvad er sammenhængene?

Startmodel Startmodellen er en mættet model, dvs. SPSS vælger som standard den sidste kategori som reference. Alle parametre der involverer en eller flere referencekategorier sættes lig nul.  Konstant/skæring  Hovedeffekter  To-vejs-interaktioner  Tre-vejs-interaktioner  Fire-vejs-interaktioner

Modelsøgning SPSS: Analyze → Loglinear → Model selection For hver variabel angiv variablens ”range”. Under ’Model’ angiv startmodellen. Default er en mættet startmodel. Under ’Options’ kan I vælge ’Parameter estimates’

Modelsøgning Modelsøgningen følger ”backwards” metoden I hvert trin tester SPSS hvilke led i modellen, der kan fjernes i henhold til det hierarkiske princip. Eksempel: Efter tre trin i modelsøgningen har vi modellen: B*H*A + H*I*A + B*I Fjerner H*I*A da mindst signifikant (og over 0.05). Ny model: B*H*A+ B*I+H*I+I*A

B*I + H*I + I*A + B*H + B*A + H*A Slutmodel Modelsøgningen ender med en slutmodel: Dvs. slutmodellen er: B*I + H*I + I*A + B*H + B*A + H*A Et ”goodness-of-fit” test af slutmodellen: Konklusion: Vi kan ikke afvise at modellen passer.

Grafisk repræsentering En grafisk repræsentation opnås ved at Tegn en cirkel for hver variabel. Forbind variable, der indgår i samme modelled. Eksempel: Antag modellen er A*B + B*H*I A B I H

Fortolkning af slutmodel Uafhængighed: Hvis A indgår i modelformlen, men A ikke indgår i andre led (fx A*B, A*H, osv), så er A uafhængig. Fx: A + B*H + B*I Forklaret sammenhæng. Hvis B og H er ”forbundet” via andre led, men ikke indgår i samme led, så er en eventuel sammenhæng forklaret af andre variable. Dvs. slutmodellen må ikke indeholde fx B*H, B*H*A eller A*B*H*I. B*I + A*I*H Sammenhægen mellem B og H er forklaret af I og A. A B I H A B I H

Fortolkning af slumodel - fortsat Homogen sammenhæng: Hvis A*H indgår i modellen, men A*H ikke indgår i mere komplicerede led, så er sammenhængen mellem A og H homogen. Dvs. modellen må ikke indeholder A*H*I, A*B*H eller A*B*H*I. Fx: A*H + A*I*B + B*H Heterogen sammenhæng: Hvis A*H indgår i modellen som en del af et mere kompliceret led, så er sammenhængen mellem A og H heterogen. Dvs. modellen skal indeholde A*B*I, A*B*H eller A*B*H*I A*B*H + A*I*B I B A H Bemærk at graferne er ens!! I B A H

Slutmodel: Fortolkning I eksemplet var slutmodellen: B*I + H*I + I*A + B*H + B*A + H*A Vi kan umiddelbart se, at vi ingen uafhængige variable har. Af den grafiske repræsentation kan vi se, at der ingen forklarede sammenhænge optræder i modellen. Vi har homogene sammenhænge mellem alle par af variable. A B I H

Parameterestimater + Modelkontrol Slutmodellen er et udtryk for sammenhænge mellem variablene i modellen. Slutmodellen siger kun, at der er sammenhænge, men ikke om det fx er negative eller positive sammenhænge. Generelt er det svært at fortolke parametre… SPSS kan estimere parametre i en given log-lineær model: Analyze → Loglinear → General Under ’Model’ vælg ’Custom’ og indsæt slutmodellen (først hovedeffekter, derefter to-vejs interaktioner osv). Under ’Options’ vælg ’Estimates’ og de to plot for ’Adjusted residuals’

SPSS…

Estimater

Flere estimater… Hvad er den forventede frekvens for A=0, B=1, H=0 og I=1?

Modelkontrol: Forventede vs Observerede Ønskeligt: Expected ≈ Observed Variationen i Adj. Resid. er usystematisk.

QQ-plot Prikkerne bør ligge usystematisk omkring linjen