Repetition: likelihood ratio test Test af hvorvidt faktorer med flere end 2 niveauer (mere end 1 parameter) kan udelades fra model: likelihood ratio test. Likelihood: sandsynlighed for at observere data anskuet som en funktion af de ukendte parametre. Maximum likelihood estimater: de parameter- værdier, som maximerer likelihood-funktionen. Jo større likelihood des bedre passer model til data.
sammenlign maximal likelihood L0 for model uden faktor med maximal likelihood L1 for model indeholdende faktoren. Likelihood ratio L0/L1 mindre end 1 og L0/L1 lille det samme som -2 (log L0- log L1) stor. Dvs. store værdier af -2 (log L0- log L1) kritiske for H0.
Eksempel: coronary heart disease Tilpasser logistisk regression med separat sandsynlighed for chd i hver aldersgruppe. NB: agrp signifikant NB: -2log likelihood for null model og aktuelle model
Goodness of fit Goodness of fit test: H0: “aktuel model passer”. Deviance -2 (log L0-log L1) : sammenligner L0: maximal likelihood under aktuelle model med L1: maximal likelihood for “mættet” model. NB: i dette tilfælde er mættet model=aktuel model dvs. Pearson og Deviance er begge nul.
Model med age som covariate ? Husk: parameterestimater giver logit(p) ! Ex (agrp=5): logit(p5)= = dvs. p5=0.462 Jvf. plots sidste gang kunne det se ud som logit(p) lineær funktion af alder.
Age som covariate NB: her stemmer wald og likelihood ratio overens. NB: odds ratio når alder øges 1 år: exp(0.11)=1.117
Goodness of fit Pas på: mange grupper med kun 1 observation… kan gøre goodness of fit testet upålideligt. Goodness of fit test ikke signifikant – ikke evidens mod aktuelle model.
Model med agrp eller age bedst ? - 2 log likelihood med agrp: log likelihood med age: Men forskellig gruppering (finere gruppering med age!) - 2 loglikelihood med agrp og samme gruppering som for age:
Akaikes Informations Kriterie (AIC) AIC= - 2 log likelihood + 2 * antal parametre Antal parametre: modellens kompleksitet - 2 log likelihood: modellens fit Jo mindre AIC des bedre (godt fit og lille kompleksitet) AIC for agrp model: *8 AIC for age model: *2 Dvs model med age som covariate er at foretrække !
Regressions-modeller: opsummering Typer af variable Lineær/multipel regression Logistisk regression Eksempel
Respons/afhængig variabel Kontinuert/kvantitativ: lineær/multipel regression. Kategorisk/binær: logistisk regression Valg af model afhænger af responsvariablen !
Multipel regression Modellerer den forventede værdi af observationerne: NB: forklarende variable kan både være kategoriske (faktorer) og kontinuerte (kovariater) NB: likelihood ratio tests kaldes F-tests !
Logistisk regression Respons y er binomial fordelt. Modellerer logit til sandsynlighedsparameteren: NB: forklarende variable kan både være kategoriske (faktorer) og kontinuerte (kovariater)
Eksempel: prestige score for arbejde Sociologisk studie fra USA Undersøge respondents arbejdsprestige scores afhængighed af alder og race og køn.
Nogle plots
Model med age som kategorisk Danner kategorisk age-variabel: 60 Slutmodel (efter trinvis modelselektion): sex+race+race*sex
Profil plot
Residual plot Checker om fejl er normalfordelte: Normalfordeling rimelig approximation.