Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression og introduktion til kategoriske data. Har laert linear regression ol. OK naar ens observationer var paa kontinuert skala. I dette kursus kategoriske data (ses ofte I spoergeskema-undersoegelser ) mand/kvinde bil/offentlig/cykel . Laegger ud med at repetere linear regression og ser lidt naermere paa kategoriske data.
Lineær regression Temp (x) -.8 -.7 .4 6.0 6.2 .8 1.0 1.4 … Forbrug af gas (y) 7.2 6.9 6.4 4.9 4.5 4.8 4.6 4.7 4.0 Naturligt at se paa y givet x (kausalitet) Model:
Least-squares linie Output og graf fra SPSS Viser hvordan man tilpasser model vha. SPSS, test, p-vaerdi, konfidensinterval. Hvad kan man udlede af den tilpassede model ? Synes I at modellen ser Ud til at passe godt til data ?
Residuals Residuals: Hvordan skal en normalfordeling se ud ? Normal ?
Multipel regression Isolering (x1) 1 … Temp (x2) -.8 -.7 .4 6.0 6.2 .8 1 … Temp (x2) -.8 -.7 .4 6.0 6.2 .8 1.0 1.4 Forbrug (y) 7.2 6.9 6.4 4.9 4.5 4.8 4.6 4.7 4.0 Vis igen hvordan i SPSS, dummy variabel….., hvad betyder parametrene ?, se evt. Paa naeste slide….
Least-squares linier Output og graf fra SPSS: Viser hvordan man tilpasser model vha. SPSS
Residuals
Typer af variable Kvantitativ vs kategorisk Diskret vs kontinuert Temperatur, forbrug: kvantitativ Isolering: kategorisk Diskret vs kontinuert Isolering: diskret Temperatur, forbrug: kontinuert Antal personer i dette rum ? Kvantitativ: giver mening at udfoere regneoperationer paa data (gennemsnit, sum etc) dette er ikke tilfaeldet for kategoriske: isolering=0.5 (0+1div2) giver Ingen mening endvidere er 0/1 arbitraere kunne ligesaagodt vaere a/b (dvs. Vaerdier blot navne paa kategorier) diskret indenfor et interval kun endeligt mange vaerdier kontinuert: enhver vaerdi paa talaksen.
Klassifikation af variable Giv en masse eksempler NB: kategorisk variabel er diskret pr. definition
Kategorisk afhængig variabel d: dosis insektgift r: død (1)/levende (0) d r 0.2 1 0.1 0.4 Hvordan afhaenger overlevelse af dosis ? - Hvorfor er det ikke en god ide med lineaer regression: fejl ej normal fordelt da respons binaer, resultat afhaenger af kodning (0,1 1,4 (da kategorisk afh. variabel), vi kan prediktere meningsloese vaerdier (dosis´0.4 giver r >1). Lineær regression dur ikke !!
2 kategoriske variable Person Køn Transp. 1 M bil 2 andet 3 K 4 5 … Køn og valg af transportmiddel for 496 personer Krydstabellering: Person Køn Transp. 1 M bil 2 andet 3 K 4 5 … bil andet K 107 144 M 132 113 Eksempel paa taelledata, interesse: er holding til TV-reklame ens for de to koen Responsvariabel: antal personer i hver af de 4 kategorier.
Emner i kurset Første del af kursus: analyse af binære afhængige variable (logistisk regression) Anden del af kursus: analyse af tælledata for krydstabeller (log-lineære modeller)
Bernouilli/binomial fordelingen I forbindelse med modellering af binaere tal faar vi brug for to nye typer af sandsynlighedsfordelinger Bernoulli optraadte I forbindelse med vores insekt-dosis eksempel. Eksempel: antal døde ved given dosis er binomialfordelt med n=3
Insekter og gift dose #døde %døde 1 2 3 4 10 5 40 6 60 7 8 9 90 100 2 3 4 10 5 40 6 60 7 8 9 90 100 For hver dose observeres antal døde ud af 10 insekter 10 insekter for hver dosis sandsynlighedsparameteren afhaenger af dosis. Her kan vi omregne til procenter – dvs. Vi er vaek fra de binaere responsvaerdier
Fortolkning i forhold til transport %døde ~ % personer der tager bil dosis ~ antal km til arbejde Hvis vi lige skulle saette tingene ind I en transport sammenhaeng
Lineær model
Resultat med lineær model NB negativ predikteret frekvens for dosis 1 Frekvenser ikke normalfordelte Frekvenser har forskellig varians: Dvs observationer bør vægtes p(1-p) maximal for p=0.5 gaar noget bedre end for de binaere responser problem med linear fit for meget lave eller store doser da % mellem 0 og 100
Næste gang Logistisk regression for bernouilli eller binomial fordelte data.