Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression og introduktion til kategoriske data.
Lineær regression Temp (x) -.8 -.7 .4 6.0 6.2 .8 1.0 1.4 … Forbrug (y) 7.2 6.9 6.4 4.9 4.5 4.8 4.6 4.7 4.0 Naturligt at se paa y givet x (kausalitet) Model:
Least-squares linie Output og graf fra SPSS Viser hvordan man tilpasser model vha. SPSS, test, p-vaerdi, konfidensinterval
Residuals Residuals: Normal ?
Multipel regression Isolering (x1) 1 … Temp (x2) -.8 -.7 .4 6.0 6.2 .8 1 … Temp (x2) -.8 -.7 .4 6.0 6.2 .8 1.0 1.4 Forbrug (y) 7.2 6.9 6.4 4.9 4.5 4.8 4.6 4.7 4.0 Vis igen hvordan i SPSS, dummy variabel…..
Least-squares linie Output og graf fra SPSS: Viser hvordan man tilpasser model vha. SPSS
Residuals
Typer af variable Kvantitativ vs kategorisk Diskret vs kontinuert Temperatur, forbrug: kvantitativ Isolering: kategorisk Diskret vs kontinuert Isolering: diskret Temperatur, forbrug: kontinuerte
Klassifikation af variable Giv en masse eksempler NB: kategorisk variabel er diskret pr. definition
Kategorisk afhængig variabel d: dosis insektgift r: død (1)/levende (0) d r 0.2 1 0.1 0.4 Hvorfor er det ikke en god ide med lineaer regression: fejl ej normal fordelt, resultat afhaenger af kodning (0,1 1,4 (da kategorisk afh. variabel), vi kan prediktere meningsloese vaerdier (dosis´0.4 giver r >1). Lineær regression dur ikke !!
Bernouilli/binomial fordelingen Eksempel: antal døde ved given dosis er binomialfordelt med n=3
2 kategoriske variable Person Køn Att. 1 M pos 2 3 K neg 4 5 … Pos Neg Køn og attitude til TV-reklame for 100 personer Person Køn Att. 1 M pos 2 3 K neg 4 5 … Krydstabellering: Pos Neg M 13 25 K 20 42
Uafhængighed og betinget sandsynlighed Eksempler på hændelser: A: tilfældigt udvalgt person er kvinde. B: personen er positivt indstillet overfor reklame. 2 hændelser A og B er uafhængige hvis P(A og B)=P(A)P(B) Betinget sandsynlighed: P(A|B)=P(A og B)/P(B)
Multinomialfordeling TV-reklame tabel giver 4 mulige udfald: M og pos, M og neg, K og pos, K og neg
Tilbage til TV-reklamen Pos Neg M 13 25 38 K 20 42 62 33 67 100 13/38=0.34 P(Pos|K)=20/62=0.32 P(K)=0.62 P(pos)=0.33 P(K og Pos)=0.20 P(K)*P(Pos)=0.2046 Estimater for P(K) ?, P(M) ? P(pos)? Er P(Pos|K)=P(Pos|M) ? Er køn og holdning uafhængige ?
Næste gang: logistisk regression