Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.

Lignende præsentationer


Præsentationer af emnet: "Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression."— Præsentationens transcript:

1 Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression og introduktion til kategoriske data. Har laert linear regression ol. OK naar ens observationer var paa kontinuert skala. I dette kursus kategoriske data (ses ofte I spoergeskema-undersoegelser ) mand/kvinde bil/offentlig/cykel . Laegger ud med at repetere linear regression og ser lidt naermere paa kategoriske data.

2 Lineær regression Temp (x) -.8 -.7 .4 6.0 6.2 .8 1.0 1.4 … Forbrug
af gas (y) 7.2 6.9 6.4 4.9 4.5 4.8 4.6 4.7 4.0 Naturligt at se paa y givet x (kausalitet) Model:

3 Least-squares linie Output og graf fra SPSS
Viser hvordan man tilpasser model vha. SPSS, test, p-vaerdi, konfidensinterval. Hvad kan man udlede af den tilpassede model ? Synes I at modellen ser Ud til at passe godt til data ?

4 Residuals Residuals: Hvordan skal en normalfordeling se ud ? Normal ?

5 Multipel regression Isolering (x1) 1 … Temp (x2) -.8 -.7 .4 6.0 6.2 .8
1 Temp (x2) -.8 -.7 .4 6.0 6.2 .8 1.0 1.4 Forbrug (y) 7.2 6.9 6.4 4.9 4.5 4.8 4.6 4.7 4.0 Vis igen hvordan i SPSS, dummy variabel….., hvad betyder parametrene ?, se evt. Paa naeste slide….

6 Least-squares linier Output og graf fra SPSS:
Viser hvordan man tilpasser model vha. SPSS

7 Residuals

8 Typer af variable Kvantitativ vs kategorisk Diskret vs kontinuert
Temperatur, forbrug: kvantitativ Isolering: kategorisk Diskret vs kontinuert Isolering: diskret Temperatur, forbrug: kontinuert Antal personer i dette rum ? Kvantitativ: giver mening at udfoere regneoperationer paa data (gennemsnit, sum etc) dette er ikke tilfaeldet for kategoriske: isolering=0.5 (0+1div2) giver Ingen mening endvidere er 0/1 arbitraere kunne ligesaagodt vaere a/b (dvs. Vaerdier blot navne paa kategorier) diskret indenfor et interval kun endeligt mange vaerdier kontinuert: enhver vaerdi paa talaksen.

9 Klassifikation af variable
Giv en masse eksempler NB: kategorisk variabel er diskret pr. definition

10 Kategorisk afhængig variabel
d: dosis insektgift r: død (1)/levende (0) d r 0.2 1 0.1 0.4 Hvordan afhaenger overlevelse af dosis ? - Hvorfor er det ikke en god ide med lineaer regression: fejl ej normal fordelt da respons binaer, resultat afhaenger af kodning (0,1 1,4 (da kategorisk afh. variabel), vi kan prediktere meningsloese vaerdier (dosis´0.4 giver r >1). Lineær regression dur ikke !!

11 2 kategoriske variable Person Køn Transp. 1 M bil 2 andet 3 K 4 5 …
Køn og valg af transportmiddel for 496 personer Krydstabellering: Person Køn Transp. 1 M bil 2 andet 3 K 4 5 bil andet K 107 144 M 132 113 Eksempel paa taelledata, interesse: er holding til TV-reklame ens for de to koen Responsvariabel: antal personer i hver af de 4 kategorier.

12 Emner i kurset Første del af kursus: analyse af binære afhængige variable (logistisk regression) Anden del af kursus: analyse af tælledata for krydstabeller (log-lineære modeller)

13 Bernouilli/binomial fordelingen
I forbindelse med modellering af binaere tal faar vi brug for to nye typer af sandsynlighedsfordelinger Bernoulli optraadte I forbindelse med vores insekt-dosis eksempel. Eksempel: antal døde ved given dosis er binomialfordelt med n=3

14 Insekter og gift dose #døde %døde 1 2 3 4 10 5 40 6 60 7 8 9 90 100
2 3 4 10 5 40 6 60 7 8 9 90 100 For hver dose observeres antal døde ud af 10 insekter 10 insekter for hver dosis sandsynlighedsparameteren afhaenger af dosis. Her kan vi omregne til procenter – dvs. Vi er vaek fra de binaere responsvaerdier

15 Fortolkning i forhold til transport
%døde ~ % personer der tager bil dosis ~ antal km til arbejde Hvis vi lige skulle saette tingene ind I en transport sammenhaeng

16 Lineær model

17 Resultat med lineær model
NB negativ predikteret frekvens for dosis 1 Frekvenser ikke normalfordelte Frekvenser har forskellig varians: Dvs observationer bør vægtes p(1-p) maximal for p=0.5 gaar noget bedre end for de binaere responser problem med linear fit for meget lave eller store doser da % mellem 0 og 100

18 Næste gang Logistisk regression for bernouilli eller binomial fordelte data.


Download ppt "Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression."

Lignende præsentationer


Annoncer fra Google