Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.

Slides:



Advertisements
Lignende præsentationer
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Advertisements

Dummyvariabler 13. oktober 2006
Statistik Lektion 18 Multipel Linear Regression
Statistik og sandsynlighedsregning
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Statistik Lektion 3 Simultan fordelte stokastiske variable
Variansanalyse Modelkontrol
Logistisk regression Den lineære sandsynlighedsmodel
SPSS: basale dataanalyser
Repetition: likelihood ratio test Test af hvorvidt faktorer med flere end 2 niveauer (mere end 1 parameter) kan udelades fra model: likelihood ratio test.
SPSS II: lineære modeller
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Variansanalyse Modelkontrol
Statistik og sandsynlighedsregning
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Statistik Kristine og Søren.
Statistik II Lektion 4 Generelle Lineære Modeller
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Statistik Lektion 16 Multipel Lineær Regression
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik for geografer
Økonometri – lektion 8 Multipel Lineær Regression
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Statistik Lektion 8 Test for ens varians.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
Kvantitative metoder 2: F31 Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
KM2: F201 Kvantitative metoder 2 Heteroskedasticitet 18. april 2007.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Normalfordelingen og Stikprøvefordelinger
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Log lineære modeller for kontingenstabeller Kontingenstabeller Test for uafhængighed af inddelingskriterier Sammenligning med logistisk regression Odds.
Økonometri – lektion 6 Multipel Lineær Regression
Log lineære modeller for 3- og flervejskontingenstabeller
Lineær og logistisk regression - fortsat
Logistisk regression - fortsat
Log-lineære modeller ● Analyse af symmetriske sammenhænge mellem kategoriske variable. ● Ordinal information ignoreres.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Logistisk regression –Odds/Odds ratio Probit model Fortolkning udfra latent variabel.
Ellen Holm, Forskningscafé
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Anvendt Statistik Lektion 6
Niveau 3: Regressionsanalyse: Tværsnitsundersøgelser
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression og introduktion til kategoriske data. Har laert linear regression ol. OK naar ens observationer var paa kontinuert skala. I dette kursus kategoriske data (ses ofte I spoergeskema-undersoegelser ) mand/kvinde bil/offentlig/cykel . Laegger ud med at repetere linear regression og ser lidt naermere paa kategoriske data.

Lineær regression Temp (x) -.8 -.7 .4 6.0 6.2 .8 1.0 1.4 … Forbrug af gas (y) 7.2 6.9 6.4 4.9 4.5 4.8 4.6 4.7 4.0 Naturligt at se paa y givet x (kausalitet) Model:

Least-squares linie Output og graf fra SPSS Viser hvordan man tilpasser model vha. SPSS, test, p-vaerdi, konfidensinterval. Hvad kan man udlede af den tilpassede model ? Synes I at modellen ser Ud til at passe godt til data ?

Residuals Residuals: Hvordan skal en normalfordeling se ud ? Normal ?

Multipel regression Isolering (x1) 1 … Temp (x2) -.8 -.7 .4 6.0 6.2 .8 1 … Temp (x2) -.8 -.7 .4 6.0 6.2 .8 1.0 1.4 Forbrug (y) 7.2 6.9 6.4 4.9 4.5 4.8 4.6 4.7 4.0 Vis igen hvordan i SPSS, dummy variabel….., hvad betyder parametrene ?, se evt. Paa naeste slide….

Least-squares linier Output og graf fra SPSS: Viser hvordan man tilpasser model vha. SPSS

Residuals

Typer af variable Kvantitativ vs kategorisk Diskret vs kontinuert Temperatur, forbrug: kvantitativ Isolering: kategorisk Diskret vs kontinuert Isolering: diskret Temperatur, forbrug: kontinuert Antal personer i dette rum ? Kvantitativ: giver mening at udfoere regneoperationer paa data (gennemsnit, sum etc) dette er ikke tilfaeldet for kategoriske: isolering=0.5 (0+1div2) giver Ingen mening endvidere er 0/1 arbitraere kunne ligesaagodt vaere a/b (dvs. Vaerdier blot navne paa kategorier) diskret indenfor et interval kun endeligt mange vaerdier kontinuert: enhver vaerdi paa talaksen.

Klassifikation af variable Giv en masse eksempler NB: kategorisk variabel er diskret pr. definition

Kategorisk afhængig variabel d: dosis insektgift r: død (1)/levende (0) d r 0.2 1 0.1 0.4 Hvordan afhaenger overlevelse af dosis ? - Hvorfor er det ikke en god ide med lineaer regression: fejl ej normal fordelt da respons binaer, resultat afhaenger af kodning (0,1 1,4 (da kategorisk afh. variabel), vi kan prediktere meningsloese vaerdier (dosis´0.4 giver r >1). Lineær regression dur ikke !!

2 kategoriske variable Person Køn Transp. 1 M bil 2 andet 3 K 4 5 … Køn og valg af transportmiddel for 496 personer Krydstabellering: Person Køn Transp. 1 M bil 2 andet 3 K 4 5 … bil andet K 107 144 M 132 113 Eksempel paa taelledata, interesse: er holding til TV-reklame ens for de to koen Responsvariabel: antal personer i hver af de 4 kategorier.

Emner i kurset Første del af kursus: analyse af binære afhængige variable (logistisk regression) Anden del af kursus: analyse af tælledata for krydstabeller (log-lineære modeller)

Bernouilli/binomial fordelingen I forbindelse med modellering af binaere tal faar vi brug for to nye typer af sandsynlighedsfordelinger Bernoulli optraadte I forbindelse med vores insekt-dosis eksempel. Eksempel: antal døde ved given dosis er binomialfordelt med n=3

Insekter og gift dose #døde %døde 1 2 3 4 10 5 40 6 60 7 8 9 90 100 2 3 4 10 5 40 6 60 7 8 9 90 100 For hver dose observeres antal døde ud af 10 insekter 10 insekter for hver dosis sandsynlighedsparameteren afhaenger af dosis. Her kan vi omregne til procenter – dvs. Vi er vaek fra de binaere responsvaerdier

Fortolkning i forhold til transport %døde ~ % personer der tager bil dosis ~ antal km til arbejde Hvis vi lige skulle saette tingene ind I en transport sammenhaeng

Lineær model

Resultat med lineær model NB negativ predikteret frekvens for dosis 1 Frekvenser ikke normalfordelte Frekvenser har forskellig varians: Dvs observationer bør vægtes p(1-p) maximal for p=0.5 gaar noget bedre end for de binaere responser problem med linear fit for meget lave eller store doser da % mellem 0 og 100

Næste gang Logistisk regression for bernouilli eller binomial fordelte data.