Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.

Slides:



Advertisements
Lignende præsentationer
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Advertisements

Dummyvariabler 13. oktober 2006
Statistik Lektion 18 Multipel Linear Regression
Statistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper – kapitel 7
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 6
Logistisk regression Den lineære sandsynlighedsmodel
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Variansanalyse Modelkontrol
Statistik og sandsynlighedsregning
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Statistik II Lektion 4 Generelle Lineære Modeller
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri – lektion 8 Multipel Lineær Regression
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Kvalitative variable 8. marts 2006.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Kvantitative metoder 2: F31 Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
KM2: F201 Kvantitative metoder 2 Heteroskedasticitet 18. april 2007.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Lineær og logistisk regression - fortsat
Logistisk regression - fortsat
Log-lineære modeller ● Analyse af symmetriske sammenhænge mellem kategoriske variable. ● Ordinal information ignoreres.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Logistisk regression –Odds/Odds ratio Probit model Fortolkning udfra latent variabel.
Ellen Holm, Forskningscafé
Anvendt Statistik Lektion 8
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Program – dag 2 (11. april 2011) Dag 2:
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS miniprojekt Software: ● SPSS Eksamen: ● Individuel – bestået/ikke bestået

Typer af variable ● Nominelle: Navngivne kategorier uden ordning ● Fx farve (rød, grøn, gul,...) ● Ordinale: Navnegivne kategorier med ordning ● Fx bilklasse (mini, kompakt, mellem, stor, limo) ● Kvantitative: Målbare størrelser ● Fx temperatur, dæktryk, længde, antal sæder ● Binære: To svarmuligheder ● Kan betragtes som specialtilfælde af alle de ovenstående variabeltyper. Kontinuert vs Diskret Kategoriske variable (nominelle el ordinale): diskrete. Kvantitative: Både kontinuerte (tryk) og diskrete (antal). Binære: Kan fortolkes som både kont. og diskrete.

Statistisk analyse Finde sammenhæng mellem variable, fx. Temperatur og varmeforbrug. Lineær regression undersøger om en (kont.) kvantitativ (varmeforbrug) variabel kan forklares af andre kvantitative variable (temperatur). Hvis den afhængige variabel er binær og den forklarende erkvantitativ - hva' så? Eksempel: Hvordan reagere et insekt (Binær afhængig: død/levende) på en given dosis insektgift (kvantitativ forklarende variabel)?

Lineær regression Model: En kvantitativ variabel skal forklares -hvordan er det nu man gør? Dvs ε er normalfordelt med middelværdi 0 og varians σ 2.

Least-squares linie Output og graf fra SPSS SPSS funktion: Analyze→Regression→Linear SPSS funktion: Graphs→Scatter/Dot Finder estimater af hhv a og b givet ved

Residualer Modelkontrol: Residualerne bør være normalfordelte - er de? Residualer : SPSS funktion: Under Regression->LInear vælg Save... Studentized residuals

Multipel regression Model: Ekstra variabel: Isolation (x 2 ) med værdierne 0 (før) og 1(efter). Obs! Her fortolkes den binære variabel som kvantitativ.

Fortolknin g Model: Hvis isolation=før, dvs. x 2 =0: Hvis isolation=efter, dvs. x 2 =1:

adbcadbc Model parametre

Residualer

Kvantitativ afhængig og kategorisk forklarende Fx. er Y afstand til jobbet i km ogX er løngruppe med kategorier Lav, Mid og Høj. Model: y = a + b Lav x Lav + b Mid x Mid + b Høj x Høj + ε x Lav = 1 hvis x tilhører kategori Lav, ellers er x Lav =0. Tilsvarende for x Mid og x Høj. Dvs. præcis èn af x Lav, x Mid og x Høj er lig 1. Hvis x=Mid y = a + b Lav 0 + b Mid 1 + b Høj 0 + ε= a + b Mid + ε (opfundet eksempel)

De tre ligninger y = a + b Høj + ε y = a + b Mid + ε y = a + b Lav + ε Bemærk: Overparametriseret! Løsning: Lad 'Høj' være reference kategori og sæt b Høj =0. y = a + ε y = a + b Mid + ε y = a + b Lav + ε Fortolkning: b Lav er forskellen i km mellem referencen kategorien og kategorien Lav. SPSS: Analyze -> General Linear Models -> Univariate

Kategorisk afhængig og kvalitativ forklarende Dosis (d) insekt gift. Respons (r): 0=Levende 1=Død Lineær regression dur ikke! Lad os prøve med lineær regression...

To kategoriske variable Køn og valg af transportmiddel for 496 personer Krydstabel: Afhængige variabel: Antal personer i hver af de fire kategorier. Bemærk at 'Køn' og 'Transport' indgår på lige fod!

Bernouilli/Binomial fordelingen Insektgift eksemplet igen: Lad X=0 angive doed og X=1 overlevelse. Hvis sandsynligheden for at doe er p, saa skriver vi P(X=0)=p og P(X=1)=(1-p). Generelt: En variabel X som kun kan antage vaerdierne 0 og 1, og hvor P(X=0)=p og P(X=1)=(1-p) er Bernouilli fordelt med sandsynligheds parameter p. Lad X=X 1 + X X n sum af uafhængige Bernouilli fordelte variable. Så er X binomal fordelt b(n,p). Antag n insekter udsættes for samme dosis. Hvert insekt har samme sansynlighed p for at overleve. Lad X i være status for det i'te insekt. Da er X antal overlevende insekter.

Sammenligning Lineær regression: Middelværdien er en funktion forklarende variable

Insektgift: Forskellige doser For hver dose observeres antal døde blandt ti insekter. En binomal fordelte variable for hver dose – med hver sit p.

Lineær model p i : sandsynligheden for at dø af dosis i. y i : % døde ud af 10 Lineær model: p i = a + b dosis i y i = p i + ε i ε i er normal fordelt.

Resultat med lineær model ● Problemer: ● For dosis 1 forudsiger (predikterer) modellen et negativt anatal døde. ● Frekvenser ikke normalfordelte ● Ikke samme varians: var(y i ) = p i (1-p i )/10 Løsning: Logistisk regression.... det ser vi på næste gang!