Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.

Slides:



Advertisements
Lignende præsentationer
By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
Advertisements

Kvantitative metoder 2 Dummyvariabler 28. marts 2007 KM2: F16.
Dummyvariabler 13. oktober 2006
Statistik Lektion 18 Multipel Linear Regression
Stratificering, vægtning, statistiske test og elaborering af sammenhænge Plan & Miljø, forår 2009 Onsdag den 21. april.
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 5
Sammenligning af to grupper – kapitel 7
Variansanalyse Modelkontrol
Grundlæggende teoretisk statistik
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Variansanalyse Modelkontrol
Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester 2007 Lektion 5, tirsdag den 23. oktober Punkt- og intervalestimering.
By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 2
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Binær responsmodeller: Logit og probit 12. maj 2003
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Forudsigelse i markedsanalyse Burns & Bush ch. 19 Carsten Stig Poulsen Mandag d. 6. april 2009.
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Økonometri 1: F91 Økonometri 1 Prediktion. Dummyvariabler 9. oktober 2006.
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Grundlæggende teoretisk statistik
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Kvalitative variable 8. marts 2006.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: F141 Økonometri 1 Specifikation og dataproblemer 6. november 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.
KM2: F211 Kvantitative metoder 2 Specifikation og dataproblemer 30. april 2007.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Den multiple regressionsmodel 21. september 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

Sidste kursusgang o Tilpasset determinationskoefficient. o Estimering af værdier for den afhængige variabel kontrolleret for uafhængige variable. o Grafisk fremstilling af kontrolleret sammenhæng mellem afhængig og uafhængig variabel. o Dummy variable. o Kontrol af linearitetsforudsætninger. o Multikollinearitet. o Interaktionsled. o Additive indeks.

Denne kursusgang o Logistisk regression. o Opgaver. o Miniprojekt.

Logistisk (binær) regression

Logistisk regression Bruges til dikotome variable, hvor OLS ikke giver mening.

Logistisk regression Dikotome variable kan kun antage værdierne 0 og 1. Vi kan dog betragte værdier mellem 0 og 1 som et udtryk for, hvor sandsynligt det er, at den afhængige variabel antager værdien 1, ud fra værdien af den uafhængige variabel. Denne sammenhæng er dog sjældent lineær, og vores alm. lineære regression giver også værdier udenfor dette interval, der ikke kan tolkes på denne måde. Det giver f.eks. ikke mening, at der er 112% sandsynlighed for, at man har foretaget en erhvervsrejse.

Logistisk regression

o Odds: Angiver hvor stor sandsynligheden er for at et fænomen finder sted, i forhold til sandsynligheden for at det ikke finder sted. Odds = p/(1-p), hvor p=sandsynlighed. Fjerner den øvre grænse for variablen. o Logit (log-odds): Angiver logaritmen til odds. Logit = ln(odds) = a 1 x 1 +a 2 x 2 +…+a n x n +b Fjerner den nedre grænse for variablen.

Logistisk regression o Den logistiske regressionsmodel giver altså ikke sandsynlighederne for, om den afhængige variabel antager værdien 1. Den angiver logiten for disse sandsynligheder. o Vi skal derfor omregne regressionskoefficienterne til sandsynligheder, ved at bruge de inverse formler for logit og odds (SPSS kan også udregne disse direkte i regressionsanalysen). Logit: ln(p/(1-p)) = a 1 x 1 +a 2 x 2 +…+a n x n +b Odds: p/(1-p) = Exp(a 1 x 1 +a 2 x 2 +…+a n x n +b) Sandsynlighed: p = 1/(1+Exp(-(a 1 x 1 +a 2 x 2 +…+a n x n +b)))

Eksempel 1 o Vi vil se på sammenhængen mellem erhvervsrejser (erhvrejs) og årlig personlig indkomst (persind2), med erhvervsrejser som den afhængige variabel. o Vi laver en (binær) logistisk regression, og vælger at gemme de estimerede sandsynligheder (vælg save>probabilities i menuen til binær logistisk regression). o Vi plotter nu den nye variabel (PRE_1 el. Predicted Probability) mod indkomst (persind2) i et spredningsdiagram.

Eksempel 1 o Vi vil se på sammenhængen mellem erhvervsrejser (erhvrejs) og årlig personlig indkomst (persind2), med erhvervsrejser som den afhængige variabel. o Vi laver en (binær) logistisk regression, og vælger at gemme de estimerede sandsynligheder (vælg save>probabilities i menuen til binær logistisk regression). o Vi plotter nu den nye variabel (PRE_1 el. Predicted Probability) mod indkomst (persind2) i et spredningsdiagram.

Opsummering af kursets indhold o Statistik som redskab. o Centraltendens. o Spredning. o Omkodning. o Stikprøve vs. population. o Korrelation. o Konfidensinterval. o Signifikans. o Lineær regression. o Logistisk regression.

Opgave 1 o En undersøgelse blandt 879 tilfældigt udvalgte respondenter i Aalborg har vist, at 77% af borgerne ønsker en 3. Limfjordsforbindelse. Beregn et 95% konfidensinterval for dette resultat. o I en tidligere undersøgelse blandt 916 respondenter var det kun 72% af borgerne, der ønskede forbindelsen. Politikerne har derfor udtalt, at den nye undersøgelse er et udtryk for, at de voksende trængselsproblemer har øget efterspørgslen på en 3. Limfjordsforbindelse blandt byens borgere. Er denne tolkning korrekt?

Opgave 2 o Foretag en krydstabulering af respondenternes køn (koen) og deres bilafhængighed (bilafh). Er der nogen sammenhæng at spore? o Udvid tabellen med en kontrolvariabel for yngre og ældre respondenter (alder2). Ser respondenternes bilafhængighed ud til at være influeret af alder? Er der forskelle mellem alderens indflydelse for mænd og kvinder?

Opgave 3 o Udfør en multipel regressionsanalyse af følgende uafhængige variablers effekter på den samlede rejselængde med bil i løbet af ugens hverdage (bilhverd): o Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun). o Uddannelseslængde (skoleaar). o Personlig årsindtægt (persind2). o Hvorvidt respondenten er erhvervsaktiv (erhvakt). o Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs). o Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år respondenten er (alder3). o Respondenter med ekstreme rejselængder skal udelades fra analysen. o Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet af ugens hverdage? o Udfør en ny regression, hvor statistisk insignifikante variable sorteres fra med backward metoden. Hvad sorteres fra? o Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder. Hvilke kønsspecifikke forskelle kan vi se ud fra disse resultater?

Opgave 4 o Undersøg om der er problemer med multikollinearitet, fejlledenens gennemsnit, fordeling og evt. autokorrelation i regressionsanalysen fra opgave 3. Der skal ikke opdeles efter køn længere, men ekstreme rejselængder med bil skal stadig undlades fra analysen. o Find gennemsnittene for de uafhængige variable i regressionsanalyse. o Brug disse gennemsnit til at beregne de forventede rejselængder med bil ud fra boligens afstand til Københavns centrum (afsfun), hvor der kontrolleres for de andre uafhængige variable. o Brug et spredningsdiagram til at illustrere sammenhængen mellem forventet rejselængde og boligens afstand til centrum (målt i km)