By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

Slides:



Advertisements
Lignende præsentationer
By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
Advertisements

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Kvantitative metoder 2 Dummyvariabler 28. marts 2007 KM2: F16.
Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
Anvendt Statistik Lektion 4
Stratificering, vægtning, statistiske test og elaborering af sammenhænge Plan & Miljø, forår 2009 Onsdag den 21. april.
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Boligselskabernes Landsforening – Danmarkspanel - Januar A&B ANALYSEs Danmarkspanel - Boligselskabernes Landsforening - Januar 2010.
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 2
KM2: F221 Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007.
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Beboere med anden sproglig eller kulturel baggrund end dansk
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
SPSS: basale dataanalyser
Deskriptiv analyse af enkelt variable
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Variansanalyse Modelkontrol
Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester 2007 Lektion 5, tirsdag den 23. oktober Punkt- og intervalestimering.
Case.
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
Statistik Lektion 5 Log-lineære modeller.
STATISTIK Nat og Rebecca .
Anvendt Statistik Lektion 2
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Statistik for geografer
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Introduktion Deskriptiv statistik Sandsynslighedregning
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Heteroskedaticitet (Specifikation og dataproblemer) 2. november 2005.
Økonometri 1: F151 Økonometri 1 Specifikation og dataproblemer 10. november 2006.
Datamanipulation, rekodning etc. Christian Albrekt Larsen Centre for Comparative Welfare Studies (
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Kvalitative variable 8. marts 2006.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Lineær og logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Logistisk regression –Odds/Odds ratio Probit model Fortolkning udfra latent variabel.
Samarbejde mellem matematik og samfundsfag. Disposition Indledning Hvorfor skal vi bruge 2 i samfundsfag? Hvordan kan matematikken bruges? Eksempel. Oplæg.
Ellen Holm, Forskningscafé
Kapitel 5: Tabeller og sammenhænge
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Statistik niveau E og F Lars A. Clark.
Program – dag 2 (11. april 2011) Dag 2:
Anvendt Statistik Lektion 6
Niveau 3: Regressionsanalyse: Tværsnitsundersøgelser
Teoretiske kontinuerte fordelinger
Forenkling og systematisering af data
Præsentationens transcript:

By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen Statistik 1 – Lektion 1 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

Mål og indhold Mål: Efter kurset skal de studerende forstå de mest brugte statistiske metoder, og selv kunne benytte disse metoder på planlægningsrelaterede problemstillinger. Indhold: Fokus på metodernes egnethed til forskellige analyseopgaver og på forudsætninger, der skal være opfyldt. Øvelser i praktisk brug af de forskellige analyseteknikker ved hjælp af et EDB-program (SPSS). Ikke fokus på metodernes matematiske grundlag.

Kursets temaer Generelt om kvantitative analyser/anvendt statistik. Hvilke typer problemstillinger egner statiske analyser sig til? Datamatricer og intro til SPSS. Beregning af statistiske mål for middelværdi og spredning. Krydstabulering. Forskellige teknikker for beregning af korrelation. Lineær regression. Logistisk regression.

Denne kursusgang Hvad kan vi bruge statistik til? Kausalitet. Datamatricer. Måleniveau. Centraltendens og spredning. Omkodning. Krydstabulering. Intro (med øvelser) til statistikprogrammet SPSS, herunder kodning og omkodning, beregning af statistiske mål, konstruktion af krydstabeller, sammenligning af gennemsnitsværdier samt analyser på udvalgte dele af datamaterialet.

Hvornår anvendes statistik Bør ikke bruges til: Studier af plan- og beslutningsprocesser. Studier af landskabsmæssige konsekvenser af nye veje eller kraftledninger. Indgående psykologisk forståelse af menneskers handlemønstre. Kan bruges til: Undersøgelse af hvorvidt der er et flertal blandt en bys indbyggere for at implementere et givet anlægsprojekt. Sammenligning af forskellige befolkningsgruppers vægtning af egenskaber ved boligmiljøet. Studier af hvordan lokaliseringen af boliger i en by påvirker transportomfanget.

To hovedtyper Deskriptiv Analytisk (inferential) Hvordan ser vores data ud? Den ”nemme” del af statistik. Analytisk (inferential) Hvad kan vi sige ud fra de sammenhænge, som kan observeres i vores data? Den ”svære” del af statistik.

Kausalitet Statistisk angiver tendenser, ikke naturlove (specielt indenfor samfundsvidenskaberne). En af de mest almindelige fejl ved brugen af statistik er at konkludere en kausal sammenhæng hvor dette ikke er tilfældet. Eks: mængden af overtøj henover året er måske korreleret med mængden af blade på træerne, men det ville være uklogt at konkludere, at det ene fænomen forårsager det andet. Tænk jer om og brug jeres sunde fornuft, når i tolker statistisk data. Teori og praksis skal stemme overens. Statistik kan forklare hvordan tingene hænger sammen, men ikke hvorfor de hænger sådan sammen.

Datamatricen

Hvad er en variabel? En variabel er en egenskab, der kan variere mellem forskellige enheder i vores data (en enhed/case vil typisk repræsentere en person). Eksempler på variable: Køn Alder Holdning til økologi Indkomst Børn Etnicitet Afstand til arbejde

Variablernes måleniveau Forskellige variable kan have forskellige måleniveauer. Dette betyder, at forskellige deskriptive mål og analytiske teknikker egner sig til forskellige data. Man opdeler traditionelt i fire forskellige måleniveauer: Nominal: kategorier (eks: stilling) Ordinal: rangordnede kategorier (eks: holdning) Interval: rangordnet skala (eks: temperatur mål i celsius) Ratio: rangordnet skala med absolut nulpunkt (eks: højde) Nominal og ordinal er typisk diskret og kvalitativ. Interval og ratio er typisk kontinuert og kvantitativ. SPSS betragter interval og ratio som ét måleniveau.

Centraltendens og spredning Modus (mode) Median Gennemsnit (mean) Spredning Variationsbredde Kvartilafvigelse Standardafvigelse (std. deviation)

Modus Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6 Modus vil her være 4. Modus (typetallet) er blot den hyppigst forekommende værdi i en fordeling. Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6 Modus vil her være 4.

Median Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6 Medianen vil her være 3,5. Medianen er den midterste værdi i en ordnet liste af observationer. Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6 Medianen vil her være 3,5.

Gennemsnit Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6 Det (aritmetiske) gennemsnit er det mest benyttede mål for centraltendens. Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6 Gennemsnittet vil her være 3,25.

En tommelfingerregel Som alle regler kan denne bøjes lidt efter behov, men pas på med det og tænk over om det giver mening før i kaster jer ud i det. Lemfældig omgang med statistiske mål fører ofte til grov manipulation af resultater, om det så er intentionelt eller ej.

Variationsbredde og kvartilafstand Variationsbredden: 5 - 1 = 4 Kvartilafstand: 5 - 2 = 3

Standardafvigelse Standardafvigelsen er det mest benyttede mål for en fordelings spredning. 95% af observationerne ligger mellem ± 1,96 std.afv. fra gennemsnittet/middelværdien. Standardafvigelsen må ikke forveksles med standard fejl (S.E. mean). Matematisk er de beslægtede, men de udtaler sig om helt forskellige egenskaber ved en fordeling.

Omkodning Omkodning benyttes til at omskrive en variabel til en anden variabel, muligvis med et nyt måleniveau. Det kan f.eks. bruges til at reducere et stort antal kategorier til et mere overskueligt sæt eller til at inddele intervalvariable i kategorier. Eks: man skelner ofte mellem børn, unge, voksne og ældre i stedet for at bruge deres specifikke alder som variabel.

Krydstabulering Bruges til at danne sig et overblik over evt. sammenhæng mellem to variable. Hurtigt at udføre og nemt at forstå. Kan bruges på alle måleniveauer, da alle variable betragtes som nominale.

Eksempel 1 Datafilen ”Hovedstadsområdet med udvalgte variabler 2” benyttes. SPSS bruges til at finde minimum, maksimum, median, gennemsnit og standardafvigelse for variablerne alder og bilhverd. Hvad kan vi se ud fra disse tal?

Opgave 1 Datafilen ”Hovedstadsområdet …” benyttes. Undersøg om der er fejlindtastninger for følgende variable: koen, alder, bilkort, bilant1. Korriger evt. fejl i data.

Eksempel 2 Datafilen ”Hovedstadsområdet …” benyttes. SPSS bruges til at undersøge en evt. sammenhæng mellem respondenternes køn (koen) og hvorvidt de har kørekort (bilkkort) vha. krydstabulering. Hvad kan vi se ud fra disse tal?

Eksempel 3 Datafilen ”Hovedstadsområdet …” benyttes. Variablen bilafh udtrykker hvor afhængige respondenterne føler sig af at have en bil til rådighed, for at få deres hverdagsaktiviteter til at hænge sammen. Den har tre værdier: 1 (i høj grad), 2 (i nogen grad) og 3 (slet ikke). Omkod denne variabel til en ny variabel, bilafh2, der ikke skelner mellem folk med lav bilafhængighed og slet ingen bilafhænghed. Funktionen transform>recode benyttes.

Opgave 2 Datafilen ”Hovedstadsområdet …” benyttes. Brug transform>recode til at omkode respondenternes alder til en ny variabel (alder2) med to værdier: høj alder (1) og lav alder (0). Lad skellet mellem høj og lav alder gå ved medianværdien, sådan at respondenter med alder lig med medianværdien kommer i den højeste alderskategori. Lav en tilsvarende omkodning af respondenternes rejselængde med bil på hverdage (bilhverd) til en ny variabel (bilhver2), hvor medianværdien og højere værdier kodes 1, og værdier under medianen kodes 0. Udfør en enkel krydstabulering mellem alder2 og bilhver2. Er der nogen sammenhæng mellem alder og bilkørsel?

Eksempel 4 Datafilen ”Hovedstadsområdet …” benyttes. Omkod indtægtsvariablen persindt til en ny variabel, persindt2, hvor indtægten skal angives i kroneværdier (i tusinder). Brug hver gruppes gennemsnitlige indkomst (værdierne findes i spørgeskemaet). Hvordan varierer det gennemsnitlige indtægtsniveau (persindt2) blandt erhvervsaktive personer (jf. variablen erhvakt) mellem: yngre og ældre (alder2) mænd og kvinder (koen)

Opgave 3 Datafilen ”Hovedstadsområdet …” benyttes. Gennemsnitlig personlig indtægt (persindt2) blandt erhvervsaktive (erhvakt) respondenter i alderen 20-66 år (alder) skal beregnes for hvert af de 29 undersøgte boligområder (omraad). Ser der ud til at være en sammenhæng mellem boligområder og indkomst? Hvis ja, hvordan tolker i så denne sammenhæng rent intuitivt?

Eksempel 5 Datafilen ”Hovedstadsområdet …” benyttes. Der skal laves en grafisk fremstilling af, hvordan andelen med kørekort for bil (bilkkort) varierer mellem respondenter tilhørende den høje og den lave aldersgruppe (alder2). Der skal alene ses på respondenter på 18 år og derover. Derefter skal der laves en grafisk fremstilling af, hvordan andelen med kørekort til bil (bilkkort) varierer mellem kvindelige og mandlige respondenter (koen) inden for hver af de to aldersgrupper. Igen ses der alene på respondenter på 18 år og derover.

Opgave 4 Datafilen ”Hovedstadsomraadet …” benyttes. Igen kun respondenter på 18+ år. Lav en grafisk fremstilling af, hvordan andelen med lang rejselængde med bil på hverdage (bilhverd2) varierer mellem respondenter bosat i forskellige afstandsbælter fra Københavns centrum (afskat4). Lav dernæst en grafisk fremstilling af, hvordan andelen med lang rejselængde med bil på hverdage (bilhverd2) varierer mellem erhvervsaktive og ikke-erhvervsaktive respondenter (erhvakt) indenfor hvert af disse afstandsbælter.

Opgave 5 Datafilen ”NAMIT” benyttes. Er kvinder mere villige end mænd til at prioritere økonomisk vækst foran miljøhensyn? Benyt variablerne v47 (køn) og v35 (vækst versus miljø).