By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

Slides:



Advertisements
Lignende præsentationer
By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
Advertisements

©Jenny Bohr – Til underviserne Her er valgt at vise filmen ”et liv i kaos”. Hvis kursisterne er unge, kan man vælge en anden film eks. ”det.
Kvantitative metoder 2 Dummyvariabler 28. marts 2007 KM2: F16.
Dummyvariabler 13. oktober 2006
Statistik Lektion 18 Multipel Linear Regression
Statistik Lektion 17 Multipel Lineær Regression
Sammenligning af to grupper – kapitel 7
Koordinatsystemet Y-aksen 2. aksen X-aksen 1. aksen.
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 6
SPSS: basale dataanalyser
Grundlæggende teoretisk statistik
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Variansanalyse Modelkontrol
Case.
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Program Korrelation Gamma Pearsons r Regression Kausalitet 1.
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.
Anvendt Statistik Lektion 7
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Forudsigelse i markedsanalyse Burns & Bush ch. 19 Carsten Stig Poulsen Mandag d. 6. april 2009.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 16 Multipel Lineær Regression
Økonometri 1: F81 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006.
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Økonometri 1: F91 Økonometri 1 Prediktion. Dummyvariabler 9. oktober 2006.
KM2: F151 Kvantitative metoder 2 Funktionel form. Goodness-of-fit. Prediktioner og residualer 26. marts 2007.
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Kvalitative variable 8. marts 2006.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 FunktioneI form i den lineære regressionsmodel 11. oktober 2005.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Ellen Holm, Forskningscafé
Anvendt Statistik Lektion 8
Program – dag 2 (11. april 2011) Dag 2:
Anvendt Statistik Lektion 6
Niveau 3: Regressionsanalyse: Tværsnitsundersøgelser
Præsentationens transcript:

By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen Statistik 1 – Lektion 4 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

Sidste kursusgang Mindste kvadraters metode. Spredningsdiagrammer. Lineær regression. Outliers. Regressionskoefficienter. Signifikans. Transformation for at opnå linearitet.

Denne kursusgang Tilpasset determinationskoefficient. Estimering af værdier for den afhængige variabel kontrolleret for uafhængige variable. Grafisk fremstilling af kontrolleret sammenhæng mellem afhængig og uafhængig variabel. Dummy variable. Kontrol af linearitetsforudsætninger. Multikollinearitet. Interaktionsled. Additive indeks.

Tilpasset determinationskoefficient R2 vil altid vokse når vi smider flere variable ind i modellen. Ved n-1 uafhængige variable har vi eksempelvis altid R2 = 1, men dette resultat er fuldstændig meningsløst. Tilpasset R2 tager højde for antallet af uafhængige variable, og er altid mindre end R2. Brug derfor altid tilpasset R2 ved modeller med mange uafhængige variable, og når modeller med forskelligt antal uafhængige variable skal sammenlignes. Man kan generelt bare bruge tilpasset R2 for at undgå at holde styr på begge værdier. R2adj = 1 - ( (1-R2)(N-1 / N - k - 1) )

Eksempel 1 Udelad respondenter med ekstrem rejselængde på hverdage (select cases, if condition…, hverdtot<897). Udfør en multipel regressionsanalyse af følgende uafhængige variablers effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot): Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun). Personlig årsindtægt (persind2). Hvorvidt respondenten er erhvervsaktiv (erhvakt). Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs). Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år respondenten er (alder3) . Vi kan se at R2adj er mindre end R2, men at forskellen ikke er stor. Det skyldes at antallet af uafhængige variable (k=5) i forhold til antallet af observationer (n=1635) ikke er særlig stort. R2adj = 1 - ( (1-R2)(N-1 / N - k - 1) )

Estimering af værdier (prædiktion) Som regel et af de primære formål med at foretage statistisk analyse. Vi ønsker måske at kunne udtale os om transportforbruget på baggrund af afstanden til centrum. Vi har en ide om indflydelsen ud fra regressionsanalysen, men vi kan ikke umiddelbart forudsige noget ud fra bare at se på disse tabelværdier. Derfor beregner vi en ny variabel ud fra den model vi har opstillet for transportforbruget, hvor vi bruger regressionskoefficienterne fra analysen sammen med gennemsnittet for de uafhængige variable, med undtagelse af den variabel som vi ønsker at forudsige fra (afsfun) . Det svarer til at vi ser på sammenhængen mellem transportforbrug (hverdtot) og centrumsafstand (centafs) i vores model, hvis alle andre variable fastholdes.

Eksempel 2 Vi bruger regressionskoefficienterne fra forrige opgave til at udregne en forventet værdi for transportforbruget, der afhænger af boligens afstand til Københavns centrum. Model: y=a1x1+a2x2+…+anxn+b y: den forventede værdi for transportomfanget (den nye variabel) xi: gennemsnittet for variabel i ai: regressionskoefficienten for variabel i b: regressionskonstanten Først finder vi gennemsnittet for persind2, alder3, erhvakt og erhvrejs (analyze>descriptive statistics>descriptives). Så beregner vi den nye variabel hverdforv (brug tranform>compute). Vi bruger formlen ovenfor, og indsætter værdierne fra regressionsanalysen og de respektive gennemsnit. NB: For variablen afsfun bruger vi ikke gennemsnittet, men indsætter selve variablen. Ellers ville vi bare få en ret linje, mens vi ved at afstanden til centrum ikke har en lineær sammenhæng med transportforbruget, og det er denne sammenhæng vi gerne vil kunne udtale os om.

Eksempel 2 (fortsat)

Eksempel 2 (fortsat) For at lave en grafisk fremstilling af sammenhængen mellem vores nye variabel for forventet transportforbrug (hverdforv) anvender vi bare et spredningsdiagram (graphs>legecy dialogs>scatter). Vi kan bruge centafs på horisontalaksen selvom vi har brugt den transformerede variabel afsfun i regressionsanalysen, da afsfun blot er en funktion på centafs. Dermed får vi plottet sammenhængen mellem forventet transportmængde (hverdforv) og afstand fra centrum mål i kilometer (centafs), i stedet for en eller anden obskur måleenhed, som afsfun er opgivet i. Vi har nu en graf, der fint illustrerer den forventede sammenhæng mellem de to variable, beregnet ud fra vores observationer og model. Den passer fint overens med de analyser vi har lavet i tidligere kursusgange, hvor vi bl.a. fik en indikation af at effekten af afstand til Københavns centrum ikke er særlig stor, når folk bor mere end 30 kilometer væk fra København

Eksempel 2 (fortsat)

Dummy variable

Dummy variable Dummy variable bruges i tilfælde, hvor man har uafhængige variable på nominal eller ordinal måleniveau. Det er blot en række dikotome (binære) variable, der bruges i stedet for den oprindelige variabel, da dikotome variable kan anvendes til lineær regression. Dermed omgår man problemet med, at nominale og ordinale variable ikke har noget skalaforhold. Har vi f.eks. en variabel, der angiver hvilket amt folk bor i med et tal (0-4), så giver det ikke mening at regne med, at amt 2 har dobbelt så stor indflydelse på den afhængige variabel som amt 1, og at amt 0 slet ikke har nogen indflydelse. Tallene angiver jo kun kategorier, det er ikke en skala. Hvis vi i stedet laver en variabel for hvert amt undtagen ét (forklaring følger), så kan vi f.eks. lade en ny variabel kaldet amt4 have værdien 1 for alle folk i amt 4, mens folk i amt 0, 1, 2 og 3 har værdien 0. Ligeledes for variablene amt1, amt2 og amt3. Vi behøver ikke en amt0 variabel, da vi ved at folk i amt 0 bare er dem, der har værdien nul på alle de andre dummy variable. Vi skal altså bruge n-1 dummy variable til en variabel med n kategorier. Fordelen ved dette frem for kategori variablen er, at vi nu får en regressionskoefficient for alle amterne (undtagen amt 0), så vi kan måle forskelle i deres indflydelse på den afhængige variabel. Amt 0s indflydelse er givet i resten af modellen.

Dummy variable

Opgave 1 Variablen boligtyp har oprindeligt disse værdier: 1: Parcelhus 2: Række-, kæde- eller gårdhus 3: Tofamiliehus 4: Etagehus 5: Højhus 6: Anden boligtype Vi laver en ny variabel boligtyp2 ud fra variablen boligtyp, hvor værdien 6 (anden boligtype) skal omkodes til ”missing value”. De respondenter, der ikke bor i nogen af de øvrige boligtyper vil dermed automatisk blive udelukket fra analysen. Denne nye variabel (boligtyp2) skal derefter omkodes til de tre dummy variabler bolig_taet, bolig_etage og bolig_hoej, hvor bolig_taet skal inkludere både dem, der bor i række-, kæde- eller gårdhus og dem, der bor i tofamiliehus (dvs. både værdi 2 og 3 fra boligtyp2).

Opgave 1 (fortsat)

Opgave 2 Vi vil nu bruge de nye dummy variable til regressionsanalyse. Vi vil undersøge hvordan de forskellige boligtyper påvirker tætheden af indbyggere og arbejdspladser indenfor det boligområde, hvor boligen ligger (omrtaet). Lav en regressionsanalyse, som viser dette. Hvor høj er befolkningstætheden gennemsnitligt i de boligområder, hvor respondenterne bosat i henholdsvis enfamiliehuse, tæt-lav bebyggelse, etagehuse og højhuse hører hjemme?

Kontrol af linearitetsforudsætninger Spredningsdiagrammer. Partiel korrelation. Casewise diagnostics. Durbin-Watson (bør ligge mellem 1,5-2,5). Residualplots.

Multikollinearitet Multikollinearitet i regressionsmodellen opstår, hvis to eller flere uafhængige variable har høj indbyrdes korrelation. Dette svækker ikke som sådan modellens prædiktionsevne ellers reliabilitet, men det gør det svært at estimere individuelle variables indflydelse. Tolerance under 0,2 og/el. VIF over 5 (variance inflation factor) er en stærk indikation af multikollinearitet.

Eksempel 3 Vi laver en regressionsanalyse med biltransport på hverdage som den afhænge variabel. Fravælg først respondenter med ekstreme rejselænger (dvs. bilhverd<820). De uafhængige variable skal være: Tæthed i lokalområdet (loktaet). Uddannelseslængde (skoleaar). Personlig årsindkomst (persindt2). Erhvervsaktivitet (erhvakt). Erhvervsrejse (erhvrejs). Alder i forhold til 50 år (alder3). Bilejerskab (bilejer). Undersøg Durbin-Watson koefficienten, gennemsnittet for residualerne og evt. multikollinearitet.

Opgave 3 Udfør nu samme regressionsanalyse som i eksempel 3, men tilføj følgende uafhængige variable: Antal indbyggere per hektar (inbhlok). Antal arbejdsplads i lokalområdet (arbhalok). Undersøg også her Durbin-Watson koefficienten, gennemsnittet for residualerne og evt. multikollinearitet. Virker regressionskoefficienterne troværdige? Hvis ja, hvorfor virker de troværdige? Hvis nej, giver nogle af vores tests en ide om hvor problemet ligger?

Interaktionsled Interaktionsled kan bruges når styrken af sammenhængen mellem to variable er afhængig af en tredje variabel. Det kan betragtes lidt som en situation, hvor den samlede effekt af to variable er større end summen af deres individuelle effekt. Et eksempel på dette kunne være tæthed i lokalområdet og bilejerskab, og deres indflydelse på samlet transport. Vi forventer at begge variable har en indflydelse på transportforbruget, men vi forventer måske også at bilejerskab har meget mindre indflydelse i tæt bebyggede områder, hvor man har mange andre transportmuligheder, uanset om man har en bil eller ej. Man beregner blot den nye variabel med transform>compute, og indsætter derefter den nye variabel som uafhængig variabel. Der kan opstå høj kollinearitet ved brugen af interaktionsled!

Opgave 4 Lav en ny variabel lokbil, der er en interaktionsvariabel mellem tætheden i lokalområdet (loktaet) og bilejerskabet (bilejer). Lav samme regressionsanalyse som i opgave 3, men fjern de to uafhængige variable, der skabte problemer (inbhlok og arbhlok), og tilføj den nye variabel lokbil samt variablen. Vi kan se at forklaringsgraden stiger en smule, men der bliver problemer med kollinearitet.

Opgave 5 Udfør samme regressionsanalyse som i eksempel 4, men vælg denne gang backward i stedet for enter som modelsøgnings metode (under method). Hvilke ændringer sker der i modellen? Hvorfor?

Additive indeks Additive indeks er blot en sammenlægning af flere forskellige nominelle eller ordinale variables værdier. Det kan f.eks. være at man har haft mange forskellige spørgsmål omkring folks holdning til specifikke spørgsmål om deres holdning til forskellige udsagn, der alle er samlet under et hovedemne. Man kan så efterfølgende lave et additivt indeks for respondenternes samlede holdning til dette emne. Man skal være opmærksom på, at spørgsmålene kan være stillet på en måde, så en høj score i et spørgsmål kan være udtryk for en positiv holdning overfor emnet, mens en høj score i det næste spørgsmål er udtryk for en negativ holdning. Det kan derfor være nødvendigt at omkode variablene eller tage højde i formlen for den nye variabel. Et eksempel kunne være holdning til reduktion CO2 udledning, hvor meget enig = 1 og meget uenig = 10: Udsagn 1: Jeg arbejder aktivt for at reducere mit CO2 udslip. Udsagn 2: Jeg rejser med tog i stedet for fly når det er muligt. Udsagn 3: Jeg foretrækker at køre i min egen bil. Det burde være klart, at hvis man er meget enig i de to første udsagn, og meget uenig i det tredje, så er man positivt indstillet overfor reduktion af CO2 udledning. Men man kan ikke bare lægge alle tallene sammen, da enig alle steder er kodet som værdien 1, uanset om udsagnet er for eller imod CO2 udledning.

Opgave 6 Nedenfor ses et uddrag af spørgeskemaet til undersøgelsen i Hovedstadsområdet. Svarene er kodet med værdien 1 for ”helt enig” op til værdien 5 for ”helt uenig”. Lav et additivt indeks kaldet transphold for respondenters holdning til kollektiv transport ud fra deres svar på de to nedenstående udsagn (svarene ligger hhv. i variablene transp4 og transp6). Indekset skal være en sum, hvor en positiv værdi angiver en positiv holdning til kollektiv transport, mens en negativ værdi angiver en negativ holdning til kollektiv transport. Foretag til slut en lineær regressionsanalyse med det nye indeks som afhængig variabel, og koen, skoleaar og alder2 som uafhængige variable. Tolk resultatet.

Opgave 7 (repetition) En undersøgelse blandt 879 tilfældigt udvalgte respondenter i Aalborg har vist, at 77% af borgerne ønsker en 3. Limfjordsforbindelse. Beregn et 95% konfidensinterval for dette resultat. I en tidligere undersøgelse blandt 916 respondenter var det kun 72% af borgerne, der ønskede forbindelsen. Politikerne har derfor udtalt, at den nye undersøgelse er et udtryk for, at de voksende trængselsproblemer har øget efterspørgslen på en 3. Limfjordsforbindelse blandt byens borgere. Er denne tolkning korrekt?

Opgave 8 (repetition) Udfør en multipel regressionsanalyse af følgende uafhængige variablers effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot): Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun2). Uddannelseslængde (skoleaar). Personlig årsindtægt (persind2). Hvorvidt respondenten er erhvervsaktiv (erhvakt). Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs). Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år respondenten er (alder3) . Respondenter med ekstreme rejselængder skal udelades fra analysen. Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet af ugens hverdage? Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder. Hvilke kønsspecifikke forskelle kan vi se ud fra resultaterne?

Næste gang Logistisk regression. Bruges når den afhængige variabel er dikotom. Kort gennemgang da det ikke er centralt for pensum. Forberedelse til eksamen. Vi gennemgår nogle typeopgaver fra kurset. Hvis i har spørgsmål enten til teori, opgaver eller eksamensformen er der rigeligt med tid til dem. Miniprojekt. I får opgaverne til miniprojektet udleveret til frokost. Der er ingen der forhindrer jer i at arbejde sammen om opgaverne, men husk nu at eksaminationen er individuel.