By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

Slides:



Advertisements
Lignende præsentationer
Statistik Lektion 18 Multipel Linear Regression
Advertisements

Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 6
KM2: F221 Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007.
Sammenligning af to grupper – kapitel 7
Anvendt Statistik Lektion 6
Grundlæggende teoretisk statistik
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Økonometri 1: Instrumentvariabelestimation1 Økonometri 1 Instrumentvariabelestimation 26. november 2004.
Case.
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Økonometri 1 Mere om dataproblemer Gentagne tværsnit og panel data I.
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II 5. Lektion Log-lineære modeller.
Anvendt Statistik Lektion 7
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Forudsigelse i markedsanalyse Burns & Bush ch. 19 Carsten Stig Poulsen Mandag d. 6. april 2009.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Økonometri 1: F81 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006.
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
KM2: F191 Kvantitative metoder 2 Heteroskedasticitet 16. april 2007.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 5. oktober 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: F151 Økonometri 1 Specifikation og dataproblemer 10. november 2006.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Ellen Holm, Forskningscafé
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Niveau 3: Regressionsanalyse: Tværsnitsundersøgelser
Præsentationens transcript:

By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen Statistik 1 – Lektion 3 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

Sidste kursusgang Stikprøver. Vægtning. Konfidensintervaller. Spredningsdiagrammer. Korrelation. Signifikans. Ekstreme værdier.

Denne kursusgang Mindste kvadraters metode. Spredningsdiagrammer. Lineær regression. Outliers. Regressionskoefficienter. Signifikans. Transformation for at opnå linearitet.

Mindste kvadraters metode Metode til at finde den linje, hvor forskellen mellem forventede og observerede værdier er så lille som mulig (dvs. hvor fejlleddet er mindst). Anvender residualernes (fejlleddenes) kvadrater (deraf navnet), bl.a. for at undgå, at fejlled med forskellige fortegn udligner hinanden.

Mindste kvadraters metode Forventet værdi (model): ŷi=axi+b Observation: yi=axi+b+ei Vi ønsker altså at minimere summen af de kvadrede fejl.

Fejl vs. afvigelse

Lineær regressionslinie

Forudsætninger til lineær regression Sammenhængen er lineær. Homoskedasticitet. Fejlled skal være indbyrdes ukorrolerede. Uafhængig variabel ukorroleret med fejlleddet. Fejlleddet skal være normalfordelt. Lineær regression er dog ret robust overfor variable, hvor ikke alle forudsætninger er overholdt.

Determinationskoefficient Determinationskoefficienten (R2) angiver graden af forklaring som modellen giver for sammenhængen mellem den afhængige og uafhængige variabel. Ved bivariat lineær regression vil den være det samme som den kvadrerede korrelationskoefficient (angivet ved Pearsons r), så der gælder at R2=r2. Determinationskoefficienten kan derfor kun antage værdier mellem 0 og 1, og kan betragtes som en procentvis angivelse af modellens forklaringsevne.

Tolkning af regressionsresultater Interessante variable: R: multipel korrelationskoefficient. R2: Determinationskoefficient (inkl. tilpasset). B: Regressionskoefficient (inkl. Beta). Sig: Signifikans.

Tolkning af regressionsresultater

Konstantleddet Undgå generelt at ekstrapolere til x-værdier, der ligger udenfor datasættet.

Hvornår bruges hvad

Hvornår bruges hvad

Eksempel 1 Datafilen ”Hovedstadsomraadet …” benyttes. Vi vil først lave et spredningsdiagram, der viser hvordan den årlige personlige indtægt (persind2) varierer i forhold til hvor mange uddannelsesår respondenterne har gennemført (skoleaar). Vi vil derefter ved hjælp af SPSS indtegne regressionslinien for denne sammenhæng i spredningsdiagrammet, og bearbejde diagrammets tekstfelter og layout, så det bagefter kan præsenteres i en rapport. Til sidst vil vi lave en lineær regressionsanalyse af sammenhængen mellem uddannelsens længde og indtægten.

Outliers

Opgave 1 Datafilen ”Hovedstadsomraadet …” benyttes. Respondenter med ekstreme rejselængder med bil skal udelades fra analysen. Brug f. eks. descriptive/explore og undermenuen statistics/percentiles til at identificere respondenter med rejselængder, som er mere end tre kvartildifferencer over den øverste kvartil, og benyt select cases til at fravælge disse respondenter. Lav et spredningsdiagram, der viser hvordan respondenternes rejselængde med bil i løbet af undersøgelsesugens fem hverdage, målt i km (bilhverd) varierer med boligens afstand fra Københavns centrum, målt i km (centafs). Brug SPSS til at indtegne regressionslinien for denne sammenhæng i spredningsdiagrammet, og bearbejd diagrammets tekstfelter og layout, så det bagefter kan præsenteres i en rapport. Lav en lineær regressionsanalyse af denne sammenhæng. Hvor meget stiger den gennemsnitlige rejselængde med bil, når boligens afstand fra Københavns centrum forøges med 1 km? Hvor godt vil i sige, at den retlinjede regressionslinie passer til det observerede mønster af rejselængder og boliglokaliseringer?

Lavt signifikans- eller forklaringsniveau Mulige forklaringer på lav signifikans el. R2: Ingen sammenhæng mellem variable Komplekse fænomener med mange variable For få observationer For lille variation Specifikationsfejl i modellen. Type 2 fejl: falsk negativ (excessive skepticism). Indenfor psykologi og samfundsvidenskab (planlægning) er forholdsvis lave R2 værdier ikke unormale, da enkelte faktorer normalt vil have en begrænset forklaringseffekt på folks handlemønstre.

Eksempel 2 Alder og indtægt sammenlignes. Ser ikke ud til at være lineær. Betyder resultatet, at der ikke er nogen sammenhæng mellem variablene?

Eksempel 2 (fortsat) En kurve passer bedre. Nedenfor er analysen lavet med en ny variabel, der afhænger af hvor tæt respondentens alder er på 50 år: alder3 = (2500-(50-alder)2).

Opgave 2 Datafilen ”Hovedstadsomraadet …” benyttes. Vi så i den forrige opgave, at sammenhængen mellem rejselængder og boliglokaliseringer snarere synes at være kurveformet end lineær. Så længe boligens afstand fra Københavns centrum er forholdsvis moderat, stiger rejselængden med bil ret markant, jo længere væk fra centrum man bor. Men blandt dem, der bor langt væk fra centrum, ser en yderligere forøgelse af centrumsafstanden ikke ud til at hænge sammen med forøget rejselængde med bil – snarere tvært imod. Lav separate regressionsanalyser for de respondenter, der bor indtil 30 km fra Københavns centrum, og dem, der bor mere perifert. Respondenter med ekstreme rejselængder skal fortsat holdes uden for analysen. Hvad fortæller disse resultater?

Transformation for at opnå linearitet Transformation ved logaritmiske funktioner tillægger generelt værdier i en ende af skalaen mere vægt end i den anden ende. Dette kunne evt. være en mulig justering i forrige opgave, da indflydelsen ikke synes at være så stor for respondenter, der bor langt væk fra centrum.

Eksempel 3 For at tage højde for, at sammenhængen mellem boligens centrumsafstand og rejselængden med bil ikke er lineær, vil vi transformere rejselængderne ved hjælp af en ikke-lineær funktion. Vi prøver først at lave en ny variabel med 10-tals logaritmen af rejselængden med bil på hverdage. Benyt transform/compute variable til dette. Vi kalder den nye variabel lgbilrejs. Vi laver nu et nyt spredningsdiagram med lgbilrejs langs den vertikale akse og centafs langs den horisontale akse, og bruger SPSS til at indtegne regressionslinien. Respondenter med ekstreme rejselængder skal fortsat være udeladt. Vi udfører også en ny regressionsanalyse med lgbilrejs som den afhængige variabel og centafs som den uafhængige variabel. Er der ændringer i modellens forklaringskraft (R2) og i den standardiserede regressionskoefficient? Vi undersøger hvad der sker, hvis vi i stedet transformerer den uafhængige variabel (boligens afstand fra centrum). Vi laver en ny variabel lgcentafs, som er den briggske logaritme til centafs, og udfører tilsvarende analyser som i forrige eksempel, men med ordinært målte rejselængder.

Opgave 3 I studiet i Hovedstadsområdet blev også respondenternes samlede rejselængde med alle typer af transportmidler i løbet af ugens hverdage undersøgt. Denne variabel blev benævnt hverdtot. Brug desciptive/explore til at identificere respondenter med ekstremt lange samlede rejselængder i løbet af hverdagene, og fravælg disse respondenter. Lav et spredningsdiagram for sammenhængen mellem centafs og hverdtot, og derefter et tilsvarende diagram for sammenhængen mellem lgcentafs og hverdtot. Brug i begge tilfælde SPSS til at indtegne regressionslinien. Udfør regressionsanalyser af sammenhængene mellem centafs og hverdtot, og mellem lgcentafs og hverdtot. Er R2-koefficienten og den standardiserede regressionskoefficient blevet forhøjet, sammenlignet med analyserne baseret på ordinært målte centrumsafstande? Hvad kan evt. forskelle forklares ved?

Eksempel 4 Baseret på teoretiske overvejelser såvel som foreløbige analyser af det empiriske datamateriale, fandt forskerne, at sammenhængen mellem boligens afstand fra Københavns centrum og rejselængderne bedst kunne beskrives, hvis centrumsafstanden transformeredes ved hjælp af en funktion sammensat af en hyperbolsk tangensfunktion og en kvadratisk funktion. Lav en sådan ny, transformeret centrumsafstandvariabel, afstfun2, baseret på den følgende funktion: afstfun2 = (Exp(centafs*0.18 – 2.85) - Exp( -(centafs*0.18 – 2.85))) / (Exp(centafs*0.18 – 2.85) + Exp( - (centafs*0.18 – 2.85))) – (0.00068*( centafs – 42)*(centafs – 42) – 2.8). Lav et spredningsdiagram for sammenhængen mellem afstfun2 og hverdtot, og brug SPSS til at indtegne regressionslinien. Respondenter med ekstreme rejselængder skal fortsat være udeladt. Udfør en regressionsanalyse af sammenhængen mellem afstfun2 og hverdtot. Er R2-koefficienten og den standardiserede regressionskoefficient blevet forhøjet, sammenlignet med analyserne baseret på ordinært målte og logaritmisk målte centrumsafstande?

Multipel lineær regressionsanalyse Model: y=a1x1+a2x2+…+anxn+b Indtægt Alder Uddannelse

Multipel lineær regressionsanalyse

Multipel lineær regressionsanalyse Med flere variable stiger R2 som regel, men ikke nødvendigvis den tilpassede R2. Hvis antallet af variable er ligeså stort som antallet af observationer, så vil R2 altid være lige med 1, og man bør derfor se på den tilpassede R2 ved mange observationer.

Opgave 4 Udfør en multipel regressionsanalyse af følgende uafhængige variablers effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot): Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun2). Uddannelseslængde (skoleaar). Personlig årsindtægt (persind2). Hvorvidt respondenten er erhvervsaktiv (erhvakt). Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs). Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år respondenten er (alder3) . Respondenter med ekstreme rejselængder skal udelades fra analysen. Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet af ugens hverdage? Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder. Hvilke kønsspecifikke forskelle kan vi se ud fra resultaterne?

Modelsøgning Enter: Manuel modelsøgning. Giver god kontrol over modellen, men kræver indsigt og overblik. Tager også længere tid. Forward: Starter med en tom model og inkluderer herefter variable baseret på deres partielle korrelationer. Backward: Starter med en mættet model og ekskluderer herefter variable baseret på deres signifikansniveau. Stepwise: Som forward, men undersøger løbende om der er ikke-signifikante variable i modellen og ekskluderer dem.