Regressions modeller – Hvad regresserer vi på og hvorfor?

Slides:



Advertisements
Lignende præsentationer
Dummyvariabler 13. oktober 2006
Advertisements

Statistik Lektion 17 Multipel Lineær Regression
KM2: F221 Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007.
Anvendt Statistik Lektion 5
Sammenligning af to grupper – kapitel 7
SEO PÅ AU.
1 Effektiv forrentning Kjeld Tyllesen PEØ, CBS Erhvervsøkonomi / Managerial Economics Kjeld Tyllesen, PEØ, CBS.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Økonometri 1: Instrumentvariabelestimation1 Økonometri 1 Instrumentvariabelestimation 26. november 2004.
Statistik Lektion 5 Log-lineære modeller.
Statistik Lektion 6 Konfidensinterval for andele og varians
Økonometri 1: Dummy variable
Signifikanstest ved (en eller) to stikprøver
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik II 5. Lektion Log-lineære modeller.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.
FEN Prædikater/Seminar 11 Prædikatslogik eller Kvantificerede udtryk Prædikater udvider propositionslogikken på to måder: –Vi tillader variable.
Anvendt Statistik Lektion 7
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Rapporter (Access, del 5). RHS – Informationsteknologi – Udgangspunkt Vi har oprettet en database Vi har defineret en eller flere tabeller, og.
Grunde til at jeg elsker dig
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
1 Kap. 4, Jordens Tyngdefelt = Torge, 2001, Kap. 3. Tyngdekraftens retning og størrelse g (m/s 2 ) Acceleration Tyngdepotentialet (W): evene til at udføre.
Økonometri 1: Instrumentvariabelestimation1 Økonometri 1 Instrumentvariabelestimation II 7. december 2005.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri 1: Instrumentvariabelestimation1 Økonometri 1 Instrumentvariabelestimation II 28. april 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Heteroskedaticitet (Specifikation og dataproblemer) 2. november 2005.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 29. marts 2006.
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Grundlæggende teoretisk statistik
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: F151 Økonometri 1 Specifikation og dataproblemer 10. november 2006.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Præsentationens transcript:

Regressions modeller – Hvad regresserer vi på og hvorfor? Anders Stockmarr Axelborg statistikgruppe 6/11 2012

Generel Regression Yt= f(Xt) +εt, t=1,…,n f er en UKENDT funktion, der beskriver relationen mellem den uafhængige variabel X, og den afhængige variabel Y. Vi vil gerne afdække hvorledes X og Y er relateret (dvs. undersøge egenskaber ved f), gennem analyser af parrede observationer (Xt,Yt)t=1,…,n

Lineær Regression Antag at f ∊ C ∞(R) Så er hvor Dermed er hvor o(x)=xε(x).

Lineær Regression – funktioner af flere variable 1. ordens Taylor-udvikling: I modeltermer erstattes f i Yi= f(Xi) +εi, i=1,…,n Med hvor restleddet sættes til nul, og hvor a0, a1 er ukendte, dvs. den multiple regressionsmodel Yt= α+β1X1,t +…+ βkXk,t + εt, t=1,…,n.

Lineær Regression –funktioner af flere variable 2. ordens Taylor-udvikling: I modeltermer erstattes Yt= f(Xt) +εt, t=1,…,n Med

Lineær Regression –funktioner af flere variable 2. ordens Taylor-udvikling: I modeltermer erstattes Yt= f(Xt) +εt, t=1,…,n Med Lineær regressionsmodel med 1. ordens interaktioner (og kvadratiske effekter; udelades ofte).

Polynomiel regression af højere orden Princip: Ynøjagtigheden mindskes til en pris af introduktion af flere forklarende variable; Når ynøjagtigheden er af en størrelsesorden så den kan inkorporeres i residualvariansen ε, er modellen tilstrækkelig i modelleringsforstand.

Polynomiel regression af højere orden Princip: Ynøjagtigheden mindskes til en pris af introduktion af flere forklarende variable; Når ynøjagtigheden er af en størrelsesorden så den kan inkorporeres i residualvariansen ε, er modellen tilstrækkelig i modelleringsforstand. Det kan i praksis kræve mange led: Eksempel

”sammenhængen er approksimativt lineær” Skalering Højere ordens regression ønsker vi ikke; meget vanskeligt at fortolke og kommunikere. Løsningen er data-transformation. Vi anstrenger os en del for at finde skalaer, hvor sammenhængen kan beskrives med en Taylor-approksimation af lav orden; ”sammenhængen er approksimativt lineær” log-transformation, Box-Cox transformation, kvadratrods-tranformation, etc.

Agenda Vi vil gerne erstatte ukendte funktioner med andre ukendte, som dog har en kendt struktur; polynomier. Formålet er selvfølgelig, som al modellering, at forenkle virkeligheden så man kan regne på den uden at begå for grove fejl. Men samtidigt skal vi også gerne kunne se og kommunikere logikken i vores approksimation, så den må ikke være for kompliceret. Subjektiv konklusion: Vi bør approksimere med en Taylor-udvikling der er af 1. eller 2. orden, nogen gange 3. orden og aldrig over 4. Data skal skaleres, så dette kan lade sig gøre.

Ortogonalisering Modellen Er af formen hvor vi blot lader XiXj optræde som en selvstændig kovariat. Dette gør den lineære regressionsmodel meget generel.

Ortogonalisering II I modellen Som vi skriver på sædvanlig vis, benytter vi ML/LS/PE-estimatoren hvor A er matricen bestående af søjlerne med værdierne for de enkelte kovariater.

Ortogonalisering II Med normalfordelte støjled er normalfordelt; Men nu er hvorfor uafh. af hviss <Xi,Xj>=0.

Ortogonalisering III Modellen udtrykker jo blot at Y på nær støj er en linear-kombination af søjlerne i matricen A. MAO: Finder vi en anden måde at udtrykke linearkombinationer af søjlerne i A, ændrer vi ikke modellen.

Ortogonalisering IV Ønsker vi stokastisk uafhængige estimater, kan vi derfor lave en ny design matrix B, således at søjlerne i B er ortogonale, og således at søjlerne i B og A udspænder det samme rum.

Ortogonalisering V Dette gøres rekursivt:

Ortogonalisering VI Eksempel:

Ortogonalisering VII I modellen er estimaterne derfor stokastisk uafhængige. Tilbageregning:

Ortogonalisering VIII Hvilke fordele ser I??

Regression på andet end polynomier Grunden til at vi kan bruge polynomier er at polynomierne udgør en basis for C ∞(R), udstyret med topologien for uniform konvergens på kompakte mængder; Men man kan forestille sig situationer, hvor det er mere naturligt at forlange, at f tilhører en anden klasse end C ∞(R), og hvor man derfor skal kigge på andre baser.

Regression på andet end polynomier II Eksempel: Periodiske funktioner (de-trendede sæson-data). Her udgør funktionerne hvor ω er perioden, en basis for en passende gruppe af funktioner; man kan derfor modellere a la hvor disse sinusfunktioner kan ortogonaliseres ligesom tidligere.

Regression hvor den afhængige variabel er stokastisk En forudsætning for at estimaterne i modellen er uafhængige, er at design-matricen er en diagonal-matrix. Men en anden, implicit, forudsætning er, at Xt er deterministisk. Hvis Xt er stokastisk, er sagen generelt en anden.

Regression hvor den afhængige variabel er stokastisk II Antag at både X og Y er stokastiske variable, med en kausal relation imellem sig givet ved at Her hvis gælder f.eks. at , er f.eks og dermed er det ikke oplagt at sædvanlige poly-nomier er den fornuftigste vej at gå, hvis man f.eks. interesserer sig for hvad effekten af X er i termer af potenser af μ.

Regression hvor den afhængige variabel er stokastisk III Samtidig kan man interessere sig for en helt anden form for ortogonalitet; nemlig om de uafhængige variable som man regresserer på, er uafhængige, eller i det mindste ukorrelerede. Dette er en ganske anden ortogonalitet end geometrisk ortogonalitet af n obser-vationer, altså ortogonalitet i Rn.

Regression hvor den afhængige variabel er stokastisk IV Hvis X er normeret normalfordelt, er 2 funktioner f og g af X ukorrelerede, hvis Definerer vi det indre produkt er dette kriterium præcis ortogonalitet i L2-forstand.

Regression hvor den afhængige variabel er stokastisk V En følger af funktioner der opfylder dette, er Hermite polynomierne Hen, givet ved

Egenskaber ved Hermite-polynomierne I Hermite-polynomierne udgør en basis for vektorrummet Dermed kan de fleste funktioner approksimeres med summer af Hermite polynomier.

Egenskaber ved Hermite-polynomierne II hvis n≠m, således at Hen(X) og Hem(X) er ukorrelerede, hvis X er normeret normal-fordelt. Hvis , er . Defineres er og ortogonale/ukorrelerede for n ≠ m, hvis X er normalfordelt (0,σ2).

Egenskaber ved Hermite-polynomierne III Hermite-polynomier er altså skrædder-syede til situationen, hvor man modellerer dynamiske systemer uden feed-back mellem uafhængige og afhængige variable. Hermite polynomier har orden n, så Hermite polynomier op til orden n modellerer præcis også Taylorudvikling op til orden n (i 1 dimension).

Hvad er jeres erfaringer? Hermite-polynomier Hvad er jeres erfaringer?

Tak for opmærksomheden