Grundlæggende teoretisk statistik

Slides:



Advertisements
Lignende præsentationer
KM2: F221 Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007.
Advertisements

Variansanalyse Modelkontrol
Grundlæggende teoretisk statistik
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Grundlæggende teoretisk statistik
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Forudsigelse i markedsanalyse Burns & Bush ch. 19 Carsten Stig Poulsen Mandag d. 6. april 2009.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statistik Lektion 16 Multipel Lineær Regression
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 1. oktober 2004.
Økonometri 1: F81 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006.
Økonometri 1: Instrumentvariabelestimation1 Økonometri 1 Instrumentvariabelestimation II 7. december 2005.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Heteroskedasticitet 17. marts 2006
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
KM2: F191 Kvantitative metoder 2 Heteroskedasticitet 16. april 2007.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 5. oktober 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
KM2: F61 Kvantitative metoder 2 Den simple regressionsmodel 21. februar 2007.
Simpel Lineær Regression
Kvantitative metoder 2: Inferens i den lineære regressionsmodel1 Kvantitative metoder 2 Inferens i den lineære regressionsmodel 14. marts 2007.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: F151 Økonometri 1 Specifikation og dataproblemer 10. november 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
KM2: F201 Kvantitative metoder 2 Heteroskedasticitet 18. april 2007.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Inge Henningsen Stat BK uge
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Instrumentvariabelestimation1 Økonometri 1 Instrumentvariabelestimation 7. december 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Præsentationens transcript:

Grundlæggende teoretisk statistik Regressionsanalyse - del 1 Simpel lineær regression

Lineær regressionsanalyse Regressionsmodeller beskriver sammenhængen mellem en Responsvariabel (den forklarede/ afhængige variabel) Én el. flere forklarende variable (uafhængige variable) Den simpleste regressionsmodel er den lineære model med 1 forklarende variable: β1 og β0 kaldes regressionskoefficienter

Regression / Korrellation Regression beskriver sammenhængens ART (her lineær) mellem variablene Korrellation beskriver styrken af den linieære sammenhæng

Eksempel: El-produktion som funktion af brændselsforbrug

El-produktion vs. Brændselsforbrug

Regressionsmodellen Populationsmodellen: Ingen eksakt lineær sammenhæng. Der er altid et restled, her benævnt e. Den statistiske model:

Model og forudsætninger Restleddet omfatter: Målefejl Summen af alle andre forklarende variable vejer hinanden op og giver en tilfældig variation

Model og forudsætninger (p. 172-74) Forudsætninger om fejlleddet:

Modelkontrol / residual-analyse Residuals Residuals Heteroscedasticity: Ej konstant varians – varierer med X. Homoscedasticity: = Varianshomogenitet. Residuals Residuals Time Afhængighed mellem residualer og X, således der er tale om en ikke-lineær sammenhæng. Residualer vokser med tiden - ej uafhængige

Residualplot – el-produktion /brændselsforbrug

Estimerede regressionskoefficienter i Bewi Skæringen med y-aksen! D.v.s. el-produktionen når brændselsforbruget, X=0. Denne kan naturligt ikke være negativ! Hældningskoefficienten! D.v.s. den marginale produktion ved forøgelse af brændselsforbruget med 1 enhed.

Styrken af regressionen Variansanalyse - variationselementer SAKy – Den totale variation i Y SAKreg – Variationen der skyldes regressionen RKS – Den uforklarede (rest-)variation Determinationskoefficienten Korrellationskoefficienten Estimation af σ – Variansen på rest-/fejl-leddet

Variationselementer RKS SAKy SAKreg

Variansanalyse og determinationskoefficient

Variansanalyse i Bewi Determinationskoefficienten = R2 SAKreg SAKy RKS

Restled vs. Residualer Restled refererer til modellen (i ”populationen”) Residualer er estimater/ approximationer til restleddene: Variansen på restleddet, s2 estimeres med

Residual-analyse i Bewi Standardafvigelsen på residualerne = se Frihedsgrader = (n-2) RKS

Korrellationsanalyse Korellationskoefficienter til vurdering af sammenhænge mellem variable Kun lineære sammenhænge Populationskorrellationskoefficient, ρxy (rho) Stikprøvens korrellationskoefficient, rxy

Korrellationskoefficienter i Bewi KVADREREDE KORRELATIONER El- produktion Brændsels- forbrug Produktion 1 0,997276

Test på korrellation (p. 168) Både X og Y skal være normalfordelte (X,Y) skal være en 2-dimensional Normalfordeling Test-statistikken: følger en Students t-fordeling med (n-2) frihedsgrader Tommelfinger-regel for lineær sammenhæng

Hypotesetest og konf.interval (p. 168-69) Middelrette Variansen Bemærk her, at jo større spredning på x, jo mindre bliver variansen på den estimerede hældningskoefficient Fordelingen (Hvis alle Y’er er normalfordelte er begge estimatorer også normalfordelte)

KI for ß0 og ß1 (p. 169)

Konf.intervaller i Bewi KOEFFICIENTER OG KONFIDENSINTERVALLER 95%-konfidensintervaller Koefficienter Standardafv. n. grænse ø. grænse Skæring -1564,55 1258,99 -4175,54 1046,42 Brændsels- forbrug 0,105258 0,001173 0,102826 0,10769

t-test på modellens parametre

Test på regress.koefficienter i Bewi KOEFFICIENT-TESTS p-værdi (ss) H1 Koeffici-enter t-stat To- sidet En- Skæring -1564,56 -1,2427 0,227 0,113 b0 ≠ 0 b0 < 0 Brændsels- forbrug 0,10525 89,75 ~ 0 b1 ≠ 0 b1 > 0

F-test på β1 Når H0 er sand er både tæller og nævner estimater på σ2. F-fordelingen bruges til test på om 2 varianser er ens Én frihedsgrad i tæller og (n-2) i nævneren

F-test i Bewi KVADRATSUMMER OG F-TEST Friheds-grader Kvadratsum F-værdi p-værdi (ss) Regression 1 43.675.845.462 8055,3 ~ 0 Residual 22 119.284.097 I alt (SAKy) 23 43.795.129.559

To-sidet F-test på β1

Prediction / prognoseintervaller (p. 169) Konfidensintervaller på middelværdien af Y Prognose-intervaller på en enkelt Y-værdi: Interpolation vs. ekstrapolation

Predictionsintervaller i Bewi PROGNOSEINTERVALLER FOR Elproduktion, NÅR Brændselsforbrug ER 1000000 nedre grænse øvre grænse Punkt-estimat 95-% forudsigelsesinterval for Y 98.765 108.622 103.693 95-% konfidensinterval for E(Y) 102.708 104.679

Grafisk / Modelkontrol Residual-diagrammer Afsæt residualerne mod eller mod xi Visuelt check om residualerne er korrellerede Især relevant ved tidsrækker Konstant varians Standardiserede residualer har konstant varians Normalfordelingen Brug et normalfraktildiagram

Indflydelsesrige observationer Søg så bred en understøttelse af data Små ændringer i data må ikke have betydning Pas på ekstreme værdier!

Kapitel I - Opgaver Opgavesamling i Statistik 2009 fra Statistica: AØT: 67, 68, 70, 73, E2 excl. spg. 4, E6, E9, E14