Grundlæggende teoretisk statistik Regressionsanalyse - del 1 Simpel lineær regression
Lineær regressionsanalyse Regressionsmodeller beskriver sammenhængen mellem en Responsvariabel (den forklarede/ afhængige variabel) Én el. flere forklarende variable (uafhængige variable) Den simpleste regressionsmodel er den lineære model med 1 forklarende variable: β1 og β0 kaldes regressionskoefficienter
Regression / Korrellation Regression beskriver sammenhængens ART (her lineær) mellem variablene Korrellation beskriver styrken af den linieære sammenhæng
Eksempel: El-produktion som funktion af brændselsforbrug
El-produktion vs. Brændselsforbrug
Regressionsmodellen Populationsmodellen: Ingen eksakt lineær sammenhæng. Der er altid et restled, her benævnt e. Den statistiske model:
Model og forudsætninger Restleddet omfatter: Målefejl Summen af alle andre forklarende variable vejer hinanden op og giver en tilfældig variation
Model og forudsætninger (p. 172-74) Forudsætninger om fejlleddet:
Modelkontrol / residual-analyse Residuals Residuals Heteroscedasticity: Ej konstant varians – varierer med X. Homoscedasticity: = Varianshomogenitet. Residuals Residuals Time Afhængighed mellem residualer og X, således der er tale om en ikke-lineær sammenhæng. Residualer vokser med tiden - ej uafhængige
Residualplot – el-produktion /brændselsforbrug
Estimerede regressionskoefficienter i Bewi Skæringen med y-aksen! D.v.s. el-produktionen når brændselsforbruget, X=0. Denne kan naturligt ikke være negativ! Hældningskoefficienten! D.v.s. den marginale produktion ved forøgelse af brændselsforbruget med 1 enhed.
Styrken af regressionen Variansanalyse - variationselementer SAKy – Den totale variation i Y SAKreg – Variationen der skyldes regressionen RKS – Den uforklarede (rest-)variation Determinationskoefficienten Korrellationskoefficienten Estimation af σ – Variansen på rest-/fejl-leddet
Variationselementer RKS SAKy SAKreg
Variansanalyse og determinationskoefficient
Variansanalyse i Bewi Determinationskoefficienten = R2 SAKreg SAKy RKS
Restled vs. Residualer Restled refererer til modellen (i ”populationen”) Residualer er estimater/ approximationer til restleddene: Variansen på restleddet, s2 estimeres med
Residual-analyse i Bewi Standardafvigelsen på residualerne = se Frihedsgrader = (n-2) RKS
Korrellationsanalyse Korellationskoefficienter til vurdering af sammenhænge mellem variable Kun lineære sammenhænge Populationskorrellationskoefficient, ρxy (rho) Stikprøvens korrellationskoefficient, rxy
Korrellationskoefficienter i Bewi KVADREREDE KORRELATIONER El- produktion Brændsels- forbrug Produktion 1 0,997276
Test på korrellation (p. 168) Både X og Y skal være normalfordelte (X,Y) skal være en 2-dimensional Normalfordeling Test-statistikken: følger en Students t-fordeling med (n-2) frihedsgrader Tommelfinger-regel for lineær sammenhæng
Hypotesetest og konf.interval (p. 168-69) Middelrette Variansen Bemærk her, at jo større spredning på x, jo mindre bliver variansen på den estimerede hældningskoefficient Fordelingen (Hvis alle Y’er er normalfordelte er begge estimatorer også normalfordelte)
KI for ß0 og ß1 (p. 169)
Konf.intervaller i Bewi KOEFFICIENTER OG KONFIDENSINTERVALLER 95%-konfidensintervaller Koefficienter Standardafv. n. grænse ø. grænse Skæring -1564,55 1258,99 -4175,54 1046,42 Brændsels- forbrug 0,105258 0,001173 0,102826 0,10769
t-test på modellens parametre
Test på regress.koefficienter i Bewi KOEFFICIENT-TESTS p-værdi (ss) H1 Koeffici-enter t-stat To- sidet En- Skæring -1564,56 -1,2427 0,227 0,113 b0 ≠ 0 b0 < 0 Brændsels- forbrug 0,10525 89,75 ~ 0 b1 ≠ 0 b1 > 0
F-test på β1 Når H0 er sand er både tæller og nævner estimater på σ2. F-fordelingen bruges til test på om 2 varianser er ens Én frihedsgrad i tæller og (n-2) i nævneren
F-test i Bewi KVADRATSUMMER OG F-TEST Friheds-grader Kvadratsum F-værdi p-værdi (ss) Regression 1 43.675.845.462 8055,3 ~ 0 Residual 22 119.284.097 I alt (SAKy) 23 43.795.129.559
To-sidet F-test på β1
Prediction / prognoseintervaller (p. 169) Konfidensintervaller på middelværdien af Y Prognose-intervaller på en enkelt Y-værdi: Interpolation vs. ekstrapolation
Predictionsintervaller i Bewi PROGNOSEINTERVALLER FOR Elproduktion, NÅR Brændselsforbrug ER 1000000 nedre grænse øvre grænse Punkt-estimat 95-% forudsigelsesinterval for Y 98.765 108.622 103.693 95-% konfidensinterval for E(Y) 102.708 104.679
Grafisk / Modelkontrol Residual-diagrammer Afsæt residualerne mod eller mod xi Visuelt check om residualerne er korrellerede Især relevant ved tidsrækker Konstant varians Standardiserede residualer har konstant varians Normalfordelingen Brug et normalfraktildiagram
Indflydelsesrige observationer Søg så bred en understøttelse af data Små ændringer i data må ikke have betydning Pas på ekstreme værdier!
Kapitel I - Opgaver Opgavesamling i Statistik 2009 fra Statistica: AØT: 67, 68, 70, 73, E2 excl. spg. 4, E6, E9, E14