Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Statistik Lektion 14 Simpel Lineær Regression

Lignende præsentationer


Præsentationer af emnet: "Statistik Lektion 14 Simpel Lineær Regression"— Præsentationens transcript:

1 Statistik Lektion 14 Simpel Lineær Regression
Mindste kvadraters metode Kovarians og Korrelation

2 Scatterplot S c a t e r p l o k f A d v i s n g E x u ( X ) Y 5 4 3 2 1 8 6 Et scatterplot viser par (x,y) af observationer. I eksemplet er x reklamebudget og y afsætningen. I scatter plottet er tilføjet en ret linie… Bemærk hvordan par af x og y har tendens til at ligge omkring en ret linie. hvordan par af x og y ikke falder præcis på linien. hvordan linien beskriver hvordan y i gennemsnit afgænger af x.

3 Flere scatterplot X Y

4 Simpel Lineær Regression (SLR)
Simpel fordi vi kun har én forklarende variabel – nemlig x. Lineær fordi sammenhængen mellem x og y er lineær.

5 Simpel lineær regressionsmodel
Y - den afhængige variabel. X - den uafhængige variabel – faste β - det græske bogstav ”beta” β0 - skæringspunkt med y-aksen β1 - hældningskoefficient iid - independent, identically distributed = uafhængig, identisk fordelte ε - det græske bogstav ”epsilon” εi - det eneste stokastiske element i modellen

6 Simpel lineær regression – tegningen
Modellen er: Y E[Y|X] = β0 + β1X (xi,yi) Yi εi β1 Modellen siger: E(Y|X) = β0 + β1X V(Y|X) = σ2 Y|X ~ N(β0 + β1X, σ2) 1 β0 X Xi

7 Ensidet Variansanalyse Simpel Lineær Regression
ANOVA vs SLR Ensidet Variansanalyse Simpel Lineær Regression Y Y Y|x=3 ~ N(μ+α3,σ2) Yi|xi~N(β0 + β1xi,σ2) μ+α3 μ i.i.d. normalfordelte fejlled i.i.d normalfordelte fejlled i=1 i=2 i=4 i=3 i=5 x1 x3 x2 x4 x5 X X Kategorisk forklarende variabel i Kontinuert forklarende variabel x

8 Forudsætninger for SLR (1/3)
Der er en lineær sammenhæng mellem X og Y. Indledende tjek: Scatter plot af (X,Y) – ser punkterne ud til at ligge langs en linie? y y y y x

9 Forudsætninger for SLR (2/3)
Værdierne af de uafhængige variable X antages at være faste – dvs. ikke stokastiske. Mao. Antages X at være kendt eller målt uden ”støj”/”målefejl” Indledende tjek: Logisk sans.

10 Forudsætninger for SLR (3/3)
Fejledene εi antages være uafhængige og normalfordelte med middelværdi 0 og varians σ2. Indledende tjek: Se efter indlysende problemer i scatter plot af (X,Y). y y y y x

11 Eksempel: Reklame budget vs salg
Sammenhæng mellem det ugentlige reklame-budget og det ugentlig salg? Reklame budget (x) Salg (y) 40 385 20 400 25 395 365 30 475 50 440 490 420 560 525 480 510

12 Placer relevante variable på x- og y- akserne.
Scatterplot i SPSS Graphs→Chart Builder Vælg ’Simple Scatter’ Placer relevante variable på x- og y- akserne. Klik ’OK’ 3 3 2 1

13 Scatterplot af data i SPSS
Og hva’ så?

14 Estimation Model: yi = β0 + β1 xi + εi εi er i.i.d. N(0,σ2)
β0, β1 og σ2 er modellens parametre – ukendte! Estimation af β0 og β1 svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje b0 er estimat for β0 og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi β0 og β1?

15 Residual led er den (lodrette) afstanden fra den estimerede linie til punktet (xi,yi). Y Det observerede datapunkt . Den fittede regressionslinie X Xi

16 Mindste kvadraters metode
Vi vil finde b0 og b1 så summen af de kvadrerede residualer bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable (b0 og b1).

17 Minimering SSE er en funktion af b0 og b1.
Vi vil finde b0 og b1 så SSE er mindst mulig. b0 SSE b1

18 Minimering udført Definer funktion Q(b0,b1) = SSE.
Dvs vi skal minimere Q(b0,b1). Fremgangsmåde: Find de to partielle afledte og : Sæt partielle afledte lig nul: To ligninger med to ubekendte: Løs dem! (2) (1)

19 To ligninger med to ubekendte
Isolér bo i (1) Estimat af β0 ! Indsæt i (2) på b0’s plads og regn videre… Resultat: Estimat af β1 !

20 Estimater per håndkraft
x x2 y y2 xy 40 1600 385 148225 15400 20 400 160000 8000 25 625 395 156025 9875 365 133225 7300 30 900 475 225625 14250 50 2500 440 193600 22000 490 240100 19600 420 176400 8400 560 313600 28000 525 275625 21000 480 230400 12000 510 260100 25500 410 15650 5445 191325

21 Estimerede regressions linie:

22 Samme historie i SPSS Analyze→Regression→Linear
Placer den afhænige variabel (”y-variablen”) i ’Dependent’. Placer den uafhængige/ forklarende variable (”x-variablen”) i ’Indpendent(s)’. Klik ’OK’.

23 SPSS output b0 b1 Estimerede regressions linje:

24 Regneformler For at gøre livet lidt lettere vil vi bruge følgende forkortelser/regneformler Bemærk: Nok at udregne følgende fem udtryk:

25 Estimaternes fordeling
Estimatoren B1 svarende til estimatet b1 er Bemærk at Y’erne ”store”, dvs de er stokastiske variable, derfor er B1 også er en stokastisk variabel. Estimator: Stokastisk variabel. Estimat: ”Fast tal”, dvs. ej stokastisk. Opnået ved at ”indsætte” observationerne i estimatoren.

26 Estimatoren B1’s fordeling
Hvis den lineære regressions model er sand gælder der for estimatoren B1: Middelværdi: Varians: Fordeling: Bemærk: Når er stor så er Var(b1) lille!

27 Estimatoren B0’s fordeling
Estimatoren B0 svarende til estimatet b0 er Middelværdi Varians Fordeling

28 Estimation af σ2 – variansen for fejledene
Tidligere estimerede vi variansen i en uafhængig stikprøve ved For simpel lineær regression bruger vi MSE = Mean Squared Error Antal frihedsgrader ”Minus én”, da s2 involverer ét estimat, nemlig . Antal frihedsgrader ”Minus to”, da s2 involverer to estimater, nemlig b0 og b1.

29 Udregning af SSE Hermed opnår vi
Som desuden er en unbiased estimator for σ2.

30 Konfidensinterval for β1
Vi har (1-α)100% konfidensinterval for β1 er hvor

31 Konfidensinterval for β0
Vi har (1-α)100% konfidensinterval for β0 er hvor

32 Test af hældning (β1) Test for om hældningen, β1, har en bestemt værdi, K: Hvis H0 er sand, så gælder der Teststørrelse:

33 Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05.
Udregn teststørrelsen Bestem p-værdien. Beslutning: Hvis p-værdien < α afvises H0. t-fordeling med n-2 frihedsgrader . 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 . Orange område = p-værdi

34 Særlig interessant: H0: β1=0
Er der en lineær sammenhæng mellem X og Y? H0: β1=0 ingen lineær sammenhæng H1: β1≠0 lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineær sammenhæng Y Y Y X X X

35 Eksempel: Reklame vs Salg
Test for lineær sammenhæng mellem reklame og salg: Teststørrelse: Kritisk værdier: Beslutning: Vi forkaster H0 da t > p-værdi = 0.027<0.05.

36 Samme historie i SPSS Analyze→Regression→Linear (som sidst)
I ’Statistics…’ vælg: Estimates Confidens Intervals

37 SPSS output Teststørrelsen t. 95% Konfidens-intervaller for β0 og β1.
Parameter-estimaterne b0 og b1. Estimerede standard-afvigelser, sb0 og sb1. p-værdien svarende til det tosidede test H0: βi=0.

38 SPSS output

39 Korrelationskoefficient ρ
Graden af lineær sammenhæng mellem de stokastiske variable X og Y måles ved korrelationskoefficienten, r:

40 Illustration af korrelation
Y X  = 0  = -.8  = .8  = -1  = 1

41 Kovarians Antag at X og Y er stokastiske variable.
Definition af kovarians mellem X og Y: hvor Bemærk: I SLR er X ikke stokastisk! Hvis store X følges med store Y : Cov(X,Y)>0 Hvis store X følges med små Y : Cov(X,Y)<0

42 Nyttig formel Bemærk: Variansen af (X+Y) er ikke ”bare”
variansen af X plus variansen af Y! Eksempel: Y = -X

43 Kovarians, Uafhængighed og Korrelation
Egenskab: Hvis X og Y er uafhængige, så er Cov(X,Y)=0 Hvis X og Y er normalfordelte: X og Y er uafhængige  Cov(X,Y)=0 Definition: Korrelation Hvor

44 Estimation of korrelationskoef., ρ
Estimatet af ρ betegnes r: r er stikprøve korrelationskoefficienten.

45 Test for korrelation mellem X og Y
Hypoteser H0: r = 0 H1: r ≠ 0 Teststørrelse: Under H0:

46 SPSS output Korrelationen mellem ’Reklame budget’ og ’Salg’.
p-værdi hørende til test af hypotesen H0: ρ=0.


Download ppt "Statistik Lektion 14 Simpel Lineær Regression"

Lignende præsentationer


Annoncer fra Google