Variansanalyse på normalfordelte observationer af Jens Friis.

Slides:



Advertisements
Lignende præsentationer
Anvendt Statistik Lektion 3
Advertisements

Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 9
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Anvendt Statistik Lektion 9
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Inge Henningsen Stat BK uge Sammenligning af regressionslinier Opsummering af regressionsanalyse (Gennemgang af udvidet version af eksamen Blok.
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Poissonfordelte observationer Deskriptiv analyse Jens Friis, AAU.
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Grundlæggende teoretisk statistik
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Statistik Lektion 8 Test for ens varians.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
KM2: F201 Kvantitative metoder 2 Heteroskedasticitet 18. april 2007.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 3
Præsentationens transcript:

Variansanalyse på normalfordelte observationer af Jens Friis

Ensidig variansanalyse Model enkelt normalfordelt observationsrække Lad X 1, X 2, ……X n er indbyrdes uafhængige N(μ, σ 2 ) - fordelt stokastiske variable. Det tilhørende observationssæt kaldes x 1, x 2, ……x n Estimater Kvadratsumsopspaltning SSDf SSD1n-1 SSD21 SSDn

Hypotesen H 0 : μ = μ 0 med H 1 : μ ≠ μ 0 ønskes testet. Teststørrelsen bliver Det ses, at er en stokastisk variabel, og derfor er t ikke normalfordelt. Man kan vise, at er σ 2 χ 2 - fordelt med f=n-1 frihedsgrader. Testoren t følger en såkaldt t-fordeling med f=n-1 frihedsgrader. t-fordelingen konvergere mod N(0, 1) – fordelingen for n gående mod uendelig. t-fordelingens tæthedsfunktion er også symmetrisk om 0. Hypotesen accepteres hvis T f -1 (α/2) ≤ t ≤ T f -1 (1-α/2), hvor T f er fordelingdfunk- tionen svarende til t-fordelingen med f frihedsgrader.

Eksempel: Ved produktion af piller har man målt nicotamid-indholdet i 20 piller. Indholdet skal være 25mg. Ved stikprøven på 20 piller fik man følgende resultater: 22,6723,2923,4023,5623,7623,8323,9524,2124,5024,64 24,8725,0525,3525,7325,7925,8026,1126,9725,3627,11 Model : X i ̴ N(μ, σ 2 ) for i=1 til 20 er uafhængige stokastiske variable. H 0 : μ = 25, H 1 : μ ≠ 25 Parametrene estimeres = 24,797 ; s 2 = 1,5187 Teststørrelsen bliver Da 2,5%’s fraktilen er -2,093 for 19 frihedsgrader, accepters hypotesen.

Anvendelse af SPSS til analysen: Først undersøges om observationssættet kan anses for normalfordelt. Man får et såkaldt Q-Q plots Det accepteres at observationssættet er normalfordelt.

Herefter testes hypotesen : klik Analyze → Compare Means → One-Sample T test Vælg Test Value til 25 Hypotesen accepteres

Simpel lineær regression Antag at Y i for i = 1 til k er uafhængige N(μ i, σ 2 ) -fordelte således at Man kan vise at estimaterne for parametrene er Man kan også vise, at estimatoren for β er - fordelt. Man kan derfor teste hypotesen H 0 : β = β 0 med teststørrelsen som er t-fordelt med k-2 frihedsgrader under H 0. Hvis β 0 = 0 tester man uafhængighed af x og y værdierne. Bemærk at skæring med y-aksen er

Kvadratsumsopspaltning : SSDf Omkring linje SSD 1 n-2 linjeSSD 2 1 totalSSDn-1 Som test for H 0 : β = 0 an også anvendes som er F(1,n-2) fordelt.

Eksempel : Man for 28 patienter målt kreatininindholdet i blodet før og efter dødens indtræden. Er der en sammenhæng? Dataene kan ses i en excelfil. Der er en pæn lineær sammenhæng og parametrene estimeres. Man vil gerne teste hypotesen H 0 : β = 1 som er t-fordelt med 26 frihedsgrader. Da 97,5%’s fraktilen er 2,056 accepteres hypotesen. Dataene er analyseret vha. SPSS : kreatinin.sav

Analyse vha. SPSS Først undersøges det om der er en lineær sammenhæng: Dette accepteres.

Parametrene estimeres: Klik Analyze →Regrssion→Linear s2s2 Skæring med y-aksen og Spredningen på Testet for H0 : β = 1 bliver, som det blev vist tidligere.

Yderligere modelkontrol : Man bør undersøge residuerne, dvs. afvigelserne fra modellen Klik Analyze→Regression→Linear→Save og flueben som vist Optegn de forventede mod de observerede y-værdier mod hinanden og nogle passende plots af residuerne.

Model flere normalfordelte observationsrækker Lad X ij, i=1,2…k, j=1,2…n i være indbyrdes uafhængige N(μ i, σ 2 ) - fordelt stokastiske variable. Det tilhørende observationssæt kaldes x ij, i=1,2…k, j=1,2…n i, og lad Estimater Modelkontrol Det forudsættes at for hver i er observationsrækken normalfordelt, og at der er tale om varianshomogenitet for de k observationsrækker dvs. for, i=1,2….k Man kan benytte et Barletts test eller et Levene test ( er tilgængeligt i SPSS).

Kvadratsumsopspaltning : Følgende hypotese ønskes testet: H 0 : μ i = μ, i = 1,2…k (samme middelværdi i de k observationsrækker) SSDf Inden for grupper SSD 0 n-k Mellem grupper SSD 1 k-1 TotalSSDn-1 Teststørrelsen for H 0 er, som er F(k-1,n-k) fordelt. Store værdier er kritiske. Hvis H 0 accepteres er estimaterne følgende:

Eksempel To titreringsmetoder anvendes. Det ønskes undersøgt om de giver samme resultat: T1 T2 76,3576,23 76,3376,30 76,4576,33 76,4076,33 76,6876,28 76,3376,45 76,4076,38 76,2876,43 76,5876,45 76,6576,6076,40 77,0376,80 76,9076,95 74,8374,88 75,2875,25 Det skal først undersøges om de to observationsrækker kan anses for normalfordelte, og i bekræftende fald om der er varianshomogenitet. Dataene organiseres som liste i SPSS: nr. Tnr 176,35 176,33 176, ,40 osv. Antag at dataene er normalfordelte. Klik Analyze → Compare Means → One-way Anova :

Man får Da teststørrelsen er 0,014 og den er F(1, 28) fordelt accepters hypotesen om varianshomogenitet. SSD 1 SSD 0 SSD s02s02 s12s12 Test-størrelsen. H 0 accepters ( ingen forskel på de to titrerings- metoder).

Tosidig variansanalyse Model : ~ i= 1,2….r ; j=1,2….s ; k=1,2….t ; n=rst I første omgang skal man undersøge om der er varianshomogenitet i de rs observationsrækker. Denne hypotese kaldes H 0 (arbejdshypotese). Derefter er der flere hypoteser, som man kan opstille. H 1 :. Dvs. en rækkeeffekt plus en søjleeffekt. H 2 : Dvs. ingen rækkeeffekt. H 2 * : Dvs. ingen søjleeffekt. H 3 : Dvs. samme fordeling i de rs observations- rækker (fuldstændig homogenitet). Der er valgt en normering således at og.

Man kan vise, at estimaterne for middelværdiparametrene under H 1 er : Under H 0 er estimatet for σ 2 : SSD 0 /f 0 ( se næste side) Under H 1 er estimatet for σ 2 : (SSD 0 +SSD 1 )/(f 0 +f 1 )

Kvadratsumsopspaltning: SSDf Inden for grupper SSD 0 f 0 =rs(t-1) VekselvirkningSSD 1 f 1 =(r-1)(t-1) RækkevirkningSSD 2 f 2 =r-1 SøjlevirkningSSD 2 *f 2 *=t-1 TotalSSDf=rst-1

Test: H 1 : aditivitet som er fordelt. H 2 : ingen rækkevirkning som er fordelt. H 3 : fuldstændig homogenitet (heller ingen søjlevirkning ) som er fordelt. Man kan også vælge at teste for ingen søjlevirkning først. Der skal så byttes rundt på SSD 2 og SSD 2 * og deres frihedsgrader i de to test. Hver gang man har accep- teret en hypotese, er ændres estimatet for variansen. Hvis fx H 2 accepteres er Estimatet for variansen (SSD 0 +SSD 1 +SSD 2 )/(f 0 +f 1 +f 2 )

Eks. Man har testet et byggemateriale for vandgennemtrængning, målt i sekunder. Man har derpå taget logaritmen til tiden. Byggematerialet blev produceret på 3 forskellige maskiner 9 forskellige dage med 3 målinger pr. dag: Først skal man lave en modelkontrol. Da der kun er tre observationer pr. dag, er det ikke muligt at lave en fornuftig kontrol af, om der er tale om normalfordelte observationer pr. maskine x dag. Derimod kan man estimer variansen pr. maskine x dag, og teste om der er varianshomogenitet. Dette gøres med enten et Bartletts test eller Levene. I SPSS er det muligt, at foretage et Levene test. For at benytte SPSS skal dataene organiseres som en lang liste : dag maskine måling dagmaskine1maskine2maskine3 11,4041,3061,932 1,3461,6281,674 1,6181,4101,399 21,4471,2411,426 1,5691,1851,768 1,8201,5161,859 31,9141,5061,382 1,4771,5751,690 1,8941,6491,361 41,8871,6731,721 1,4851,3721,528 1,3921,1141,371 51,7721,2271,320 1,7281,3971,489 1,5451,5311,336 61,6651,4041,633 1,5391,4521,612 1,6801,6271,359 71,9181,2291,328 1,9311,5081,802 2,1291,4361,385 81,8451,5831,689 1,7901,6272,248 2,0421,2821,795 91,5401,6361,703 1,4281,0671,370 1,7041,3841, , , , , , , , , , ,447 osv.

Dette kan gøres samtidigt med den tosidige variansanalyse i SPSS: Klik Analyze → Generel Linear Model → Univariate og udfyld som vist. Teststørrelsen er F(26,54) fordelt. Testet er dobbeltsidigt og ikke signifikant her. Grafisk modelkontrol for additivitet : Der afsættes punkterne som skal ligge omkring en ret linje med hældningskoefficienten 1.

Herefter selve variansanalysen: Her er r=9, s=3(antal maskiner) og t=3 SSD 0 SSD 1 SSD Test for H 1 accept. SSD 2 Er test for H 2, men s 2 2 /s o 2

Tosidig variansanalyse med forskelligt antal observationer pr. celle Model : ~ i= 1,2….r ; j=1,2….s ; k=1,2….n ij ; n= Alt er stort set som før. Man får følgende kvadratsumopspaltning. SSDf Inden for grupper SSD 0 f 0 =n-rs VekselvirkningSSD 1 f 1 =(r-1)(t-1) RækkevirkningSSD 2 f 2 =r-1 SøjlevirkningSSD 2 *f 2 *=t-1 TotalSSDf=n-1

Lineær regression med flere observationer pr. x Antag at Y ij for i = 1 til k, j=1 til n i er uafhængige N(μ ij, σ 2 ) -fordelte således at Man kan vise at estimaterne for parametrene er Man kan også vise, at estimatoren for β er - fordelt. Man kan derfor teste hypotesen H 2 : β = β 0 med teststørrelsen som er t-fordelt med f 0+1 frihedsgrader under H 0. Hvis β 0 = 0 tester man uafhængighed af x og y værdierne. Vedr. s 01 2 se følgende. Bemærk igen at skæring med y-aksen er Bemærk at

Kvadratsumsopspaltning : SSDf Inden for grupper SSD 0 f 0 =n-k Omkring linjen SSD 1 f 1 =k-2 Regressions- linjen SSD 2 f 2 =1 TotalSSDf=n-1 Testet for H 1 : lineær regression er som er F(k-2,n-k) fordelt. Bemærk, at hvis H 1 accepteres er estimatet for variansen s 01 2 =(SSD 0 +SSD 1 )/(f 0 +f 1 ) Testet for H 2 : β = 0 fuldstændig homogenitet er som er F(1, n-2) fordelt. Modelkontrol: Det skal undersøges, at for hvert k kan observarionsrækken y ij, j=1,2..n i anses for normalfordelt

Eksempel: Nedenstående tabel viser logaritmen til trækstyrken (kg/cm 2 ) og den reciprokke hærdningstid ( dage) for nogle cementstykker: dage måling nr. Træk.styrke log reciprok dag 1113,001,1141, ,301,1241, ,801,0721, ,901,3400, ,501,3890, ,701,3930, ,801,4740, ,001,4470, ,101,3820, ,201,3840, ,201,4180, ,401,5110, ,401,4830, ,501,5380, ,101,5200, ,701,5530, ,801,6210, ,601,6290, ,301,6050, ,701,5530, ,301,5720,036 Først en grafisk undersøgelse:

Som det ses er der tale om en pæn lineær Sammenhæng. Lad y ij betegne log(trækstyrke) og x i den reciprokke hærdningstid. n = 21, k = 5 0 Klik Analyze → Compare Means → One-Way Anova →

SSD 0 Herefter skal der foretages en lineær regression. Tast Analyze → Regression → Linear og man får Accept af varianshomogenitet.

SSD 0 +SSD 1 Test for linearitet som accepteres. Skæring med y-aksen

Videregående regressionsanalyse : Model: Antag at Y i for i = 1 til k er uafhængige N(μ i, σ 2 ) -fordelte således at,hvor x ij ’erne er kendte værdier og β j ’erne ukendte parametre. Dette kan formuleres med matricer: Og lad være et underrum. Estimaterne bliver og lad betegne observationerne. Ofte sættes første søjle i X til 1-taller således, at β 1 er det generelle niveau.

Eksempel : Indianere i Peru Æ ndringer i menneskers livsbetingelser kan give sig udslag i fysiologiske æ ndringer, eksempelvis i æ ndret blodtryk. En gruppe antropologer unders ø gte hvordan blodtrykket æ ndrer sig hos peruvianske indianere der flyttes fra deres oprindelige primitive samfund i de h ø je Andesbjerge til den s å kaldte civilisation, dvs. storbyen, der i ø vrigt ligger i langt mindre h ø jde over havets overflade end deres oprindelig bop æ l (Davin (1975), her citeret e er Ryan et al. (1976)). Antropologerne udvalgte en stikpr ø ve p å 39 m æ nd over 21 å r der havde underg å et en s å dan flytning. P å hver af disse m å ltes blodtrykket (det systoliske og det diastoliske) samt en r æ kke baggrundsvariable, heriblandt alder, antal å r siden flytningen, h ø jde, v æ gt og puls. Desuden har man udregnet endnu en baggrundsvariabel, nemlig » br ø kdel af livet levet i de nye omgivelser «, dvs. antal å r siden flytning divideret med nuv æ rende alder. Man forestillede sig at denne baggrundsvariabel kunne have stor » forklaringsevne «.

Her vil vi ikke se p å hele talmaterialet, men kun p å blodtrykket (det systoliske) der skal optr æ de som y-variabel, og p å de to x-variable br ø kdel af livet i de nye omgivelser og v æ gt. Disse er angivet i tabel 11.8 (fra Ryan et al. (1976)). 1. Antropologerne mente at x2, br ø kdel levet i de nye omgivelser, var et godt m å l for hvor l æ nge personerne havde levet i de civiliserede omgivelser, og at det derfor m å tte v æ re interessant at se om x2 kunne forklare variationen i blodtrykket y. F ø rste skridt kunne derfor v æ re at estimere en simpel line æ r regressionsmodel med x2 som forklarende variabel. G ø r det! 2. Hvis man i et koordinatsystem afs æ tter y mod x2, viser det sig imidlertid at det faktisk ikke virker s æ rlig rimeligt at h æ vde at (middelv æ rdien af) y afh æ nger line æ rt af x2. Derfor m å man give sig til at overveje om andre af de m å lte baggrundsvariable med fordel kan inddrages. Nu ved man at en persons v æ gt har betydning for den p å g æ ldendes blodtryk, s å n æ ste modelforslag kunne v æ re en multipel regressionsmodel med b å de x2 og x3 som forklarende variable. I SPSS indtastes dataene således: (hvis man ikke havde 1-tallene vil SPSS give det samme) y x1 x2 x ,04871, ,27356, ,20856, ,04261, ,04065,0 Osv. Tast Analyze → Regression → Linear

Eksempel : Indianerne i Peru ( se opgaveark) s2s2 test for lig 0 Alle test for βi = 0 er signifikante.

Modelkontrol : Der laves først simple grafer over sammenhæng mellem y’erne og x2’erne og derpå x3’erne. Der er ikke overbevisende lineær sammenhæng. Parametrene i den multiple regression estimeres og de forventede værdier og residuerene beregnes :klik yderligere på Save og sæt flueben somvist. Sammenhænget mellem forventet og observeret er ikke overbevisende men acceptabelt. Residuerene undersøges: Det accepteres, at residuerne kan anses for normalfordelte, men det er ikke flot.