Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Eksamensopgave i statistik for FSV-kandidatstuderende – maj 2002

Lignende præsentationer


Præsentationer af emnet: "Eksamensopgave i statistik for FSV-kandidatstuderende – maj 2002"— Præsentationens transcript:

1 Eksamensopgave i statistik for FSV-kandidatstuderende – maj 2002
d. 28. oktober Volkert Siersma

2 Eksamensopgave 2 uger Max. 30 sider
Det skal gøres hurtigere nu at vi har kun to timer. Til gengæld skal vi ikke holde tilbage med at se på tabeller og figurer for at underbygge vores valg.

3 Eksamensopgave For at belyse, hvorledes koncentrationen af et bestemt væksthormon afhænger af køn, alder, BMI og kønsmodning blev der i begyndelsen af 90’erne indsamlet oplysninger om koncentrationen af dette hormon blandt sunde danske børn, unge og voksne. Men vores formål i denne opgaven er lidt anderledes…

4 Eksamensopgave En statistisk standard er en statistisk model, der viser hvorledes et bestemt forhold varierer inden for en bestemt population, således at man ud fra denne model kan vurdere, om konkrete observerede værdier er påfaldende.  Det overordnede formål med denne opgave er at udarbejde en sådan standard ud fra hvilken man med udgangspunkt i køn, alder, BMI, menarche, testikelvolumen og pubertet kan vurdere, om en person har et usædvanligt lavt eller højt hormon niveau. I skal lave en model der beskriver, hvorledes hormon koncentrationen afhænger af ovennævnte faktorer, således at man efterfølgende kan beregne grænseværdier, der afgrænser en passende lille andel – f.eks. 5 % - af populationen med påfaldende lave eller høje hormon koncentrationer.

5 Statistiske modeller All models are wrong; some models are useful – George Box (Statistiske) modeller er simplificeringer af virkeligheden. De bruges til at fremhave bestemte tendenser der har forskningsinteresse (og ignorere andre tendenser der ikke er vigtig for formålet). Modellerne bliver kalibreret med data der er observeret fra processen; denne kalibrering er ofte formålet med modelbygningen!

6 To formål Inferens – Har alder betydning for hormonniveauet?
Prediktion – Hvad er hormonniveauet for en given alder? Modeller er nok af samme type, men hvilken modelantagelser er særlig vigtige kommer an på formål.

7 Generelle lineære modeller (GLM)
Modeller for kvantitative afhængige variabler Generelle – flere uafhængige variabler Kvantitative: også transformationer heraf Kategoriske: dummy variabler Vekselvirkninger: produkt af variabler Lineære – middelværdi af den afhængige variable er en såkaldt lineær form: E(Y| X1,..,Xk) = f(X1,..,Xk) =

8 Antagelser GLM Residualerne er normaltfordelte
Varians af residualerne er homogen Effekterne er lineære Hvad betyder analysens formål for analysen og hvor vigtig antagelserne er i begge tilfælde?

9 Formål: inferens Har alder en effekt på hormon niveau?
Test om en eller flere parametre (beta) i den lineære form er lig med 0. Varianshomogenitet er vigtig, men residualerne kræves ikke normaltfordelte; hvis vi har data nok giver CLT nok den rigtige fordelinger af teststørrelser.

10 Formål: prædiktion Hvad er hormonniveauet for en given alder?
Ønsket er en beskrivelse af fordelingen af hormon niveauet for given alder. Hvis vi har varianshomogenitet og normalt fordelte residualerne kan vi bygge en 95% referenceinterval for hver alder.

11 Ang. Lineære effekter Det kraves at den lineære form er en godt beskrivelse af middelværdien, ikke at alle variabler indgår bare som kvantitativ hovedeffekt. Hvis hormonniveauet stiger først med alder og så afflader til bestemt niveau, så er måske effekten af log(alder) lineær.

12 Ang. Lineære effekter Hvis man ikke vil tænke så meget hvilken transformation kræves for linearitet, så kan man lade data tale: Lav en kvantitativ variabel om i en kategorisk variabel Tilføj X i anden, X i tredje, X i fjerde, etc. til analysen: X indgår som en polynom. Snedig valgte funktioner: kernel smoothers splines, wavelets

13 Analysestrategi (Svend) Se på de enkelte variabler og på relationer mellem hormon og variabler for at finde ud hvad modellen skal indeholde, byg så modellen. (Alternativ) Byg en model, se om de vigtige antagelser holder eller om den kan forbedres; lav så en bedre model. Skal indeholde elementer fra begge…

14 Analysestrategi Enkelte variabler – er der problemer?
Variabler og hormon – gode ideer til modelbygning. Saml variabler i én model og tilføj/fjern elementer til forbedring. Normalfordelte residualerne Varianshomogenitet Bedre prædiktion (…)

15 Ang. Bedre prædiktion Hvis vi tilføjer elementer i vores model bliver vores fit – f-eks. R2 – bedre (per definition). I en model med for mange elementer går vigtige tendenser tabt til fordel for fit. Vores formål skal være den bedste fit med mindst mulig model elementer/parametre. (Akaike) AIC=2k-n*[log(2πRSS/n) +1] (k=# parametre, n=# data) mindst er bedst.

16 Enkelte variabler

17 Enkelte variabler For mange er der ingen hormon niveau. Vi håber at det er tilfældigt, og at det ikke betyder at niveauet er så lavt at det ikke kan måles… Testikelvolumen er bare for drenge, og menarche er bare for piger. Endvidere skal vi i trin 3 opdele analyser i tre pubertets stadier: så får vi 6 modeller til sidst!

18 Hormon

19 Hormon Ikke normalt fordelt; men det behøver den heller ikke at være.
To ”topper”: to køn? Lidt langt hale til højre Ser ikke mærkeligt ud umiddelbart

20 Hormon og alder

21 Hormon og alder SPSS har en facilitet at plotte den bedste lineære, kvadratiske og kubiske fit i en plot (lav en graph med legacy dialogs og åben så chart fra outputtet, en line fit kan indlægges) Fit bliver (lidt) bedre jo højere grad polynom Variansen stiger med alderen: variansheterogenitet. Forsøg med logaritme af hormon niveau.

22 Transformationer Især hvis der er variansheterogenitet kan det hjælpe at modellere en transformation af den afhængige variable Y i stedet for Y selv. Hvis variansen stiger når værdier (>0) er større (ligesom i hormon data), så er en log(Y) en oplagt valg; parametre kan interpreteres: exp(β) gange mere hormon når alder stiger med 1. Andre transformationer: f.eks. Box-Cox

23 lnHormon Virker ikke dårligere end hormon. Hale er nu til venstre.

24 lnHormon og alder

25 lnHormon og alder Mere varianshomogen end før
Virker som en kvadratisk sammenhæng i første omgang.

26 lnHormon og køn Variansheterogenitet, også efter log-transformationen. Men vi skal se hvad der sker når alder bliver inddraget; og vi skal senere alligevel dele data op for køn.

27 First model lnHormon = sex + alder + alder2
Levene’s test: ingen variansheterogenitet mellem ”groups” (her: køn) Plot predicted mod (std.) residuals for at belyse andre former for variansheterogenitet P-P plot eller Kolmogorov-Smirnov test for at se på residualernes normalitet

28 Levene’s test OK

29 Varianshomogenitet og alder
OK

30 Varianshomogenitet og niveau
OK

31 Normalitet af residualerne
OK

32 Normalitet af residualerne
OK 1-sample K-S test findes under Analyze - Non-parametric tests

33 Forbedringer? De vigtigste antagelser er i orden i vores første model
Mulige forbedringer: Højere orden polynom for alder Vekselvirkning alder og køn (så skal vi inkludere en vekselvirkning af køn med alle alder-elementer: alder, alder i anden, alder i tredje, etc.) Idet vi ikke er interesseret i hvordan alder virker, men i prædiktionen er signifikans ikke så vigtig; men vi skal undgå overfitting!

34 Anden model lnHormon = køn + alder + alder2 + alder3 + køn*alder + køn*alder2 + køn*alder3 Levene’s test OK Residuals vs. Predicted, alder OK P-P plot, K-S test OK Vekselvirkninger kan måske fjernes (ikke signifikante); vi har ikke mange parametre i modellen og vi kan være rundhåndet med model elementer. Se på AIC: valg den med laveste værdi.

35 BMI BMI = vægt (kg) / højde (m) i anden
Er måske ikke en særlig intuitivt variabel for børn; især ikke i puberteten. Skal ses som en integreret højde/vægt variabel.

36 lnHormon og BMI Kvadratisk fit ser ud til at være bedst

37 Tredje model lnHormon = køn + alder + alder2 + alder3 + køn*alder + køn*alder2 + køn*alder3 + bmi + bmi2 + køn*bmi + køn*bmi2 R2 er blevet mindre i forhold til sidste model. Der er fordi vi skulle smide nogle observationer ud fordi vi manglede højde eller vægt målinger. For at kunne sammenligne R2 eller AIC skulle vi haft smidt ud alle observationer med manglede værdier fra begyndelsen af for at basere dem på samme mænge data.

38 Tredje model All model checks OK Forbedringer:
Tilføje alder/BMI vekselvirkning Tilføje alder/bmi/køn vekselvirkning Tilføje højre ordens polynom for bmi Så bliver modellen stor…

39 Fjerde model lnHormon = køn + alder + alder2 + alder3 + køn*alder + køn*alder2 + køn*alder3 + bmi + bmi2 + køn*bmi + køn*bmi2 + alder*bmi + alder2*bmi + alder3*bmi + alder*bmi2 +alder2*bmi2 + alder3*bmi2 + køn*alder*bmi + køn*alder2*bmi + køn*alder3*bmi + køn*alder*bmi2 +køn*alder2*bmi2 + køn*alder3*bmi2 Vi vælger ikke at inkludere bmi3 Stadig ikke særlig stor model

40 Fjerde model Det er ikke så vigtig at modellen er lille eller at vi kan forstå effekt parametre: formålet er prædiktion. AIC kan sammenlignes med AIC fra tredje model, lav om nødvendigt modellen mindre.

41 Testikelvolumen Kun for drenge
Virker lidt mærkeligt, næsten kategorisk, med mange tæt på 0

42 Testikelvolumen og pubertet
Testikelvolumen er ikke vigtig i præpuberteten!

43 lnHormon og testikelvolumen
Kvadratisk, men ikke i præpuberteten.

44 Menarche Kun for piger

45 Menarche og pubertet Bare interessant in puberteten selv, ikke i præpubertet eller postpubertet Kategorisk variabel

46 lnHormon og Menarche Variansheterogenitet, også efter log-transformation

47 Seks modeller Lav menarche om: Lav testikelvolumnen om:
Lav en ny variabel men=menarche Recode into same sådan at alle drenge får men=1 Recode into same sådan at alle piger ikke i puberteten får men=1 Lav testikelvolumnen om: Lav en ny variabel tes=testvol Recode into same sådan at alle piger får tes=0 Recode into same sådan at alle drenge i præpuberteten får tes=0 Split data ved køn og pubertet

48 Seks modeller… Vores omkodning laver at vi har fjernet effekter af testikelvolumen og menarche hvor vi ikke forventer dem. Vi kan ikke nemt fjerne variabler fra de enkelte analyser med split data Grupperne er ikke så store, så vi skal være forsigtig med alt for store modeller

49 En nem model lnHormon = alder + alder2 + alder3 + bmi + bmi2 + tes + tes2 + men Antagelser ikke OK ved kvinder i pubertet: levene’s test signifikant og P-P plot ikke smuk. Tilføj men/alder vekselvirkning: ikke OK Tilføj men/bmi vekselvirkning: Levene OK, P-P plot ikke smuk.

50 Seks modeller Det virker ikke særlig bekvemt at køre seks modeller og at gennemse resultaterne hver gang én af modellerne skal tilpasses. Helst skal modellerne ses efter en efter en. Det ser ud at piger i puberteten er de vanskeligste at lave en statistisk standard for. Den kan kun med meget velvilje godtages.


Download ppt "Eksamensopgave i statistik for FSV-kandidatstuderende – maj 2002"

Lignende præsentationer


Annoncer fra Google