Eksperimentel metode.

Slides:



Advertisements
Lignende præsentationer
Hvordan navigerer lederen?
Advertisements

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Hypotese test – kapitel 6 (Signifikans test)
Dagens program Kursusevaluering Information Spørgsmål om eksamen
Anvendt Statistik Lektion 4
Afsætning og matematik Eksemplificeret ved materiale fra STELTON
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Kvantitative metoder. Indsamlingsflow 4-ugers projekt 03 Web-popup på på dagligvarekoncerns hjemmeside som led i større Usability test Spurgte om: –køn,
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Input FMEA Output Shit in = Shit out FMEA
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Anvendt Statistik Lektion 6
Psykologi, Human Factors og HCI
Eksperimentel metode John Paulin Hansen ITC, Usability F2003.
Biostatistics mm5 SPSS crash course II. But why? Hvorfor læser vi videnskabelig litteratur? Hvordan læser vi?
Case.
Statistik Lektion 5 Log-lineære modeller.
AT8 3a 2010.
Økonometri 1: Dummy variable
Signifikanstest ved (en eller) to stikprøver
1 Dagens program 1.Information –Klaus’ frokost: 11:45-12:30, går 13:15. –Winston Churchill –Sidste forelæsning (19/11): Eksamen, kursus- evaluering, eksperimentelt.
Økonometri 1 Gentagne tværsnit og panel data I. 2 Gentagne tværsnit og paneldata: Oversigt Observationer over individuelle enheder og tid: Wooldridge.
Dagens program 1.Information Alle projekter er godkendt Sumkurve 2.Opsamling T-test 3.Variansanalyse (one-way) ANOVA 4.Intro til projekt 3 (Excels LOPSLAG.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Anvendt Statistik Lektion 9
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Økonometri 1 Gentagne tværsnit og panel data I 13. november 2006.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Mobil Usability , ITU. Spørgsmål jeg gerne vil høre: ”Det gik lidt hurtigt, kan du ikke gentage?” ”Kan du ikke snakke lidt langsommere?” ”Skruer.
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Kvantitative metoder.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Statistik Lektion 8 Test for ens varians.
Kvantitative metoder 2: F31 Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Eksperimentel metode HUSK HOVEDTELEFONER!. Den eksperimentelle metode Måler effekten af systematiske ændringer i uafhængige variable på den afhængige.
Eksperimentel metode John Paulin Hansen ITC, Usability F2004.
Normalfordelingen og Stikprøvefordelinger
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 27. februar 2003.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Viden kan være erfaringsbaseret eller forskningsbaseret
Den multiple regressionsmodel 21. september 2005
Videnskabeligt projekt
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Niveau 2: Hypotesetestning
Anvendt Statistik Lektion 4
Program – dag 2 (11. april 2011) Dag 2:
Anvendt Statistik Lektion 6
Titel på videnskabeligt projekt
Videnskabeligt projekt
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Eksperimentel metode

Den eksperimentelle metode Måler effekten af systematiske ændringer i uafhængige variable på den afhængige variabel - mens alle andre variable holdes konstant Både i laboratoriet og i den virkelige verden Psykologien har ofte søgt at studere menneskelig adfærd i ”rene og kontekst-afhængige” situationer. Eksempel: Hukommelse for meningsløse stavelser - samarbejdsprocesser i samling af abstrakte puslespil. Human factors ser mennesket og maskinen/systemet som en integreret analyseenhed, der ikke kan adskilles. - menneskelig adfærd påvirker design - og designet påvirker den menneskelige adfærd Basic research: Udviklingen af teorier, principper og fund som kan generaliseres over en række forskellige mennesker, opgaver og situationer (power law of learning) Applied research: vedrører det, som er specifikt for bestemte mennesker, opgaver eller situationer Kontinium mellem basic og applied research Kan være svært at anvende basic research på konkrete problemer og omvendt svært at generalisere fra appliede research undersøgelser - design af remote kontrol - kan det også bruges på et web-baseret kontrolpanel til web-tv? Eksperimentelle metode: teknisk set den eneste måde der kan etableres en årsags-virkning sammenhæng - og eksperimenter er standarden, hvormed andre metoder vurderes Analogi: Medicinsk forskning - alternativ medicin

Variable i spøgelses eksperimentet Afhængige: reaktions-tid fejl-rate genkendte spøgelser Subjektive ratings på spørgeskema Uafhængige: animation eller blink normal eller forvrænget perspektiv

5 trin i et eksperiment 1. Definer problem og hypotese 2. Opstil den eksperimentelle procedure 3. Udfør eksperimentet 4. Analyser data 5. Uddrag konklusioner Kommer til at lave lille øvelser hvor 1 - 2 gennemløbes Eksempel: Skiftende dag- og nattevagter påvirker fejlrisikoen Hvad forstås ved skiftende nattevagter - hvordan måles fejlrisikoen Ofte se videnskabelige artikler som er struktureret som: Problem Experimental design Procedure Data analysis conclusions

Eksperimentelle designs Two-group design: Eksperimentel gruppe og kontrolgruppe Multiple group designs: Evaluere flere niveauer af den uafhængige variabel Factorial design: kombinerer flere niveauer af to (eller flere) forskellige uafhængige variable Between-subjects:to forskellige forsøgsgrupper Within-subjects: samme person oplever alle niveauer af den uafhængige variable Mixed design: bruger between-subjects på en uafhængig variabel i et et factorielt design og with-in på en anden uafhængig variabel Eksempel: taler i mobiltelefon mens man kører vs. Bare kører Måler afvigelsen af optimal vejbane Flere nvieauer: eksempelvis håndholdt mobiltelefon eller mobiltelefon med mikrofon og højtaleranlæg i bilen Faktorielt design: eksempelvis påvirkningen på kørefærdigheder i let og svær trafik af henholdsvis kontrolgruppe, håndholdt mobiltelefon og mobiltelefon monteret i bilen (3x2) Mere kompliceret: kommunikationstype (3 niveauer) x trafikcondition (2 niveauer) x belastning v. kommunikation (svar/respons eller spørgsmål/opkald ) 2 niveauer x tidsbinding 2 nviauer (variabel tid - hurtigst muligt) Between subjects: forskellige forsøgspersoner i alle grupper Within-subjects: samme personer prøver alle konditioner Mi

Design 2x2x2

SMS forsøg Ordbog Tap-tap sidde gå kno N= 4 SE= 0,9 WPM= 21,2 N= 7 Coefficients of: WPM on int*sym Level of int*sym Coefficient std. err. t Ratio prob mt,gå 1,610 1,057 1,523 0,1361 mt,kno 1,477 0,8265 1,787 0,0819 mt,sidde -3,087 0,9889 -3,122 0,0034 Ordbog,gå -1,610 1,057 -1,523 0,1361 Ordbog,kno -1,477 0,8265 -1,787 0,0819 Ordbog,sidde 3,087 0,9889 3,122 0,0034

Normalfordelt?

Input-betingelser

System-betingelser

Interaktionseffekt

Signifikans signifikante forskelle er over 6 wpm Difference std. err. Prob Ordbog,gå - mt,kno 6,67879 2,583 0,045951 Ordbog,sidde - mt,gå 9,90000 2,559 0,001822 Ordbog,sidde - mt,kno 14,7455 2,315 0,000001 Ordbog,sidde - mt,sidde 11,2286 2,485 0,000283 Ordbog,sidde - Ordbog,gå 8,06667 3,028 0,038671 Ordbog,sidde - Ordbog,kno 12,6462 2,267 0,000012 Difference std. err. Prob Ordbog,gå - mt,kno 6,67879 2,583 0,045951 Ordbog,sidde - mt,gå 9,90000 2,559 0,001822 Ordbog,sidde - mt,kno 14,7455 2,315 0,000001 Ordbog,sidde - mt,sidde 11,2286 2,485 0,000283 Ordbog,sidde - Ordbog,gå 8,06667 3,028 0,038671 Ordbog,sidde - Ordbog,kno 12,6462 2,267 0,000012

Kommunikationshastigheder

Mange slags afhængige variable Ofte flere i samme forsøg Typer: Opgavetid, antal rigtige, antal fejl, præcision, antal falske alarmer, subjektive skalavurderinger, hjerterytme, galvanisk hud respons, pupilreaktioner, reaktionstid på secondary task, stresshormoner i blod, ekspertvurderinger af præstationer m.fl. Eksempelvis både måle afvigelser fra optimal rute og antal opbremsninger og antal fejlsvar i opgave

Eksperimentel planlægning Udstyr Deltagere Kontrol af andre variable - eg. ved tilfældig fordeling af opgaver til subjekter fra en homogen gruppe eller fra en stor gruppe med normal diversitet Neutraliser rækkefølge-effekten Ikke have alle ældre i en gruppe og yngre i en anden - Neutralisering Counterbalancing (mod-balancering halvdelen først den ene og så den anden)

Eksempel: Mate

Eksperimentet udføres Lav et pilot-forsøg for at sikre, at der ikke sker uventede ting Gennemfør forsøget med nøjagtig samme betingelser (eller stop det og lav et nyt forsøg) Sørg for at tjekke kalibrering af måleudstyr undervejs Overhold alle etiske regler

Data analyse Deskriptiv statistik: gennemsnit og standard fejlen Statistiske analyser: T-test for two-group design Anova hvis der er mere end to grupper Udregner sandsynlighed for, at den fundne forskelle er tilfældige (p<0.05) Type I fejl og type II fejl Type 1 fejl: forekommer hver 20 gang - derfor ofte kræve eksempelvis 0.0005 hvis det er et spørgsmål om liv og død Kan ikke få artikler antaget til tidsskrifter eller konferencer hvis p er mere end 0.05 Type 2 fejl: man konkluderer at en uafhængig variabel ikke havde effekt, hvor den faktisk havde det! - sker ofte hvis man bruger et lavt antal forsøgspersoner, som svækker statistikkens udsigelseskraft Eksempel med kræftmedicin der kun viser en o.20 effekt - hvad gør man? Finder ud af om der er behov for flere subjekter - om der er en bagvedliggende faktor, som kan forklare den ringe effekt (eksempelvis at der er rigtig god effekt for nogle kræftformer, men ikke for andre) m.m. Meta-analyser - sammenligner resultater og udsigelseskraft ved de statistiske metoder der er anvendt - eg COCHRANE-center opkaldt efter opfinderen af metoden. Statistisk signifikans versus praktisk signifikans - lille, signifikant forskel ved en medicinsk behandling, men for lille og for dyr til, at man vil indføre den på landsplan.

Beskrivende metoder Målinger i den virkelige verden Fx. fra web log filer Hastighedsmålinger i trafikken Udvikle taxonomi til at score observationer Ofte videooptagelser der scores Opinionsmålinger og spørgeskema-undersøgelser Fra selvadministrerede til strukturerede interviews Hændelsesanalyser Ulykkesrapporter og indberetninger i databaser Aviation safety reporting systems (ASRS) hos NASA har mere end 30.000 hændelser i databasen

Dataanalyse ved beskrivende metoder Gruppeforskelle - ANOVA Relationer mellem kontinuerlige variable (korrelationskoefficient (r)) Komplekse modeller - kendes fx. fra makroøkonomiske modeller Modeller kan være konceptuelle eller det kan være matematiske ligninger, vægte i et netværk m.m. Eksempel ”COMBIMAN” som er en matematisk model for den menneskelige fysiognomi Navigatørmodel til skibssimulatorer Korrelationskofficienter - pas på med at konkludere, at der er en årsags-virkningssammenhæng Klassisk eksempel: antal solgte is korrellerer med antal badeulykker (r= 0.8, p=0.005)

Målinger af variable Hvordan måler man den mentale arbejdsbelastning ? Ikke bare tælle samtidige arbejdsopgaver, for nogen af dem kan være automatiseret I stedet har man fx. brugt: Subjektive angivelser Præstationsmålinger Fysiologiske målinger (hjernebølgeaktivitet og hjerterymer) Secondary task metoden

Objektive versus subjektive målinger Objektive målinger som fx. præstationer, fysiologiske data er efter manges mening bedre end subjektive angivelser I HCI forskning kan computeren samle enorme mængder af objektive data - men hvad siger de? Ofte fundet af subjektive data er de bedste til at forudsige senere reaktioner eller adfærd Det er ofte nemmere at indsamle subjektive data

Kvalitetskriterier for human factors forskning (1) Konstruktionsvaliditet: Manipulerede man den variabel man ville og målte man den rigtige afhængige variabel (er forsøgspersonerne virkelig trætte i et eksperiment om sammenhæng mellem fejlhyppighed og træthed) Intern validitet: Er det KUN de kausale variable der har været i spil?

Kvalitetskriterier for human factors forskning Ekstern validitet: Kan de fundne resultater bruges udenfor den eksperimentelle situation - er præmisserne beskrevet så klart, at de umiddelbart kan generaliseres? Etisk korrekthed: Har forsøgspersonerne været skånet for fysisk og psykisk overlast, er deres anonymitet bevaret, er de frivillige og har de vidst hvad de gik ind til? Etik: Fra brugertest til brugervenligheds-tests Tilføje et etiks punkt: At deltagerne debriefes og/eller sikres informationer om undersøgelsens resultater - gode grunde hertil, eksempelvis i organisationer

Simulations and Experiments

Danish experiment

Japanese experiment

Typing speed, 12 Danish student subjects Input: PC-mouse Smart Nav head tracker Quickglance eye tracker Design: 12 sentences in each block by 3 devices (counterbalanced) in two days Results: Learning effect for head and gaze Mouse is fastest No difference between head and gaze input

Typing speed, 15 Japanese student subjects Input: PC-mouse Smart Nav head tracker Quickglance eye tracker Design: 12 sentences (including Kanji characters) by 3 devices (counterbalanced) in two days Results: Learning effect Mouse is fastest No difference between head and gaze input

Errors Significant most errors for gaze typing Danish subjects made much more errors than Japanese subjects Significant drop in errors for head and gaze typing from day one to day two

Comments from novice users of gaze dwell time typing: ”A bit difficult to get used to not dwelling at un-intended buttons ..” ”Difficult to orient yourself without activating something” ”It can be hard to keep starring at the buttons you want”

Subjective ratings, Danish & Japanese subjects

15 minutters opgave: Forsøgsdesign 1. Bliver man dårligere til at stave almindeligt dansk, når man benytter automatisk stavekontrol? 2. Hjælper det på effektiviteten af en fly-evakuering, at besætningen instruerer om nødprocedurer før take off ? 3. Har advarsler på tobaksannoncer nogen effekt på rygere ? 4. Hvad er den ideelle placering af knap-paneler på en hjemmeside: for oven, til venstre eller andre steder ? 5. Hvordan afbilder man mest effektivt et web-steds struktur med en knap-struktur ? 6. Hvad har størst betydning for om brugere kan huske en hjemmeside de har besøgt