Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech.

Lignende præsentationer


Præsentationer af emnet: "Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech."— Præsentationens transcript:

1 Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech

2 Agenda Audiotory Interfaces Speech recognition & artificial speech Types of SUI / VUI Design challenges Multimodal UI’s Technologies

3 Where might it be used? Others? TomTom GO 720 See and Hear Tom Tom

4 Audiotory Interfaces Use a different sense than visual Most often used for feedback -> multimodal Tactile feedback replacement Familiar sounds: Auditory icons Abstract sounds: Earcons 3D Sound support drivers & pilots

5 When is speech input appropriate?

6 When is speech output appropriate

7 Vocabulary size (number of words) S p e a k i n g s t y l e Spontaneous speech Fluent speech Read speech Connected speech Isolated words 220200200020000 Unrestricted t messaging Requires more advancecd platforms Stor PC i dag Speech Technologies

8 Enkelt bruger - lille ordforråd Ring til banken ! Talestyret opkald. Kendes fra fx mobiltelefoner med indbygget talegenkendelse (mønstergenkendelse) Skal trænes af den enkelte bruger med det aktuelle ordforråd. Dynamic Time Warping - DTW (simpel mønstergenkendelse)

9 Enkelt bruger - stort ordforråd Kære Anton Det var vel nok dejligt... Kære Anton Det var vel nok dejligt... Dikteringsprogrammer - foreløbigt kun til hovedsprogene i gratis udgaver. Systemet skal trænes med tale (typiske formuleringer)

10 Mange brugere - stort ordforråd Det koster 4 kr og 50 ører i minuttet at ringe til Spanien.. Hvad koster det at ringe til Spanien Dialogsystemer med talegenkendelse. Skal kunne betjenes af alle -> ingen træning Kræver meget processorkraft Kræver avanceret dialogdesign Er meget svært at lave ordentligt Øvelse: bemærk hvordan det håndteres her: - http://userportal.iha.dk/~sw/kurser/brga/ressourcer/opkaldTil1811.wavhttp://userportal.iha.dk/~sw/kurser/brga/ressourcer/opkaldTil1811.wav

11 Udfordringer i VUI design Forbigående oplysninger: ”Hvad sagde du/den?” ”Recognition over Recall” – vi kan kun overskue 5-9 elementer Usynlighed: ”Hvad kan jeg sige nu?” (- mappings) Asymmetri Kvalitet Lange lister er kedelige tidsrøvere Kalenderprogrammer bruger absolutte datoer – mennesker bruger tit relative Menuer gør funktionalitet synlig for brugeren i en GUI – ikke muligt i en VUI Talegenkendelsens kvalitet Talesyntesens kvalitet

12 ...i over-morgen På onsdag 14 dage... Sidst på ugen... Midten af november... I uge 13...  Lidt over ti Kvart over tre – godt og vel Fem minutter over halv seks Sytten tredive Middag Efter- middag

13 Design af stemmestyring (1/3) Feedback og ventetid Pauser til processering forvirrer brugeren Tale er en langsom måde at videregive informationer Behov for feedback på handlinger Bekræftelse af fremsøgte data ”Var det den?” Bekræftelse af handlinger der ændrer data ”Vil du gemme denne?” ”Vil du slette denne?”

14 Design af stemmestyring (2/3) At spørge om det rigtige… Afvejning mellem fleksibilitet og præcision Få svarmuligheder => bedre genkendelse Eksplicitte spørgsmål begrænser brugeren –”Sig ja, nej eller afbryd” Implicitte spørgsmål tillader fleksibelt input –Bruger: ”Send mail til Kurt” –System: ”Mener du Kurt Thorsen eller Kurt Ravn? Trinvise spørgsmål kan øge hastigheden for eksperter og hjælpe begynderen

15 Multimodal Interaction Devices Ikke nødvendigvis GUI eller VUI Brug af flere modaliteter: Multimodal Eksempel: Jagerfly Traditional ”joystick” + Panel keyboard Magnetic Head Tracker 360° HUD display (X-Ray Vision Helmet) 3D audio kommunikations & advarsels lydsystem Speech recognition software Eksempel Sony Ericsson P800/P900 Regular key pad classic cell phone data entry Touch Screen write recognition & virtual QWERTY Display for browsing, pictures, messages Sound interface for notification Simple voice command for placing calls

16 Hermes – multimodal robot Voice Controlled Multimodal Almost doubling efficiency of surgeons Trained for individual voices Will only accept commands from selected individual Exercise: how does this relate to today’s lesson?

17 User Studies Natural Dialog Studies Wizard-of-Oz Studies ”Normal” Usability Studies

18 Technologies Available Custom-made recognizers ASR and TTS VoiceXML / SALT For use over the Internet Microsoft Speech API 5.1 (COM component) For use with Windows PC’s Enables C++ and.NET programming Windows Vista – System.Speech VISTA / 7 / (XP?) Loquendo : Danish and other languages ASR and TTS VISTA / 7 / XP / Windows CE Java / Win32 C++ / C#? Nuance (Dragon Natural Speaking)

19 VoiceXML vs (X)HTML Vælg mellem Nyheder, Vejret eller Sport. [ nyheder vejret sport ] Vælg sektion Nyheder Vejret Sport

20 Læringsmåls alignment Når kurset er færdigt forventes den studerende at kunne: Definere og beskrive forskellige typer af brugergrænseflader til apparater og computere Definere og beskrive gængse teorier, metoder og retningslinier indenfor menneske- maskin-interaktion og anvende disse til at lave en brugervenlig brugergrænseflade til et givet apparat Designe og konstruere brugergrænsefladesoftware til udvalgte typer af brugergrænseflader Udfordringer og Anbefalinger ved Kunstig tale og talegenkendelse er gennemgået


Download ppt "Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech."

Lignende præsentationer


Annoncer fra Google