Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech.

Lignende præsentationer


Præsentationer af emnet: "Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech."— Præsentationens transcript:

1 Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech

2 Ingeniørhøjskolen i Århus Slide 2 af 26 Agenda Audiotory Interfaces Speech recognition & artificial speech Types of SUI Design challenges Multimodal UI’s Technologies

3 Ingeniørhøjskolen i Århus Slide 3 af 26 Hermes

4 Ingeniørhøjskolen i Århus Slide 4 af 26 Speech & Auditory Interfaces Usage –Sound is used extensively for feedback, both speech and sound effects along with other interaction devices –When users have vision/movement impairments, users with hands or eyes occupied with other tasks, or if cramped/harsh conditions makes other input devices inappropriate –Speech generation (artificial speech): used e.g. in GPS-based navigation systems (“turn right next”) –Speech recognition – in different configurations Pro’s & con’s, qualities & deficiencies –Speech is intuitive for all users –Speech recognition is only slowly gaining acceptance, and quality is still not acceptable for many applications –Takes up no space on device (appliances can be made very small) and does not require the use of hands nor eyes for operation, that is, no direct contact –Slow pace of speech output when compared to visual displays (we read faster than we listen) –Interference from noisy environments renders devices unusable –Unstable recognition across changing environments, users and time

5 Ingeniørhøjskolen i Århus Slide 5 af 26 Audiotory Interfaces Use a different sense than the visual Most often used for feedback -> multimodal Tactile feedback replacement Familiar sounds: –Auditory icons Abstract sounds: –Earcons 3D Sound support drivers & pilots

6 Ingeniørhøjskolen i Århus Slide 6 af 26 When is speech input appropriate?

7 Ingeniørhøjskolen i Århus Slide 7 af 26 When is speech output appropriate

8 Ingeniørhøjskolen i Århus Slide 8 af 26 Where might it be used?

9 Ingeniørhøjskolen i Århus Slide 9 af 26 Speech teknologi Vocabulary size (number of words) S p e a k i n g s t y l e Spontaneous speech Fluent speech Read speech Connected speech Isolated words 220200200020000 Unrestricted t messaging Kræver større processor Pocket PC i dag Stor PC i dag

10 Ingeniørhøjskolen i Århus Slide 10 af 26 Enkelt bruger - lille ordforråd Ring til banken ! Talestyret opkald. Kendes fra fx Mobiltelefoner med indbygget talegenkendelse (mønstergenkendelse) Skal trænes af den enkelte bruger med det aktuelle ordforråd. Der benyttes DTW (simpel mønstergenkendelse)

11 Ingeniørhøjskolen i Århus Slide 11 af 26 Enkelt bruger - stort ordforråd Kære Anette Det var vel nok dejligt... Kære Anette Det var vel nok dejligt... Dikteringsprogrammer - foreløbigt kun til hovedsprogene. Systemet skal trænes med tale og helst også dokumenter (typiske formuleringer)

12 Ingeniørhøjskolen i Århus Slide 12 af 26 Mange brugere - stort ordforråd Det koster 4 kr og 50 ører i minuttet at ringe til Spanien.. Hvad koster det at ringe til Spanien Dialogsystemer med talegenkendelse. Skal kunne betjenes af alle -> ingen træning Kræver meget processorkraft Kræver avanceret dialogdesign

13 Ingeniørhøjskolen i Århus Slide 13 af 26 Udfordringer i VUI design Forbigående oplysninger: ”Hvad sagde du/den?” ”Recognition over Recall” – vi kan kun overskue 5-9 elementer Usynlighed: ”Hvad kan jeg sige nu?” Asymmetri: Hvem siger hvor meget? Lange lister er kedelige tidsrøvere Kalenderprogrammer bruger absolutte datoer – mennesker bruger tit relative Menuer gør funktionalitet synlig for brugeren i en GUI – ikke muligt i en VUI Talegenkendelsens kvalitet Talesyntesens kvalitet

14 Ingeniørhøjskolen i Århus Slide 14 af 26...i over-morgen På onsdag 14 dage... Sidst på ugen... Midten af november... I uge 13... Eksempel: Angivelse af tid  Lidt over ti Kvart over tre – godt og vel Fem minutter over halv seks Sytten tredive Middag Efter- middag

15 Ingeniørhøjskolen i Århus Slide 15 af 26 Design af stemmestyring (1/3) Feedback og ventetid –Pauser til processering forvirrer brugeren –Tale er en langsom måde at videregive informationer –Behov for feedback på handlinger Bekræftelse af fremsøgte data ”Var det den?” Bekræftelse af handlinger der ændrer data ”Vil du gemme denne?” ”Vil du slette denne?”

16 Ingeniørhøjskolen i Århus Slide 16 af 26 Feedback og ventetid (eksempler) Brugeren skal kende nuværende tilstand –”Regner maskinen stadig, eller venter den på at jeg siger noget?” –”Hørte den mig overhovedet? Forstod den det?” Eksplicit feedback –”Vil du betale regningen til TeleDanmark Internet på 1647 kroner? Svar med ja eller nej” Implicit feedback –”For øjeblikket er vejret i Odense blæsende og koldt”

17 Ingeniørhøjskolen i Århus Slide 17 af 26 Design af stemmestyring (2/3) At spørge om det rigtige… –Afvejning mellem fleksibilitet og præcision –Få svarmuligheder => bedre genkendelse Eksplicitte spørgsmål begrænser brugeren Implicitte spørgsmål tillader fleksibelt input Afkortning af spørgsmål Trinvise spørgsmål kan øge hastigheden for eksperter og hjælpe begynderen...på den rigtige måde –Undgå ”min tur / din tur”-forvirring

18 Ingeniørhøjskolen i Århus Slide 18 af 26 At spørge om det rigtige… Eksplicit spørgsmål: –”Sig ja, nej eller afbryd” Implicit spørgsmål: –Bruger: ”Send mail til Kurt” –System: ”Mener du Kurt Thorsen eller Kurt Ravn?

19 Ingeniørhøjskolen i Århus Slide 19 af 26 Fejlhåndtering, eksempler Øget hjælp –”Hvilken dato?” bliver til ”Undskyld, gentag lige det. Gerne lidt tydeligere” bliver til ”Det forstod jeg ikke – prøv at sige datoen som dag-måned-år” Skift til eksplicitte spørgsmål –”Sagde du kassekredit? Svar ja eller nej” –Tillad brug af trykknapper ”Du kan svare ja ved at trykke på ”1”, nej ved at trykke på ”2”

20 Ingeniørhøjskolen i Århus Slide 20 af 26 Multimodal Interaction Devices Many appliances makes use of several interaction devices This helps overcome the inherent weaknesses in the different interactions devices – e.g. use a small screen for displaying prompts, sound for making the user aware, and allowin speech rec for data input As an example both the EuroFighter and the Joint Strike Fighter project relies on a multimodal user interface, including: –Traditional ”joystick” controls –Panel keyboard control –Magnetic Head Tracker –360° X-Ray Vision Helmet (virtual reality?) –360° HUD display –3D audio com & warning sound system –Speech recognition software

21 Ingeniørhøjskolen i Århus Slide 21 af 26 Multimodal Interaction Devices Cell phones – the Sony Ericsson P800 Data entry –Regular key pad classic cell phone data entry –Touch Screen write recognition & virtual QWERTY –Display for browsing, pictures, messages –Sound interface for notification –Simple voice command for placing calls

22 Ingeniørhøjskolen i Århus Slide 22 af 26 Hermes – multimodal robot Voice Controlled Multimodal Almost doubling efficiency of surgeons Trained for individual voices Will only accept commands from selected individual Solves problem

23 Ingeniørhøjskolen i Århus Slide 23 af 26 User studies Natural Dialog Studies Wizard-of-Oz Studies ”Normal” Usability Studies

24 Ingeniørhøjskolen i Århus Slide 24 af 26 Technologies available Custom-made recognizers and TTS –For embedded devices VoiceXML / SALT –For use over the Internet –PC, Windows CE (including Pocket PC) –Microsoft Speech Server Microsoft Speech API 5.1 (COM component) –For use with Windows PC’s –Enables C# programming –No Pocket PC IBM ViaVoice Others …

25 Ingeniørhøjskolen i Århus Slide 25 af 26 VoiceXML vs (X)HTML Vælg mellem Nyheder, Vejret eller Sport. [ nyheder vejret sport ] Vælg sektion Nyheder Vejret Sport

26 Ingeniørhøjskolen i Århus Slide 26 af 26 Links og litteratur www.w3.org/Voice/ www.voicexml.org www.alphaworks.ibm.com/tech/voicexml/ developers.motorola.com/developers/voicexml/ www.voxpilot.com (blot et eksempel på en voicegateway-udbyder)www.voxpilot.com ”How to Build a Speech Recognition Application” Bruce Balentine & David P. Morgan


Download ppt "Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech."

Lignende præsentationer


Annoncer fra Google