Europæiske taleprojekter i Danmark
Oversigt Udviklingen inden for talesystemer i de sidste ca. 15 år To projekter hos NISLab Speecon (tale til fremtidens forbrugsgoder) NICE (tale i computerspil)
Kort om udviklingen 1989: Første kommercielle talesystem i USA (modtager betaler) 1992: Kunder kan ringe og bestille ”modtager betaler” samtaler (word spotting og barge-in) 1994: Philips toginformation i Tyskland (prototype) Fra midt i 90’erne: Europæisk marked for talesystemer opbygges, fx toginformation Der forskes bl.a. i barge-in, genkendelse af store ordforråd, støjfyldte omgivelser, fleksibel dialoghåndtering, sproggenerering, porterbarhed Nyeste trends: tale for bærbare enheder, enheder i omgivelserne, multimodale systemer, fra opgaveorientering til domæneorientering
Opgaveområder Information (fly, tog, færger, hotel, vejr, gule sider, børskurser, restauranter, biografer, …) Reservation Omstillingsbord Telefonservice (oplysning, afbestilling, nummeruorden…) Reparation Banktransaktioner El-/gas-/vandafmåling Emails Bil-applikationer Burgerbestilling UPS leveringsstatus FAQ ... Ikke opgave-orienterede applikationer
Der er stadig optaget. De vil blive betjent i rækkefølge.
Hvorfor tale plus ... Fastholde indhold, fx lange lister Gengive billeder og kort Vise hvordan man samler fx et reolsystem Være diskret i det offentlige Kunne trænge igennem hvor der er meget støj Udtrykke følelser fx i spil med samtale
Speecon (1) Speech-driven Interfaces for Consumer Devices Sigter mod indsamling af data til træning af talegenkendere Fremme udviklingen af talestyrede forbrugsgoder, fx fjernsyn, video-/dvdoptager, mobiltelefoner, håndholdte, bilnavigationsudstyr, mikrobølgeovne, og brødristere Derfor meget opmærksomhed på omgivelser for dataoptagelser
Speecon (2) EU-projekt startet i februar 2000 www.speecon.com Partnerne: industri, mange kendte: Siemens (koordinator), Scansoft, Ericsson, IBM, Nokia, DaimlerChrysler, Sony, Panasonic, Microsoft, m.fl. Der indsamles sprogdata for 24 sprog, heriblandt mange europæiske sprog Data vil blive gjort tilgængelige via ELRA (European Language Resources Association)
NISLabs rolle i Speecon NISLab underleverandør til Scansoft, Belgien NISLab startede i efteråret 2002 Sidste optagelser i maj 2003 Evaluering hos SPEX netop afsluttet SPEX: Speech Processing EXpertise centre, www.spex.nl 600 timers dansk tale (lyd og transskription)
Retningslinjer for fordeling København, Sjælland, Fyn, Sønderjylland, Nord- og Vestjylland, Østjylland (men ikke Bornholm) Ca. samme antal personer per region Ca. lige fordeling på køn Børn: 8-11, 12-15 Voksne: 16-30, 31-45, 46+ Kontormiljø, børneværelse, stue, bil, offentligt indendørsmiljø, udendørs
Opsætning To faste mikrofoner (foran mund, knaphul) Derudover medium distance og lang distance eller to medium distance afhængigt a miljø Decibelmåler til måling af støjniveau (faste intervaller per miljø) Begrænset antal optagelser per rum og i bestemt position
Eksempler (1) Talrækker: en fire nul ni fem tre seks to syv otte et Datoer: onsdag den fireogtyvende februar to tusind et Tidsangivelser: i dag, i morgen, i overmorgen Telefonnumre: 00 49 68 81 12 10 Udtryk: snabel-a, at, stjerne Bogstaver: Ü Ü Ø Å X Å Ü M Ting der skal staves: A B E L V E J
Eksempler (2) Internet ordforråd: http://orangedk.com, www.dsn.dk Spørgsmål der skal besvares med enkeltord: Hvilken by arbejder du i? Sætninger der skal læses op: Lidt røre i forlagsverdenen er der dog. Helen har også tilsyneladende næsten det hele. Spørgsmål til spontan tale: Invitér en ven til din fødselsdag på hans telefonsvarer. Bed din bank om at oplyse saldoen på din konto, lav derefter enoverførsel til en anden konto, og bed til sidst om børsinformation.
NICE Natural Interactive Communication for Edutainment www.niceproject.com Udvikle prototype der tillader underholdende, lærerig, multimodal konversation med H. C. Andersen og nogle af hans figurer Målgruppe: børn og unge EU-projekt, 2002-2005
Partnere og ansvarsområde(r) NISLab (koordinator): Sprogforståelse (engelsk), karaktermodellering og svargenerering (engelsk) for HCA; fokus på konversation LIMSI-CNRS: Gestusgenkendelse, gestusforståelse, inputfusion Liquid Media: Animation, integration Scansoft: Talegenkendelse; SpeechPearl trænet på data fra målgruppen Telia-Sonera: Sprogforståelse (svensk), karaktermodellering og svargenerering (svensk) for eventyrfigurer; fokus på spil
Arkitektur
Plan To prototyper Første prototype færdig med udgangen af 2003 Januar-februar 2004: brugertest og analyse af testdata med henblik på udvikling af anden prototype Anden prototype færdig i starten af 2005 To sprog: svensk og engelsk HCA taler engelsk, eventyrfigurerne taler svensk Tiltænkt opsætning: Primært museer og udstillinger
Eventyrverdenen I anden prototype kan brugeren gå gennem dobbeltdøren hos HCA ind i eventyrverdenen Figurerne har mål som brugeren skal hjælpe dem med at nå Klodshans Tommelise Andre figurer
HCA-modellering Seks domæner: Arbejde (eventyr), liv, fysiske tilstedeværelse, brugeren, dørmand, meta Fysisk modellering af rum og person i rimelig overensstemmelse med virkeligheden 55 år, åben, sensitiv, lytter og fortæller gerne HCA er tilbage men endnu ikke helt den han var engang. Han ved ikke alt det han måske burde, men her kan brugeren hjælpe Har sin egen dagsorden som han følger i dialogen
CM-arkitektur
Input fra data Træning af genkender Ideer til dialogmodellering og indhold Wizard of Oz i HCA museum juli 2003 498 dialoger, 30 timer 240 dialoger med brugere mellem 10 og 18 år 49 dialoger med børn under 10 år Omtrent lige fordeling på køn Målgruppen 30% længere samtaler end voksne Målgruppen bruger i gennemsnit 32 ture Yndlingsemner: eventyr, lege/spil, opfindelser
Brugertest 18 brugere 10-14, 15-18 år Ligelig fordeling af piger og drenge og på alderskategorier Indtryk: lærte noget om HCA og hans familie, kunne lide at pege på ting og få historie, sjovt at tale og få svar savnede til tider at kunne gøre lidt mere (både pege og dialog)