Broj aplikacija i važnost glasovnih sučelja brzo raste

sadržaj

velika četvorka
Amerikanci žele kupiti
Operite, ispecite, očistite!
Stari koncept. Je li konačno došlo njezino vrijeme?
tehnički teško pitanje
Glas? Grafička umjetnost? Ili možda oboje?
Pazite na sigurnost!

Američka obitelj u Portlandu, Oregon, nedavno je saznala da je Alexov glasovni asistent snimio njihove privatne razgovore i poslao ih prijatelju. Vlasnica kuće, koju su mediji prozvali Danielle, rekla je novinarima da "nikada više neće uključiti taj uređaj jer joj se ne može vjerovati".

Alexa, koju pružaju Echo (1) zvučnici i drugi gadgeti u desecima milijuna američkih domova, počinje snimati kada čuje svoje ime ili "pozivnu riječ" koju je izgovorio korisnik. To znači da čak i ako se riječ "Alexa" spomene u TV oglasu, uređaj može početi snimati. Upravo se to dogodilo u ovom slučaju, kaže Amazon, distributer hardvera.

"Ostatak razgovora glasovni asistent protumačio je kao naredbu za slanje poruke", stoji u priopćenju tvrtke. "U nekom trenutku, Alexa je glasno upitala: "Kome?" Nastavak obiteljskog razgovora o podovima od tvrdog drva stroj je trebao shvatiti kao stavku na popisu kontakata kupca.” Tako barem misli Amazon. Tako se prijevod svodi na niz nezgoda.

Anksioznost, međutim, ostaje. Jer iz nekog razloga, u kući u kojoj smo se još uvijek osjećali opušteno, moramo ući u neku vrstu “glasovnog moda”, gledati što govorimo, što TV emitira i, naravno, što ovaj novi zvučnik na prsima ladice kaže . nas.

Međutim, Unatoč nesavršenosti tehnologije i zabrinutosti za privatnost, s porastom popularnosti uređaja kao što je Amazon Echo, ljudi se počinju navikavati na ideju interakcije s računalima koristeći svoj glas..

Kao što je Werner Vogels, CTO Amazona, primijetio tijekom svoje sesije AWS re:Invent krajem 2017., tehnologija je do sada ograničavala našu sposobnost interakcije s računalima. U Google upisujemo ključne riječi pomoću tipkovnice, jer je to još uvijek najčešći i najlakši način unosa informacija u stroj.

rekao je Vogels. -

velika četvorka

Koristeći Google tražilicu na telefonu, vjerojatno smo davno primijetili znak mikrofona s pozivom na razgovor. Ovaj Google sada (2), koji može diktirati upit za pretraživanje, unijeti poruku glasom itd. Posljednjih godina, Google, Apple i Amazon uvelike su se poboljšali tehnologija za prepoznavanje glasa. Glasovni asistenti kao što su Alexa, Siri i Google Assistant ne samo da snimaju vaš glas, već i razumiju što im kažete i odgovaraju na pitanja.

Google Now dostupan je besplatno svim korisnicima Androida. Aplikacija može, primjerice, postaviti alarm, provjeriti vremensku prognozu i provjeriti rutu na Google kartama. Proširenje za razgovor Google Nowa Google asistent () – virtualna pomoć korisniku opreme. Dostupan je uglavnom na mobilnim i pametnim kućnim uređajima. Za razliku od Google Nowa, može sudjelovati u dvosmjernoj razmjeni. Asistent je debitirao u svibnju 2016. kao dio Googleove aplikacije za razmjenu poruka Allo, kao i u glasovnom zvučniku Google Home (3).

3. Google Home

IOS sustav također ima svog virtualnog asistenta, Siri, što je program uključen u Appleove operacijske sustave iOS, watchOS, tvOS homepod i macOS. Siri je debitirala s iOS 5 i iPhoneom 4s u listopadu 2011. na Let's Talk iPhone konferenciji.

Softver se temelji na razgovornom sučelju: prepoznaje prirodni govor korisnika (uz iOS 11 moguće je i ručno unositi naredbe), odgovara na pitanja i izvršava zadatke. Zahvaljujući uvođenju strojnog učenja, s vremenom asistent analizira osobne preferencije korisniku pružiti relevantnije rezultate i preporuke. Siri zahtijeva stalnu internetsku vezu – glavni izvori informacija ovdje su Bing i Wolfram Alpha. iOS 10 uveo je podršku za proširenja trećih strana.

Još jedan od velike četvorke Cortana. To je inteligentni osobni asistent koji je kreirao Microsoft. Podržan je na platformama Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android i iOS. Cortana je prvi put predstavljena na Microsoft Build Developer konferenciji u travnju 2014. u San Franciscu. Naziv programa dolazi od imena lika iz serije Halo igrica. Cortana je dostupna na engleskom, talijanskom, španjolskom, francuskom, njemačkom, kineskom i japanskom.

Korisnici već spomenutog programa Alexa moraju uzeti u obzir i jezična ograničenja - digitalni asistent govori samo engleski, njemački, francuski i japanski.

Amazon Virtual Assistant prvi je put korišten u pametnim zvučnicima Amazon Echo i Amazon Echo Dot koje je razvio Amazon Lab126. Omogućuje glasovnu interakciju, reprodukciju glazbe, kreiranje popisa zadataka, postavljanje alarma, streaming podcasta, reprodukciju audioknjiga i informacije o vremenu, prometu, sportu i drugim vijestima u stvarnom vremenu kao što su vijesti (4). Alexa može kontrolirati više pametnih uređaja za stvaranje sustava kućne automatizacije. Također se može koristiti za prikladnu kupovinu u trgovini Amazon.

4. Za što korisnici koriste Echo (prema istraživanju)

Korisnici mogu poboljšati Alexa iskustvo instaliranjem Alexa "skills" (), dodatnih značajki koje su razvile treće strane, koje se u drugim postavkama češće nazivaju aplikacijama kao što su vremenske prilike i audio programi. Većina Alexa uređaja omogućuje vam da aktivirate svog virtualnog pomoćnika lozinkom za buđenje, koja se zove .

Amazon danas definitivno dominira tržištem pametnih zvučnika (5). IBM, koji je u ožujku 2018. uveo novu uslugu, pokušava ući u prva četiri Watsonov pomoćnik, namijenjen tvrtkama koje žele stvoriti vlastite sustave virtualnih asistenata s glasovnom kontrolom. Koja je prednost IBM rješenja? Prema riječima predstavnika tvrtke, prije svega na puno većim mogućnostima personalizacije i zaštite privatnosti.

Prvo, Watson Assistant nije brendiran. Tvrtke mogu kreirati vlastita rješenja na ovoj platformi i označiti ih vlastitim brendom.

Drugo, oni mogu trenirati svoje pomoćne sustave koristeći svoje vlastite skupove podataka, za koje IBM kaže da olakšava dodavanje značajki i naredbi tom sustavu nego druge tehnologije VUI (glasovno korisničko sučelje).

Treće, Watson Assistant ne daje IBM-u informacije o aktivnostima korisnika – programeri rješenja na platformi mogu zadržati samo vrijedne podatke za sebe. U međuvremenu, svatko tko gradi uređaje, na primjer s Alexom, trebao bi biti svjestan da će njihovi vrijedni podaci završiti na Amazonu.

Watson Assistant već ima nekoliko implementacija. Sustav je koristio, primjerice, Harman koji je kreirao glasovnog asistenta za konceptni automobil Maserati (6). U zračnoj luci München, pomoćnik IBM-a pokreće Pepper robota kako bi pomogao putnicima da se kreću. Treći primjer je Chameleon Technologies, gdje se glasovna tehnologija koristi u pametnom kućnom mjeraču.

6. Watsonov asistent u konceptnom automobilu Maserati

Vrijedi dodati da temeljna tehnologija ovdje također nije nova. Watson Assistant uključuje mogućnosti šifriranja za postojeće IBM proizvode, Watson Conversation i Watson Virtual Agent, kao i API-je za analizu jezika i chat.

Amazon nije samo lider u pametnoj glasovnoj tehnologiji, već je pretvara u izravan posao. Međutim, neke su tvrtke eksperimentirale s Echo integracijom mnogo ranije. Sisense, tvrtka u BI i analitičkoj industriji, predstavila je integraciju Echo u srpnju 2016. Zauzvrat, startup Roxy odlučio je stvoriti vlastiti softver i hardver za ugostiteljsku industriju s glasovnom kontrolom. Ranije ove godine, Synqq je predstavio aplikaciju za bilježenje koja koristi glasovnu obradu i obradu prirodnog jezika za dodavanje bilješki i kalendarskih unosa bez potrebe za tipkanjem na tipkovnici.

Sva ova mala poduzeća imaju visoke ambicije. Najviše od svega, međutim, naučili su da ne želi svaki korisnik svoje podatke prenijeti na Amazon, Google, Apple ili Microsoft, koji su najvažniji igrači u izgradnji platformi za glasovnu komunikaciju.

Amerikanci žele kupiti

U 2016. glasovno pretraživanje činilo je 20% svih Google mobilnih pretraživanja. Ljudi koji svakodnevno koriste ovu tehnologiju navode njezinu praktičnost i višezadaćnost među njezinim najvećim prednostima. (na primjer, mogućnost korištenja tražilice tijekom vožnje automobila).

Analitičari Visiongaina procjenjuju trenutnu tržišnu vrijednost pametnih digitalnih asistenata na 1,138 milijardi dolara Takvih je mehanizama sve više. Prema Gartneru, već do kraja 2018 30% naših interakcija s tehnologijom će biti kroz razgovore s glasovnim sustavima.

Britanska istraživačka tvrtka IHS Markit procjenjuje da će tržište digitalnih asistenata s AI-om dosegnuti 4 milijarde uređaja do kraja ove godine, a taj bi broj mogao porasti na 2020 milijardi do 7. godine.

Prema izvješćima eMarketera i VoiceLabsa, 2017 milijuna Amerikanaca koristilo je glasovnu kontrolu barem jednom mjesečno u 35,6. To znači povećanje od gotovo 130% u odnosu na prethodnu godinu. Očekuje se da će samo tržište digitalnih pomoćnika rasti do 2018. u 23. To znači da ćete ih već koristiti. 60,5 milijuna Amerikanaca, što će rezultirati konkretnim novcem za njihove proizvođače. RBC Capital Markets procjenjuje da će Alexa sučelje generirati do 2020 milijardi dolara prihoda za Amazon do 10. godine.

Operite, ispecite, očistite!

Glasovna sučelja sve hrabrije ulaze na tržište kućanskih aparata i potrošačke elektronike. To se moglo vidjeti već tijekom prošlogodišnje izložbe IFA 2017. Američka tvrtka Neato Robotics predstavila je, primjerice, robot-usisavač koji se povezuje na jednu od nekoliko platformi za pametne kuće, uključujući i Amazon Echo sustav. Razgovarajući s Echo pametnim zvučnikom, možete dati upute stroju da očisti cijelu vašu kuću u određeno doba dana ili noći.

Na izložbi su predstavljeni i drugi proizvodi koji se aktiviraju glasom, od pametnih televizora koje pod robnom markom Toshiba prodaje turska tvrtka Vestel do grijanih deka njemačke tvrtke Beurer. Mnogi od ovih elektroničkih uređaja također se mogu aktivirati daljinski pomoću pametnih telefona.

No, prema riječima predstavnika Boscha, prerano je govoriti koja će od opcija domaćih pomoćnika postati dominantna. Na IFA 2017, njemačka tehnička grupa predstavila je perilice rublja (7), pećnice i aparate za kavu koji se povezuju na Echo. Bosch također želi da njegovi uređaji u budućnosti budu kompatibilni s glasovnim platformama Google i Apple.

7. Bosch perilica rublja koja se spaja na Amazon Echo

Tvrtke kao što su Fujitsu, Sony i Panasonic razvijaju vlastita rješenja glasovnog pomoćnika temeljena na umjetnoj inteligenciji. Sharp dodaje ovu tehnologiju pećnicama i malim robotima koji ulaze na tržište. Nippon Telegraph & Telephone zapošljava proizvođače hardvera i igračaka da prilagode sustav umjetne inteligencije upravljan glasom.

Stari koncept. Je li konačno došlo njezino vrijeme?

Zapravo, koncept glasovnog korisničkog sučelja (VUI) postoji već desetljećima. Svatko tko je gledao Zvjezdane staze ili 2001: Odiseju u svemiru prije mnogo godina vjerojatno je očekivao da ćemo oko 2000. godine svi kontrolirati računala svojim glasovima. Također, nisu samo pisci znanstvene fantastike vidjeli potencijal ove vrste sučelja. 1986. Nielsenovi istraživači pitali su IT stručnjake što misle da će biti najveća promjena u korisničkim sučeljima do 2000. godine. Najčešće su ukazivali na razvoj glasovnih sučelja.

Ima razloga za nadati se takvom rješenju. Verbalna komunikacija je ipak najprirodniji način da ljudi svjesno razmjenjuju misli, pa se njezino korištenje za interakciju čovjeka i stroja čini kao najbolje rješenje do sada.

Jedan od prvih VUI-a, tzv kutija za cipele, stvoren je ranih 60-ih od strane IBM-a. Bio je to preteča današnjih sustava za prepoznavanje glasa. Međutim, razvoj VUI uređaja bio je ograničen ograničenjima računalne snage. Raščlanjivanje i tumačenje ljudskog govora u stvarnom vremenu zahtijeva puno truda, a trebalo je više od pedeset godina da se dođe do točke u kojoj je to zapravo postalo moguće.

Uređaji s glasovnim sučeljem počeli su se pojavljivati u masovnoj proizvodnji sredinom 90-ih, ali nisu stekli popularnost. Prvi telefon s glasovnom kontrolom (biranjem) bio je Philips Sparkobjavljen 1996. Međutim, ovaj inovativni i jednostavan za korištenje uređaj nije bio oslobođen tehnoloških ograničenja.

Drugi telefoni opremljeni oblicima glasovnog sučelja (koje su kreirale tvrtke kao što su RIM, Samsung ili Motorola) redovito dolaze na tržište, omogućujući korisnicima biranje glasovnim pozivom ili slanje tekstualnih poruka. Sve su one, međutim, zahtijevale memorisanje određenih naredbi i njihovo izgovaranje u forsiranom, umjetnom obliku, prilagođenom mogućnostima tadašnjih uređaja. To je generiralo veliki broj pogrešaka, što je, pak, dovelo do nezadovoljstva korisnika.

Međutim, sada ulazimo u novu eru računalstva, u kojoj napredak u strojnom učenju i umjetnoj inteligenciji otključava potencijal razgovora kao novog načina interakcije s tehnologijom (8). Broj uređaja koji podržavaju glasovnu interakciju postao je važan čimbenik koji je imao veliki utjecaj na razvoj VUI-ja. Danas gotovo 1/3 svjetske populacije već posjeduje pametne telefone koji se mogu koristiti za ovakvu vrstu ponašanja. Čini se da je većina korisnika konačno spremna prilagoditi svoja glasovna sučelja.

8. Suvremena povijest razvoja glasovnog sučelja

Međutim, prije nego što možemo slobodno razgovarati s računalom, kao što su to učinili likovi iz Odiseje u svemiru, moramo prevladati niz problema. Strojevi još uvijek nisu baš dobri u rukovanju jezičnim nijansama. osim mnogi se ljudi još uvijek osjećaju neugodno davati glasovne naredbe tražilici.

Statistike pokazuju da se glasovni asistenti prvenstveno koriste kod kuće ili među bliskim prijateljima. Nitko od intervjuiranih nije priznao da koristi glasovno pretraživanje na javnim mjestima. Međutim, ova blokada će vjerojatno nestati širenjem ove tehnologije.

tehnički teško pitanje

Problem s kojim se sustavi (ASR) susreću je izdvajanje korisnih podataka iz govornog signala i njihovo povezivanje s određenom riječi koja za osobu ima određeno značenje. Zvukovi koji se proizvode su svaki put drugačiji.

Varijabilnost govornog signala je njegovo prirodno svojstvo, zahvaljujući kojemu npr. prepoznajemo naglasak ili intonaciju. Svaki element sustava za prepoznavanje govora ima specifičnu zadaću. Na temelju obrađenog signala i njegovih parametara izrađuje se akustički model koji se povezuje s jezičnim modelom. Sustav prepoznavanja može raditi na temelju malog ili velikog broja obrazaca, što određuje veličinu rječnika s kojim radi. Oni mogu biti mali rječnici u slučaju sustava koji prepoznaju pojedinačne riječi ili naredbe, i velike baze podataka koji sadrži ekvivalent jezičnog skupa i uzimajući u obzir jezični model (gramatiku).

Problemi s kojima se prije svega suočavaju glasovna sučelja pravilno razumjeti govor, u kojem se npr. često izostavljaju čitavi gramatički nizovi, javljaju se jezične i fonetske pogreške, pogreške, propusti, govorni nedostaci, homonimi, neopravdana ponavljanja itd. Svi ti ACP sustavi moraju raditi brzo i pouzdano. Barem su takva očekivanja.

Izvor poteškoća su i zvučni signali osim prepoznatog govora koji ulaze na ulaz sustava za prepoznavanje, t.j. sve vrste smetnje i buke. U najjednostavnijem slučaju, trebate ih filtrirati. Taj se zadatak čini rutinskim i lakim – uostalom, razni signali se filtriraju i svaki inženjer elektronike zna što učiniti u takvoj situaciji. Međutim, to mora biti učinjeno vrlo pažljivo i pažljivo kako bi rezultat prepoznavanja govora ispunio naša očekivanja.

Trenutno korišteno filtriranje omogućuje uklanjanje, zajedno s govornim signalom, vanjskog šumova koji je uhvatio mikrofon i unutarnjih svojstava samog govornog signala, zbog kojih je teško prepoznati ga. No, puno složeniji tehnički problem nastaje kada je smetnja analiziranom govornom signalu ... drugi govorni signal, odnosno, primjerice, glasne rasprave uokolo. Ovo pitanje je u literaturi poznato kao tzv. To već zahtijeva korištenje složenih metoda, tzv. dekonvolucija (razotkrivanje) signala.

Problemi s prepoznavanjem govora tu ne prestaju. Vrijedno je shvatiti da govor nosi mnogo različitih vrsta informacija. Ljudski glas sugerira spol, dob, različite karaktere vlasnika ili stanje njegovog zdravlja. Postoji opsežan odjel biomedicinskog inženjerstva koji se bavi dijagnostikom raznih bolesti na temelju karakterističnih akustičkih pojava koje se nalaze u govornom signalu.

Postoje i aplikacije u kojima je glavna svrha akustičke analize govornog signala identificirati govornika ili provjeriti je li on ono za koga se predstavlja (glas umjesto ključa, lozinke ili PUK koda). To može biti važno, posebno za tehnologije pametnih zgrada.

Prva komponenta sustava za prepoznavanje govora je mikrofon. Međutim, signal koji je uhvatio mikrofon obično ostaje malo koristi. Istraživanja pokazuju da oblik i tijek zvučnog vala uvelike variraju ovisno o osobi, brzini govora, a dijelom i o raspoloženju sugovornika – dok u maloj mjeri odražavaju sam sadržaj izgovorenih naredbi.

Stoga se signal mora ispravno obraditi. Moderna akustika, fonetika i informatika zajedno pružaju bogat skup alata koji se mogu koristiti za obradu, analizu, prepoznavanje i razumijevanje govornog signala. Dinamički spektar signala, tzv dinamički spektrogrami. Prilično ih je lako dobiti, a govor predstavljen u obliku dinamičkog spektrograma relativno je lako prepoznati korištenjem tehnika sličnih onima koje se koriste u prepoznavanju slika.

Jednostavni elementi govora (na primjer, naredbe) mogu se prepoznati po jednostavnoj sličnosti cijelih spektrograma. Na primjer, rječnik mobilnog telefona koji se aktivira glasom sadrži samo nekoliko desetaka do nekoliko stotina riječi i izraza, obično prethodno složenih tako da se mogu lako i učinkovito identificirati. To je dovoljno za jednostavne kontrolne zadatke, ali ozbiljno ograničava cjelokupnu primjenu. Sustavi izgrađeni prema shemi u pravilu podržavaju samo određene zvučnike za koje su glasovi posebno osposobljeni. Dakle, ako postoji netko novi tko želi koristiti svoj glas za kontrolu sustava, vrlo vjerojatno neće biti prihvaćen.

Rezultat ove operacije se zove 2-W spektrogram, odnosno dvodimenzionalni spektar. Postoji još jedna aktivnost u ovom bloku na koju vrijedi obratiti pažnju - segmentacija. Općenito govoreći, govorimo o razbijanju kontinuiranog govornog signala na dijelove koji se mogu zasebno prepoznati. Tek iz tih pojedinačnih dijagnoza dolazi do prepoznavanja cjeline. Ovaj postupak je neophodan jer nije moguće identificirati dug i složen govor u jednom potezu. O tome koje segmente treba razlikovati u govornom signalu, već su napisani čitavi svesci, pa nećemo sada odlučivati da li bi izdvojeni segmenti trebali biti fonemi (zvučni ekvivalenti), slogovi ili možda alofoni.

Proces automatskog prepoznavanja uvijek se odnosi na neke značajke objekata. Stotine skupova različitih parametara testirano je za govorni signal. Govorni signal jest podijeljen u prepoznate okvire i imajući odabrane značajkepri čemu su ti okviri predstavljeni u procesu prepoznavanja, možemo izvesti (za svaki okvir posebno) klasifikacija, tj. dodjeljivanje identifikatora okviru, koji će ga predstavljati u budućnosti.

Sljedeća faza sastavljanje okvira u zasebne riječi - najčešće na temelju tzv. model implicitnih Markovljevih modela (HMM-). Zatim dolazi montaža riječi dovrši rečenice.

Sada se možemo na trenutak vratiti na Alexa sustav. Njegov primjer pokazuje višestupanjski proces strojnog "razumijevanja" osobe - točnije: naredbu koju je on dao ili postavljeno pitanje.

Razumijevanje riječi, razumijevanje značenja i razumijevanje namjere korisnika potpuno su različite stvari.

Stoga je sljedeći korak rad NLP modula (), čiji je zadatak prepoznavanje namjere korisnika, tj. značenje naredbe/pitanja u kontekstu u kojem je izrečena. Ako je namjera identificirana, onda dodjeljivanje vještina i sposobnosti tzv, tj. specifična značajka koju podržava pametni asistent. U slučaju pitanja o vremenu, pozivaju se izvori podataka o vremenu, koji se tek trebaju obraditi u govor (TTS - mehanizam). Kao rezultat, korisnik čuje odgovor na postavljeno pitanje.

Glas? Grafička umjetnost? Ili možda oboje?

Većina poznatih modernih sustava interakcije temelji se na posredniku tzv grafičko korisničko sučelje (grafičko sučelje). Nažalost, GUI nije najočitiji način interakcije s digitalnim proizvodom. To zahtijeva da korisnici prvo nauče kako koristiti sučelje i zapamtiti te informacije pri svakoj sljedećoj interakciji. U mnogim situacijama, glas je mnogo praktičniji jer možete komunicirati s VUI-jem jednostavnim razgovorom s uređajem. Sučelje koje ne prisiljava korisnike da pamte i pamte određene naredbe ili metode interakcije uzrokuje manje problema.

Naravno, proširenje VUI-ja ne znači napuštanje tradicionalnijih sučelja – radije će biti dostupna hibridna sučelja koja kombiniraju nekoliko načina interakcije.

Glasovno sučelje nije prikladno za sve zadatke u mobilnom kontekstu. Njime ćemo nazvati prijatelja koji vozi automobil, pa mu čak i poslati SMS, ali provjera zadnjih transfera može biti preteška - zbog količine informacija koje se prenose sustavu () i generiraju sustav (sustav). Kao što Rachel Hinman predlaže u svojoj knjizi Mobile Frontier, korištenje VUI-ja postaje najučinkovitije kada se izvršavaju zadaci gdje je količina ulaznih i izlaznih informacija mala.

Pametni telefon spojen na internet je zgodan, ali i nezgodan (9). Svaki put kada korisnik želi nešto kupiti ili koristiti novu uslugu, mora preuzeti drugu aplikaciju i stvoriti novi račun. Ovdje je stvoreno polje za korištenje i razvoj glasovnih sučelja. Umjesto da prisiljavaju korisnike da instaliraju mnogo različitih aplikacija ili kreiraju zasebne račune za svaku uslugu, stručnjaci kažu da će VUI teret ovih glomaznih zadataka prebaciti na glasovnog pomoćnika s umjetnom inteligencijom. Bit će mu zgodno obavljati naporne aktivnosti. Mi ćemo mu samo zapovijedati.

9. Glasovno sučelje putem pametnog telefona

Danas je više od telefona i računala povezano s internetom. Pametni termostati, svjetla, kuhala za vodu i mnogi drugi uređaji integrirani u IoT također su povezani na mrežu (10). Dakle, svuda oko nas postoje bežični uređaji koji ispunjavaju naše živote, ali ne uklapaju se svi prirodno u grafičko korisničko sučelje. Korištenje VUI pomoći će vam da ih jednostavno integrirate u naše okruženje.

10. Glasovno sučelje s Internetom stvari

Izrada glasovnog korisničkog sučelja uskoro će postati ključna dizajnerska vještina. To je pravi problem – potreba za implementacijom glasovnih sustava potaknut će vas da se više usredotočite na proaktivni dizajn, odnosno pokušajte razumjeti početne namjere korisnika, predviđajući njihove potrebe i očekivanja u svakoj fazi razgovora.

Glas je učinkovit način za unos podataka—dopušta korisnicima da brzo izdaju naredbe sustavu prema vlastitim uvjetima. S druge strane, zaslon pruža učinkovit način za prikaz informacija: omogućuje sustavima da istovremeno prikazuju veliku količinu informacija, smanjujući opterećenje memorije korisnika. Logično je da njihovo kombiniranje u jedan sustav zvuči ohrabrujuće.

Pametni zvučnici poput Amazon Echo i Google Home uopće ne nude vizualni prikaz. Značajno poboljšavajući točnost prepoznavanja glasa na umjerenim udaljenostima, omogućuju rad bez ruku, što zauzvrat povećava njihovu fleksibilnost i učinkovitost – poželjni su čak i za korisnike koji već imaju pametne telefone s glasovnom kontrolom. Međutim, nedostatak zaslona je veliko ograničenje.

Samo zvučni signali mogu se koristiti za informiranje korisnika o mogućim naredbama, a čitanje izlaza naglas postaje zamorno osim za najosnovnije zadatke. Postavljanje mjerača vremena s glasovnom naredbom tijekom kuhanja je sjajno, ali nije potrebno pitati koliko je vremena ostalo. Dobivanje redovite vremenske prognoze postaje test pamćenja za korisnika, koji cijeli tjedan mora slušati i upijati niz činjenica, umjesto da ih na prvi pogled pokupi sa zaslona.

Dizajneri su već hibridno rješenje, Echo Show (11), koji je osnovnom pametnom zvučniku Echo dodao zaslon. To uvelike proširuje funkcionalnost opreme. Međutim, Echo Show je još uvijek puno manje sposoban za obavljanje osnovnih funkcija koje su odavno dostupne na pametnim telefonima i tabletima. Na primjer, ne može (još) surfati webom, prikazivati recenzije ili prikazati sadržaj Amazon košarice.

Vizualni prikaz je inherentno učinkovitiji način da se ljudima pruži mnoštvo informacija nego samo zvuk. Dizajniranje s glasovnim prioritetom može uvelike poboljšati glasovnu interakciju, ali dugoročno, proizvoljno ne korištenje vizualnog izbornika radi interakcije bit će poput borbe s jednom rukom vezanom iza leđa. Zbog nadolazeće složenosti end-to-end inteligentnih glasovnih i zaslonskih sučelja, programeri bi trebali ozbiljno razmotriti hibridni pristup sučeljima.

Povećanje učinkovitosti i brzine sustava za generiranje i prepoznavanje govora omogućilo je njihovu upotrebu u aplikacijama i područjima kao što su, na primjer:

• vojni (glasovne naredbe u zrakoplovima ili helikopterima, na primjer, F16 VISTA),

• automatska transkripcija teksta (govor u tekst),

• interaktivni informacijski sustavi (Prime Speech, glasovni portali),

• mobilni uređaji (telefoni, pametni telefoni, tableti),

• robotika (Cleverbot - ASR sustavi u kombinaciji s umjetnom inteligencijom),

• automobilska (upravljanje komponentama automobila bez ruku, kao što je Blue & Me),

• kućne aplikacije (sustavi pametnog doma).

Pazite na sigurnost!

Automobilska industrija, kućanski aparati, sustavi za grijanje/hlađenje i kućni sigurnosni sustavi i niz kućanskih aparata počinju koristiti glasovna sučelja, često temeljena na umjetnoj inteligenciji. U ovoj se fazi šalju podaci dobiveni iz milijuna razgovora sa strojevima računalni oblaci. Jasno je da su trgovci zainteresirani za njih. I ne samo oni.

Nedavno izvješće stručnjaka za sigurnost Symanteca preporučuje da korisnici glasovnih naredbi ne kontroliraju sigurnosne značajke kao što su brave na vratima, a kamoli kućni sigurnosni sustavi. Isto vrijedi i za pohranjivanje lozinki ili povjerljivih informacija. Sigurnost umjetne inteligencije i pametnih proizvoda još nije dovoljno proučena.

Kada uređaji u cijelom domu slušaju svaku riječ, rizik od hakiranja sustava i zlouporabe postaje velika briga. Ako napadač dobije pristup lokalnoj mreži ili pridruženim adresama e-pošte, postavke pametnog uređaja mogu se promijeniti ili vratiti na tvorničke postavke, što će dovesti do gubitka vrijednih informacija i brisanja korisničke povijesti.

Drugim riječima, sigurnosni stručnjaci strahuju da AI i VUI koji upravljaju glasom još nisu dovoljno pametni da nas zaštite od potencijalnih prijetnji i da držimo jezik za zubima kada stranac nešto traži.