Siristä Cortanaan: Miksi puhelimet ymmärtävät nykyään puhetta?

Cortana

Puheentunnistus oli pitkään lähestulkoon mahdoton tehtävä tietokoneille, mutta nyt höpöttelyä ymmärtäviä palveluita putkahtelee joka nurkasta.

Älypuhelimissa Androideissa kuuntelee Google Now, iPhonessa päivystää Applen Siri, Windows-luureissa Cortana (kyllä, nimi on Halo-pelisarjan peruja) ja kiinalaisella Baidulla Duer. Sen lisäksi Amazonilla on Echo-pönttö, joka toimii sekä (bluetooth-)kaiuttimena että puhetta ymmärtävänä verkkokauppa-apurina.

Mistä tungos johtuu?

Lähdetään purkamaan tilannetta ilmeisimmästä päästä eli Kiinasta. Koska kirjoitusmerkkien näpytteleminen virtuaalinäppiksellä on jossain määrin tuskallista, on ilmeistä että hyvin toimiva puheentunnistus olisi kiehtova vaihtoehto. Jos Baidu saa samalla käyttäjät shoppailemaan enemmän, mikäs siinä.

Samantapainen logiikka vaikuttaa myös muiden puhelimissa käytettävien puheentunnistusvekottimien taustalla. Aina kädet eivät ole vapaana tai tietyn operaation — soita Hexvesselin uusin levy — hoitaminen sormilla näpyttelemällä on turhan monimutkaista, joten parin lauseen ääneen lausuttu komento hoitaa saman homman paljon nopeammin.

Applen graalin maljaksi on arvailtu puheella ohjattavaa televisiota, koska Steve Jobs haikaili tv-maailman mullistamista. Amazon taas tahtoo saada jalkaa oven väliin olohuoneissa, koska taistelun kännyköistä ja tableteista se on auttamattomasti jo hävinnyt. Echolla voi tilata vessapaperia ja kuunnella musiikkia Amazonin suoratoistopalvelusta, mutta nykyään myös Spotifystä.

Siri

Neuroverkko erottaa puheen metelistä

Kuten aluksi todettiin, puheentunnistus ei ole aivan läpihuutojuttu. Isoista puhelinpelureista ensimmäisenä apajille ehti Google, joka pyöritti Yhdysvalloissa vuosina 2007–2010 ilmaista puhelinhakemistopalvelua: soita numeroon, kerro asiasi automaatille ja järjestelmä kertoo etsimäsi ihmisen numeron.

Palvelun tarkoituksena oli kerätä laaja määrä erilaatuisia ja -aksenttisia ääninäytteitä, joita voitiin käyttää puheentunnistusalgoritmin kouluttamiseen. Tämä on samalla hyvä muistutus ilmaisten palveluiden luonteesta. Jos niitä ylläpidetään jostain muusta syystä kuin käyttäjiltä tulevan rahan takia, ne saattavat myös lopettaa hetkellä millä hyvänsä.

Kyse on myös tuotekehityksen edistysaskeleesta. Google vaihtoi vuonna 2012 syväoppiviin neuroverkkoihin, jonka jälkeen yhtiö alkoi käyttää takaisinkytkettyjä neuroverkkoja ja Connectionist Temporal Classification -menetelmiin.

Niiden ansiosta se mainosti syksyllä 2015 saavuttaneensa huomattavasti aiempaa parempia tuloksia etenkin silloin, kun tunnistettavan puheen taustalla kuuluu meteliä.

Google Now

Puhumme myös suomea!

Suomalaisten kannalta mukavaa on, että tietokoneet ymmärtävät nykyään myös meidän sönkötystämme.

Google Now’ta on voinut käskyttää suomeksi jo hyvän aikaa ja tammikuussa julkaistu Sirin betaversio tajuaa sekin suomea. Onhan siinä jotain hienosti scifihtävää, kun voi käskeä puhelinta tekemään asioita. Muistan esitelleeni Google Now’n puheentunnistusta filosofikaverilleni sanomalla puhelimella ‘unheimlich’, jonka laite tunnisti ihan oikein.

Seuraava lause on saneltu:

puheentunnistus toimii melko hyvin mutta ei tietenkään täydellisesti ja etenkin välimerkit ongelma tämä rivi mä kirjotin käyttämään googlen puheentunnistusta

Pientä säätöä siis vaaditaan vielä, mutta unelma täydellisestä sanelimesta elää yhä. Viime vuonna minulta kysyttiin, joko haastattelunauhojen purkaminen onnistuisi tietokoneohjelmalla. Vastaukseksi kaivoin esiin englanninkielisen yritysvideon ja kytkin päälle YouTuben automaattisen tekstitysominaisuuden.

Lopputulos on… kiinnostava. Katsokaa itse – ja muistakaa tosiaan klikata CC-nappia.

Olli Sulopuisto
Tagit: Siri, Google Now, Duer, Echo, puheentunnistus
Huhu: Applen Siri seuraa Microsoftin Cortanan jalanjäljissä työpöydälleGoogle tarjoaa ilmaiset puhelut Belgiaan ja Turkkiin

Kommentit

2.

Ainoa ehto on että mitään taustamelua ei saa olla että toimii luotettavasti.
Omalle kohdalle on käyttökelvoton töissä ja kotona en tarvitse mitään sellaista ominaisuutta.

3.

tietyn operaation hoitaminen sormilla näpyttelemällä on turhan monimutkaista, joten parin lauseen ääneen lausuttu komento hoitaa saman homman paljon nopeammin.

Tähän astiset kokemukset puheentunnistuksesta itsellä osoittaa kyllä juurikin päinvastaista. Näpyttelemällä saa hoidettua puolessa ajassa. Melko harvaa asiaa puhumalla edes pystyy tekemään.

5.

Suomenkielistä Cortanaa odotan. Olisi se vain paljon helpompaa ottaa kännykkä illalla sängyn viereen ja vain sanoa "Hei Cortana, herätä seitsemältä".

6.

En kyllä itse keksi kuin vakoilupuolen sovelluksia puheentunnistukselle tien päällä. Kotona voi olla tilaa Jarvisin kaltaiselle kotiälylle, mutta sekin on kätevä vain yksineläville eksentrisille tiedeneroille.

Tekniikka on sitten kuitenkin taas yksi mahdollistava pitkille avaruusmatkoille jossa puhetta ymmärrettävä keinoäly voi pitää seuraa ihmisille tai ihmiselle.

7.

Kyllä itsekin on tullut käytettyä satunnaisesti autossa Androidin puheentunnistusta lyhyiden yksinkertaisten viestien "kirjoittamiseen" ja se on toiminut siinä hommassa jo pari vuotta ihan kelvollisesti.

8.

Aika usein laitan ajastimen sanomalla vaan "ok google, set timer in x minutes" näppärä kokatessa jos on kädet jossain mössössä. Nyt huomasin että spotifystakin voi soittaa musiikkia, jos sanoo "play metallica on spotify". Hyvin tuo ainakin englanniksi toimii kunhan ei ihan black round pirelli osastoa vedä.

9.
Laquel

Aika usein laitan ajastimen sanomalla vaan "ok google, set timer in x minutes" näppärä kokatessa jos on kädet jossain mössössä. Nyt huomasin että spotifystakin voi soittaa musiikkia, jos sanoo "play metallica on spotify". Hyvin tuo ainakin englanniksi toimii kunhan ei ihan black round pirelli osastoa vedä.

Pitäähän se puheentunnistus sieltä ensin täpätä jollain sormella auki. Vai onko sulla Motorola joka kuuntelee kokoajan?

10.
LaDeX

Pitäähän se puheentunnistus sieltä ensin täpätä jollain sormella auki. Vai onko sulla Motorola joka kuuntelee kokoajan?

"ok google" toimii

11.
Laquel

"ok google" toimii

Niin kun on ensin jollain tapaa herättänyt puhelimen ja avannut lukituksen ja pitää olla sallittu launcherin asetuksista että toimii myös homescreenissä eikä vain google-appissa. Näin ainakin SGS6:lla.

12.

Jos ei ole tapana puhelimella paljoa kirjoittaa, niin ainakin kadunnimen syöttäminen google mapsiin onnistuu kätevästi puhumalla. Vielä parempi juttu jos on itse ajamassa.

13.

Jos ajaa niin taustamelu voi olla liian suuri eli toimii satunnaisesti.
Se on vähän sama ongelma mitä on vaivannut jo nokia puhelinten soittajan haulla eli pitää olla hiljainen ympäristö vaikka tekniikka on kyllä kehittynyt parempaan suuntaa siinä saralla.
Eli ei puhuta mitään uudesta villityksestä vaan jo aika vanhasta ideasta mitä on kehitetty etenpäin.

14.

"Nykyaikaiselle" puheentunnistukselle höpiseminen on pelkästään kiusallista.

15.

Ainakaan '97 Hiace ei ole ajomelun suhteen mistään hiljaisimmasta päästä ja Nexus 6P:llä tunnistaa kadunnimet todella hyvin. Yleensäkin tossa navigointihommassa ajon aikana tuo on kyllä ihan huippu ominaisuus.

16.
Flash-A-Holic

Kehitystä on selkeästi tapahtunut. Ennen muinoin kandit kirjoittivat lääkäreiden sanelut puhtaiksi mutta nykyään he "vain" korjailevat automaattisen puheentunnistuksen tekemän kirjoituksen virheet. Kuulemma toistaiseksi helpompaa vain kuunnella nauha alusta asti uudelleen. Muttä pienin askelin eteen päin :comp:.

Kai tiedät, että sairaaloissa on ollut ja on erikseen tekstinkäsittelijöiden porukka joka kirjoittaa lääkäreiden sanelut puhtaaksi koneella?

17.

poisto

18.
Flash-A-Holic

Tiedän ja usein kyseistä työtä tekevät lääkäriopiskelijat sivutyönä opintojen ohessa mutta myös joissain harjoitteluissa osana koulutusta.

Yhtään ainoata lääkäriopiskelijaa ei ole tekstinkäsittelijöissä vielä tullut vastaan.

Toin vain esille, että aiemmin sanelut kirjoitettiin puhtaaksi suoraan nauhalta mutta nykyään välissä käytetään automaattista puheentunnistusohjelmaa. Nykyään tämä sinun mainitsemasi porukka sitten korjailee puheentunnistusohjelman virheitä ja kuulemma helpompaa on vain kuunnella nauha alusta.

Myöskään automaattinenpuheentunnistusta ei ole tullut vastaan vaan sanelut hoidetaan nykyään kasettien sijasta digitaalisesti mutta vielä ei ole tullut automaattistapuheentunnistusta vastaan. Minkä sairaanhoitopiirin toimintaan tämä apt mahtaa kuuluua?

19.

poisto

Osallistu keskusteluun MuroBBS:ssäKommenttikupla