Siristä Cortanaan: Miksi puhelimet ymmärtävät nykyään puhetta?

03.03.2016 15:30 | Olli Sulopuisto

Cortana

Puheentunnistus oli pitkään lähestulkoon mahdoton tehtävä tietokoneille, mutta nyt höpöttelyä ymmärtäviä palveluita putkahtelee joka nurkasta.

Älypuhelimissa Androideissa kuuntelee Google Now, iPhonessa päivystää Applen Siri, Windows-luureissa Cortana (kyllä, nimi on Halo-pelisarjan peruja) ja kiinalaisella Baidulla Duer. Sen lisäksi Amazonilla on Echo-pönttö, joka toimii sekä (bluetooth-)kaiuttimena että puhetta ymmärtävänä verkkokauppa-apurina.

Mistä tungos johtuu?

Lähdetään purkamaan tilannetta ilmeisimmästä päästä eli Kiinasta. Koska kirjoitusmerkkien näpytteleminen virtuaalinäppiksellä on jossain määrin tuskallista, on ilmeistä että hyvin toimiva puheentunnistus olisi kiehtova vaihtoehto. Jos Baidu saa samalla käyttäjät shoppailemaan enemmän, mikäs siinä.

Samantapainen logiikka vaikuttaa myös muiden puhelimissa käytettävien puheentunnistusvekottimien taustalla. Aina kädet eivät ole vapaana tai tietyn operaation — soita Hexvesselin uusin levy — hoitaminen sormilla näpyttelemällä on turhan monimutkaista, joten parin lauseen ääneen lausuttu komento hoitaa saman homman paljon nopeammin.

Applen graalin maljaksi on arvailtu puheella ohjattavaa televisiota, koska Steve Jobs haikaili tv-maailman mullistamista. Amazon taas tahtoo saada jalkaa oven väliin olohuoneissa, koska taistelun kännyköistä ja tableteista se on auttamattomasti jo hävinnyt. Echolla voi tilata vessapaperia ja kuunnella musiikkia Amazonin suoratoistopalvelusta, mutta nykyään myös Spotifystä.

Siri

Neuroverkko erottaa puheen metelistä

Kuten aluksi todettiin, puheentunnistus ei ole aivan läpihuutojuttu. Isoista puhelinpelureista ensimmäisenä apajille ehti Google, joka pyöritti Yhdysvalloissa vuosina 2007–2010 ilmaista puhelinhakemistopalvelua: soita numeroon, kerro asiasi automaatille ja järjestelmä kertoo etsimäsi ihmisen numeron.

Palvelun tarkoituksena oli kerätä laaja määrä erilaatuisia ja -aksenttisia ääninäytteitä, joita voitiin käyttää puheentunnistusalgoritmin kouluttamiseen. Tämä on samalla hyvä muistutus ilmaisten palveluiden luonteesta. Jos niitä ylläpidetään jostain muusta syystä kuin käyttäjiltä tulevan rahan takia, ne saattavat myös lopettaa hetkellä millä hyvänsä.

Kyse on myös tuotekehityksen edistysaskeleesta. Google vaihtoi vuonna 2012 syväoppiviin neuroverkkoihin, jonka jälkeen yhtiö alkoi käyttää takaisinkytkettyjä neuroverkkoja ja Connectionist Temporal Classification -menetelmiin.

Niiden ansiosta se mainosti syksyllä 2015 saavuttaneensa huomattavasti aiempaa parempia tuloksia etenkin silloin, kun tunnistettavan puheen taustalla kuuluu meteliä.

Google Now

Puhumme myös suomea!

Suomalaisten kannalta mukavaa on, että tietokoneet ymmärtävät nykyään myös meidän sönkötystämme.

Google Now’ta on voinut käskyttää suomeksi jo hyvän aikaa ja tammikuussa julkaistu Sirin betaversio tajuaa sekin suomea. Onhan siinä jotain hienosti scifihtävää, kun voi käskeä puhelinta tekemään asioita. Muistan esitelleeni Google Now’n puheentunnistusta filosofikaverilleni sanomalla puhelimella ’unheimlich’, jonka laite tunnisti ihan oikein.

Seuraava lause on saneltu:

puheentunnistus toimii melko hyvin mutta ei tietenkään täydellisesti ja etenkin välimerkit ongelma tämä rivi mä kirjotin käyttämään googlen puheentunnistusta

Pientä säätöä siis vaaditaan vielä, mutta unelma täydellisestä sanelimesta elää yhä. Viime vuonna minulta kysyttiin, joko haastattelunauhojen purkaminen onnistuisi tietokoneohjelmalla. Vastaukseksi kaivoin esiin englanninkielisen yritysvideon ja kytkin päälle YouTuben automaattisen tekstitysominaisuuden.

Lopputulos on… kiinnostava. Katsokaa itse – ja muistakaa tosiaan klikata CC-nappia.

Muropaketin uusimmat