Siristä Cortanaan: Miksi puhelimet ymmärtävät nykyään puhetta?

03.03.2016 15:30 Olli Sulopuisto

Puheentunnistus oli pitkään lähestulkoon mahdoton tehtävä tietokoneille, mutta nyt höpöttelyä ymmärtäviä palveluita putkahtelee joka nurkasta.

Älypuhelimissa Androideissa kuuntelee Google Now, iPhonessa päivystää Applen Siri, Windows-luureissa Cortana (kyllä, nimi on Halo-pelisarjan peruja) ja kiinalaisella Baidulla Duer. Sen lisäksi Amazonilla on Echo-pönttö, joka toimii sekä (bluetooth-)kaiuttimena että puhetta ymmärtävänä verkkokauppa-apurina.

Mistä tungos johtuu?

Lähdetään purkamaan tilannetta ilmeisimmästä päästä eli Kiinasta. Koska kirjoitusmerkkien näpytteleminen virtuaalinäppiksellä on jossain määrin tuskallista, on ilmeistä että hyvin toimiva puheentunnistus olisi kiehtova vaihtoehto. Jos Baidu saa samalla käyttäjät shoppailemaan enemmän, mikäs siinä.

Samantapainen logiikka vaikuttaa myös muiden puhelimissa käytettävien puheentunnistusvekottimien taustalla. Aina kädet eivät ole vapaana tai tietyn operaation — soita Hexvesselin uusin levy — hoitaminen sormilla näpyttelemällä on turhan monimutkaista, joten parin lauseen ääneen lausuttu komento hoitaa saman homman paljon nopeammin.

Applen graalin maljaksi on arvailtu puheella ohjattavaa televisiota, koska Steve Jobs haikaili tv-maailman mullistamista. Amazon taas tahtoo saada jalkaa oven väliin olohuoneissa, koska taistelun kännyköistä ja tableteista se on auttamattomasti jo hävinnyt. Echolla voi tilata vessapaperia ja kuunnella musiikkia Amazonin suoratoistopalvelusta, mutta nykyään myös Spotifystä.

Neuroverkko erottaa puheen metelistä

Kuten aluksi todettiin, puheentunnistus ei ole aivan läpihuutojuttu. Isoista puhelinpelureista ensimmäisenä apajille ehti Google, joka pyöritti Yhdysvalloissa vuosina 2007–2010 ilmaista puhelinhakemistopalvelua: soita numeroon, kerro asiasi automaatille ja järjestelmä kertoo etsimäsi ihmisen numeron.

Palvelun tarkoituksena oli kerätä laaja määrä erilaatuisia ja -aksenttisia ääninäytteitä, joita voitiin käyttää puheentunnistusalgoritmin kouluttamiseen. Tämä on samalla hyvä muistutus ilmaisten palveluiden luonteesta. Jos niitä ylläpidetään jostain muusta syystä kuin käyttäjiltä tulevan rahan takia, ne saattavat myös lopettaa hetkellä millä hyvänsä.

Kyse on myös tuotekehityksen edistysaskeleesta. Google vaihtoi vuonna 2012 syväoppiviin neuroverkkoihin, jonka jälkeen yhtiö alkoi käyttää takaisinkytkettyjä neuroverkkoja ja Connectionist Temporal Classification -menetelmiin.

Niiden ansiosta se mainosti syksyllä 2015 saavuttaneensa huomattavasti aiempaa parempia tuloksia etenkin silloin, kun tunnistettavan puheen taustalla kuuluu meteliä.

Puhumme myös suomea!

Suomalaisten kannalta mukavaa on, että tietokoneet ymmärtävät nykyään myös meidän sönkötystämme.

Google Now’ta on voinut käskyttää suomeksi jo hyvän aikaa ja tammikuussa julkaistu Sirin betaversio tajuaa sekin suomea. Onhan siinä jotain hienosti scifihtävää, kun voi käskeä puhelinta tekemään asioita. Muistan esitelleeni Google Now’n puheentunnistusta filosofikaverilleni sanomalla puhelimella ’unheimlich’, jonka laite tunnisti ihan oikein.

Seuraava lause on saneltu:

puheentunnistus toimii melko hyvin mutta ei tietenkään täydellisesti ja etenkin välimerkit ongelma tämä rivi mä kirjotin käyttämään googlen puheentunnistusta

Pientä säätöä siis vaaditaan vielä, mutta unelma täydellisestä sanelimesta elää yhä. Viime vuonna minulta kysyttiin, joko haastattelunauhojen purkaminen onnistuisi tietokoneohjelmalla. Vastaukseksi kaivoin esiin englanninkielisen yritysvideon ja kytkin päälle YouTuben automaattisen tekstitysominaisuuden.

Lopputulos on… kiinnostava. Katsokaa itse – ja muistakaa tosiaan klikata CC-nappia.

Uusimmat

DeepCoolilta kompakti PC-kotelo – katolle on ympätty kätevä kantokahva

Turtle Beachin Roccat-brändi sai kirveestä

Sonos-sovellus uudistuu – kaikki palvelut ja sisällöt selkeämmin esiin aloitusnäytölle

Team Groupilta perustason SSD – vähävirtaisuutta ja viileyttä arvostavalle

Siristä Cortanaan: Miksi puhelimet ymmärtävät nykyään puhetta?

Neuroverkko erottaa puheen metelistä

Puhumme myös suomea!

Tatu Junni

Yhteistyössä Muropaketin kanssa

Kommentti IFA 2023 -messutapahtuma – Hallittu silmänkääntötemppu

Gigabyten emolevyissä on huolestuttava takaportti – rikollisten mahdollista päästä hyödyntämään

PlayStationille julkaistiin ympäristöystävälliset pelikuulokkeet – valmistettu lähes kokonaan kierrätysmuovista

Intel paikkasi verkko-ohjaimensa ongelmaa – uusi ajuri julkaistu

Muropaketin uusimmat

Netflixiin tuli tänään elokuva, joka nousi Suomen katsotuimmaksi vuonna 2022: ”Voisi olla rohkeampikin”

Yle Areenaan tuli elokuva, joka sai kriitikot yrjöämään vuonna 2022, mutta nousi silti Suomen katsotuimmaksi

Netflixin hittisarja lopetetaan, 40 vuotta hukassa ollut elokuva Disney+:aan, nyt Dyyni 2:n voi katsoa kotonakin… – 10 uutista, jotka tältä viikolta pitää lukea

Taru sormusten herrasta -tähti ei muistele hahmoaan lämmöllä: “Se oli pelkkä pyykinkuivausteline”

Kevään isoin Netflix-elokuva julkaistaan perjantaina kello 10.00

Maailman vihatuin bändi valtaa Finnkinon teatterit huomenna – Helsingissä lippuja on myyty vain 26 kappaletta

HBO Maxin jättihitti tuli Netflixiin – kaikki 94 jaksoa katsottavissa heti

Netflixiin tuli tänään elokuva, joka nousi Suomen katsotuimmaksi vuonna 2022: ”Voisi olla rohkeampikin”

Panot ja paljas pinta piiloon – Netflixin hittisarjasta on tehty sensuroitu versio näyttelijän vanhempia varten

Kevään odotetuin scifi-sarja alkaa torstaina – kaikki kahdeksan jaksoa julkaistaan heti