Uusimmat

Microsoftin uusi tekoäly imitoi kenen tahansa ääntä – käyttäjältä tarvitaan vain 3 sekunnin pätkä puhetta

15.01.2023 20:35 Muropaketin toimitus

Microsoft kertoi kehittäneensä tekstistä-puheeksi-tekoälymallin nimeltään VALL-E. Sen avulla voi simuloida ihmisen ääntä.

Ainakin väitetysti VALL-E oppii ihmisen äänen jo kolmen sekunnin ääninäytteestä. Sen jälkeen tekoäly syntetisoi kirjoitetusta tekstistä puhetta mielin määrin. Tekoäly osaa säilyttää myös puheen eri tunnesävyt, ja tekoäly simuloi myös laulamista.

Microsoft kertoo VALL-E:n perustuva ”neuraalikoodekkien kielimalliin”, joka perustuu EnCodec-nimiseen teknologiaan. Meta julkisti sen lokakuussa 2022.

Puheen syntetisointi on perinteisesti toiminut aaltomuotoja manipuloimalla. VALL-E puolestaan jakaa puhedatan erillisiksi komponenteiksi. Niiden ja EnCodecin avustuksella VALL-E ”tietää”, miltä puhe kuulostaisi, jos se puhuisi jotain muuta kuin käyttäjältä kuulemiaan lauseita.

Kehittäjien mukaan VALL-E:tä voitaisiin käyttää korkealaatuisiin tekstistä puheeksi -sovelluksiin sekä puheen muokkaamiseen. Näin vaikuttaisi, että puhuja olisi sanonut jotain muuta mitä he alun perin sanoivat. Äänisisällön voisi myös yhdistää muihin generatiivisiin tekoälymalleihin, joihin kuuluu ainakin GPT-3.