Napredak u tehnologiji strojnog učenja i prepoznavanju govora omogućio je lakši pristup informacijama ljudima, posebno onima koji se oslanjaju na glas kako bi došli do informacija. Međutim, nedostatak označenih podataka za brojne jezike predstavlja značajan izazov u razvoju kvalitetnih modela strojnog učenja. Ovo bi se moglo, kolokvijalno, nazvati umjetna inteligencija za učenje jezika. Ali, radi se ipak o nešto kompliciranijem sistemu.
Kao odgovor na taj problem, projekt Massively Multilingual Speech (MMS) koje predvodi Meta ostvario je značajan napredak u proširivanju pokrivenosti jezika i poboljšanju performansi modela za prepoznavanje i sintezu govora.
Spajanjem tehnika samo-superviziranog učenja s raznolikim skupom podataka religijskih čitanja, MMS projekt postigao je impresivne rezultate u proširivanju broja jezika koje podržava s oko 100 na preko 1.100 jezika.
Pročitaj više: Da li nam treba regulacija AI?
Prevazilaženje jezičnih barijera
Kako bi riješili problem nedostatka označenih podataka za većinu jezika, MMS projekt je koristio religijske tekstove poput Biblije, koji su prevedeni na mnoge jezike.
Ti prijevodi pružili su javno dostupne audio snimke ljudi koji čitaju tekstove, omogućujući stvaranje skupa podataka koji uključuje čitanja Novog zavjeta na preko 1.100 jezika.
Uključivanjem neoznačenih snimaka drugih religijskih čitanja, projekt je proširio pokrivenost jezika prepoznavanja na preko 4.000 jezika.
Unatoč specifičnoj domeni skupa podataka i uglavnom muškim izvođačima, modeli su jednako dobro funkcionirali za muške i ženske glasove. Meta također tvrdi da nije uveo nikakvu religijsku pristranost.
Prevazilaženje izazova pomoću samo-superviziranog učenja
Obuka konvencionalnih modela za prepoznavanje govora s nadzorom pomoću samo 32 sata podataka po jeziku je nedovoljna.
Kako bi prevladali tu ograničenost, MMS projekt je iskoristio prednosti tehnike samo-superviziranog učenja za reprezentaciju govora nazvane wav2vec 2.0.
Obučavajući samo-supervizirane modele na otprilike 500.000 sati govornih podataka na 1.400 jezika, projekt je značajno smanjio ovisnost o označenim podacima.
Nakon toga su dobiveni modeli fino podešeni za specifične govorne zadatke, poput višejezičnog prepoznavanja govora i identifikacije jezika.
Impresivni rezultati
Evaluacija modela obučenih na MMS podacima otkrila je impresivne rezultate. U usporedbi s OpenAI Whisperom, MMS modeli su pokazali pola manju pogrešku u prepoznavanju riječi dok su pokrivali 11 puta više jezika.
Osim toga, MMS projekt je uspješno izgradio sustave pretvorbe teksta u govor za preko 1.100 jezika. Unatoč ograničenju relativno malog broja različitih izvođača za mnoge jezike, govor generiran tim sustavima pokazao je visoku kvalitetu.
Iako su MMS modeli pokazali obećavajuće rezultate, važno je prepoznati njihove nedostatke. Netočnosti u prijepisima ili pogrešno interpretirani govorni modeli mogu rezultirati uvredljivim ili netočnim jezikom. MMS projekt naglašava suradnju unutar AI zajednice kako bi se ublažili takvi rizici.






