U niekoľko dní sa z televíznych obrazoviek z reklamy prihovára hlas Jula Satinského. Ako bol oživený hlas známej legendy, ktorá v reklame hovorí slová, ktoré v skutočnosti nikdy nepovedala?
Hovorí sa tomu ,Speech to speechʽ spôsob spracovania hlasu. Potrebná je na to umelá inteligencia AI, ktorá dokáže na základe vstupných dát vytvoriť jeho syntetickú zvukovú kópiu.
„Väčšina spracovávaného obsahu pochádzala z analógových nahrávok, ktoré boli vytvorené začiatkom 90-tych rokov. Najnovšia z použitých nahrávok hlasu Satinského bola vytvorená v roku 1994,“ vysvetľuje Volodymyr Ovsiienko, Business Development Executive ukrajinskej spoločnosti Respeecher, ktorá vytvorila syntetický hlas Jula Satinského.
Respeecher analyzoval po kvalitatívnej stránke hodiny získaného materiálu, z ktorých vyselektoval 40 minút technicky nezávadného a kvalitou dostačujúceho zvukového materiálu. Je to minimálna potrebná minutáž, s ktorou spoločnosť dokáže pracovať v rámci technológie „deep learning“, využívajúcej neurónovú sieť AI. Dôležitá bola najmä čistota nahrávky a absencia rušivých zvukov v pozadí.
Následne začal ukrajinský startup pomocou nahrávok trénovať AI model, ktorý rozpoznával a učil sa určité opakované vzory v hlase Satinského, vrátane rôznych polôh hlasu a emócií. Program umelej inteligencie sa učil rozoznávať a imitovať aj fonetiku slovenského jazyka. Umelá inteligencia v tomto prípade nerozoznáva reč na úrovni jednotlivých slov, ale na základe zvukov, ktoré sa v danom jazyku nachádzajú a vzoru ich vzájomného fonetického usporiadania. Táto fáza trvala umelej inteligencii približne 2 týždne.
Julov hlas Respeecher následne aplikoval na podklad, ktorý v štúdiu nahral herec Michal Hudák. Jeho úlohou bolo zvoliť čo najautentickejšie tempo reči, intonáciu, frázovanie, akcent a zhmotniť v hlase emócie, ktoré by zodpovedali verbálnemu prejavu Jula Satinského. Proces aplikácie už hotového Julovho hlasu na surovú zvukovú nahrávku trval spoločnosti týždeň.
Celkovo vzniklo 5 minút audio materiálu so Satinského hlasom, ktorý znie v novej kampani Slovenskej sporiteľne. K výsledku sa vyjadrila aj rodina. Tá podľa Slovenskej sporiteľne potvrdila vysokú mieru autentickosti nových nahrávok s hercovým originálnym hlasom.
Za videom je umelá inteligencia a startup z Ukrajiny
Ide o vôbec prvý projekt svojho druhu na Slovensku a zároveň prvú slovenskú spoločnosť, ktorá spolupracovala s ukrajinským startupom Respeecher na vytváraní hlasu pomocou umelej inteligencie.
Respeecher vznikol ako startup v roku 2018. Založili ho Alex Serdiuk, Dmytro Bielievtsov a Grant Reaber. Dnes je považovaný za svetového lídra vo svojej oblasti v používaní AI a neurónovej siete, ktorá dokáže na základe vstupných dát v podobe existujúceho audio-obsahu, vytvoriť verný profil charakteru vybraného hlasu. Ten je potom možné aplikovať na rečový prejav inej osoby (spravidla dabéra), čím ho zámerne modifikuje. Táto spoločnosť stojí napríklad za tvorbou hlasu postavy Darth Vader v Obi-Wan Kenobi a postavy Luke Skywalker v Mandalorian.
Technologický spôsob spracovania hlasu, ktorému sa Respeecher venuje, sa diametrálne odlišuje od rozšírenejšej technológie „Text to speech“ (TTS), ktorú používatelia poznajú najmä z digitálnych prekladačov, čítačiek kníh či hlasových asistentov. TTS z textu nedokáže vytvoriť emócie, a tak je hlas často neprirodzený (tzv. robotický). Nezohľadňuje taktiež intonáciu hlasu, tá sa riadi len prednastaveným algoritmom a interpunkciou v texte.