Stephen King vagy Ernest Hemingway? Megérkezett a mesterséges intelligencia, ami a szerző hangján olvassa fel a könyvet

A Kínában népszerű keresőmotor funkciót is nyújtó Sogou tegnap debütált egy világon egyedülálló megoldással, aminek köszönhetően nem csak a kedvenc író hangján olvassa fel a mesterséges intelligencia az adott művet, de a tökéletes hasonmását is képes magára ölteni.

A tegnapi nap során két élethű MI hasonmás debütált a China Online Literature+ konferencián: Yue Guan és Bu Xin Tian Shang Diao Xian Bing alkotó másai, amelyeket videofelvételekből gyúrtak össze a fejlesztők.

A Sogounak nem ez az első ilyen jellegű fejlesztése, ugyanis a cég nevéhez köthető a tavaly munkába állított két hírolvasó, akik abban különböznek kollégáiktól, hogy mesterséges intelligencia vezéreli őket. A két hírolvasó olyannyira bevált, hogy a kínai állami hírügynökség, a Xinhua a mai napig használja őket – erről ebben a cikkben írtunk bővebben.

A cél a „professzionális narráció”

Kína igencsak szányra kapott a Nyugathoz képest, már ami a hangoskönyveket illeti. A kínai ötleteket elemző és szemléző iiMedia várakozásai szerint, ez a piac hatalmas növekedés előtt áll, és már jövőre elérheti az évi 7,8 milliárd kínai jüant (kb.: 3 milliárd forint).

A speech-to-text technológia fejlődésének köszönhetően, szinte minden akadály eltűnt a hangoskönyvek új szintre lépése elől, így nem meglepő, hogy az első szintetikus hangok integrálása, ezáltal az alkotó „eredeti” hangján való felolvasás megvalósult - számolt be róla a BBC.

Ez utóbbi nagyon kapóra is jön a hangoskönyvgyártóknak, ugyanis az emberek sokkal jobban szeretik azokat a szóban forgó könyveket, amelyek „professzionális narrációt” kaptak, azaz egy híres színész, tiszteletben álló közszereplő vagy maga az író kölcsönzi a hangját a sztori felolvasásához.

Saját magad vagy pp Barack Obama olvassa fel a művet? Nem gond!

A gépi tanulás és a speech-to-text fejlődésének köszönhető még az is, hogy a digitalizált hangok még élethűbbé váltak, és ezáltal a gyártók még szélesebb kört képesek megszólítani.

Például a Lyrebird Dashboard, ami a mesterséges hangok realisztikus megalkotásában utazik, lehetővé tette az ügyfelei számára, hogy egyedi "hang avatárokat" készítsenek a saját hangjuk egyperces felvételéből.

A cég weboldalán egyébként meghallgatható Barack Obama az USA volt elnökének, és Donald Trumpnak, az Amerikai Egyesült Államok jelenlegi elnökének a hangja is, amit szintén hangmintából, gépi tanulással állítottak elő.

Eközben a londoni tech start-up, a DeepZen szerint fenti technológiának az előretörése és alkalmazása szinte végtelen mennyiségű variációban elérhető hangoskönyv létrehozását segítheti elő, nem beszélve arról, hogy az előállítási költséget és időt, körülbelül 90 százalékkal csökkenti.

Stephen King vagy Ernest Hemingway? Megérkezett a mesterséges intelligencia, ami a szerző hangján olvassa fel a könyvet

Figyelem!