A tegnapi nap során két élethű MI hasonmás debütált a China Online Literature+ konferencián: Yue Guan és Bu Xin Tian Shang Diao Xian Bing alkotó másai, amelyeket videofelvételekből gyúrtak össze a fejlesztők.
A Sogounak nem ez az első ilyen jellegű fejlesztése, ugyanis a cég nevéhez köthető a tavaly munkába állított két hírolvasó, akik abban különböznek kollégáiktól, hogy mesterséges intelligencia vezéreli őket. A két hírolvasó olyannyira bevált, hogy a kínai állami hírügynökség, a Xinhua a mai napig használja őket – erről ebben a cikkben írtunk bővebben.
A cél a „professzionális narráció”
Kína igencsak szányra kapott a Nyugathoz képest, már ami a hangoskönyveket illeti. A kínai ötleteket elemző és szemléző iiMedia várakozásai szerint, ez a piac hatalmas növekedés előtt áll, és már jövőre elérheti az évi 7,8 milliárd kínai jüant (kb.: 3 milliárd forint).
A speech-to-text technológia fejlődésének köszönhetően, szinte minden akadály eltűnt a hangoskönyvek új szintre lépése elől, így nem meglepő, hogy az első szintetikus hangok integrálása, ezáltal az alkotó „eredeti” hangján való felolvasás megvalósult - számolt be róla a BBC.
Ez utóbbi nagyon kapóra is jön a hangoskönyvgyártóknak, ugyanis az emberek sokkal jobban szeretik azokat a szóban forgó könyveket, amelyek „professzionális narrációt” kaptak, azaz egy híres színész, tiszteletben álló közszereplő vagy maga az író kölcsönzi a hangját a sztori felolvasásához.
.jpg)
Saját magad vagy pp Barack Obama olvassa fel a művet? Nem gond!
A gépi tanulás és a speech-to-text fejlődésének köszönhető még az is, hogy a digitalizált hangok még élethűbbé váltak, és ezáltal a gyártók még szélesebb kört képesek megszólítani.
Például a Lyrebird Dashboard, ami a mesterséges hangok realisztikus megalkotásában utazik, lehetővé tette az ügyfelei számára, hogy egyedi "hang avatárokat" készítsenek a saját hangjuk egyperces felvételéből.
A cég weboldalán egyébként meghallgatható Barack Obama az USA volt elnökének, és Donald Trumpnak, az Amerikai Egyesült Államok jelenlegi elnökének a hangja is, amit szintén hangmintából, gépi tanulással állítottak elő.
Eközben a londoni tech start-up, a DeepZen szerint fenti technológiának az előretörése és alkalmazása szinte végtelen mennyiségű variációban elérhető hangoskönyv létrehozását segítheti elő, nem beszélve arról, hogy az előállítási költséget és időt, körülbelül 90 százalékkal csökkenti.