Mesterséges intelligencia

A mesterséges intelligencia már nemcsak megszólalásig tökéletes

Az utóbbi időben érdekes hírek jelentek meg a Google mesterséges intelligencia (MI) fejlesztésének egyik mellékszáláról, az új generációs beszédszintetizátor szoftverükről, a Tacotron 2-ről, ami immáron nemcsak megszólalásig, hanem azt követően is kísértetiesen hasonlít egy emberi hangra.

A példaként az interneten körbefutó hanganyagaik több, mint meggyőzőek, jelenleg a nagyon vájtfülűek, a jövőben pedig talán már csak egy másik MI lesz a megmondhatója, hogy igazi ember, vagy csak a hangjának a gépi másolata hallható egy hangfelvételen. Íme néhány példa a jelenlegi technológiáról:

Tacotron 2 vagy ember?

Az alábbi példamondatot a Tacotron 2 és egy ember is felolvassa, de vajon melyik az igazi?
“That girl did a video about Star Wars lipstick.”
1
2

Forrás: https://google.github.io/tacotron/publications/tacotron2/

Mindez ráadásul tökéletes hangkörnyezetben is összetéveszthető, háttérzajjal a hatás még összezavaróbb lehetne. A rendszerről egyébként már egy rövidebb tanulmány is elérhető. Természetesen ez csak az egyik megvalósítás a sok közül, ami jelenleg ezen a kutatási területen elérhetővé vált.

A kevésbé fejlett “verziókkal” a Microsoft Windows felhasználói is találkozhattak már például a Narrátor funkció használata során. Ugyancsak “beszélni tud” például a Google Home és az Amazon Echo is, meg persze a vásári játékbaba is, csak a mögöttük levő technológia tér el egymástól.

A Tacotron 2 azonban egyfelől sokkal emberibb felhasználói élményt nyújt, másrészt – bár egyelőre még jelentős munkabefektetéssel – egy “lemásolni” kívánt hangmintákhoz igazítható, hiszen a fenti minták is így születhettek.

A technológia tehát már adott arra is, hogy egy adott személy hangmintái alapján bármilyen tetszőleges hanganyag összeállításra kerülhessen, akár a hang tulajdonosának tudatos közreműködése nélkül is. Ennek nyomán azonban több, jelenleg már elterjedt technológiai megoldáson módosítani kell majd, illetve az élet számos területét érintheti, mint probléma.

Evidens, hogy az eddig sem túl megbízható hangalapú azonosítás, különösen önmagában használva mehet a kukába (leszámítva természetesen néhány professzionális megoldást). Mindez vélhetően nem sokakat érint, annál inkább az a tény, hogy manapság számos jognyilatkozat megtehető például telefonon keresztül, amelyeket gyakran bizonyítási szándékkal őriznek meg a szolgáltatók.

Bár általában az azonosítás itt sem a hangminta alapján történik, hanem személyes adatok bemondásával, de amennyiben az adatok ismertek a jogosulatlan hangfelhasználó részéről, úgy az ellenbizonyítás szinte lehetetlenné válik. Különösen amíg ennek a lehetőségnek a veszélyére senki nem hívja fel még a figyelmet sem.

Talán a jog sincs tökéletesen felkészülve a jelenségre, amelynek nyomán valakinek a hangja lemásolásra kerülhet. A Polgári Törvénykönyv 2:48. § (1) bekezdése annyit mond, hogy képmás vagy hangfelvétel elkészítéséhez és felhasználásához az érintett személy hozzájárulása szükséges. A második bekezdés szerint nincs szükség az érintett hozzájárulására a felvétel elkészítéséhez és az elkészített felvétel felhasználásához tömegfelvétel és nyilvános közéleti szereplésről készült felvétel esetén.

Csakhogy a fent bemutatott technológia nem egy rögzített hangfelvételt jelent, hanem egy abból generált új, a valóságban soha el nem hangzott hanganyagot. Ez a helyzet jogi értelemben természetesen kezelhető úgy is, hogy a mesterséges hangképzés alapjául szolgáló hangrögzítésre, illetve annak ilyen célból való felhasználására sem történt eredetileg engedélyadás.

Illetve az adatvédelem szabályai is relevánsak lehetnek. Az információs önrendelkezési jogról és az információszabadságról szóló 2011. évi CXII. törvény szerint adatkezelés a hang- vagy képfelvétel készítése.

Megint más kérdés, hogy a hangfelvétel készítés alatt pontosan mit kell érteni, ha egyébként nem is az elhangzottak rögzítése a cél, hanem az új hangok képzéséhez szükséges “adatgyűjtés”, akár nem is rögzítve az eredeti formájában a ténylegesen elhangzottakat.

Ráadásul talán mégis más mértékű a személyiségi jogok sérelme akkor, ha egy egyébként elhangzott szöveg kerül jogosulatlanul felhasználásra, mintha az adott mondatok soha még csak el sem hangoztak volna. Az ellenbizonyítás pedig szinte lehetetlen (háttérzajokkal manipulálva pedig talán már jelenleg is eltakarhatók a még megmaradt utolsó árulkodó jegyek is).

A technológia szárnyal és ennek minden előnye mellett is egyre inkább kiszolgáltatottá válik az ember az újabbak megjelenésével. Ráadásul egyfajta szakadék kezd kialakulni, a professzionális és a mindennapi technológiák között, ami pár évtizede még nem feltétlenül volt evidens jelenség. A magnókazetták korában az amatőr és a professzionális felhasználó is magnót használt, legfeljebb a felhasznált anyagok és résztechnológiák voltak utóbbinál fejlettebbek.

A “hagyományos” összevágással operáló technológia ma már megmosolyogtató viccet eredményezhet

Jelenleg azonban a professzionális MI és annak oldalágai, mint például a professzionális beszédszintetizátor és az otthoni technológiák között korábban elképzelhetetlen méretű a technológiai és ezzel képességbeli szakadék, így a felhasználók talán nem is érzékelik ennek minden veszélyét és lehetséges kihatását a mindennapjaikra.

Érdekes, hogy az idei évben több, blockbusternek szánt filmalkotás is megjelent a jövőbeli technológiák és a társadalom “találkozásának” legalapvetőbb problémáit boncolgatva. Az érdeklődés elmaradása miatt azonban a Blade Runner 2049 és a Ghost in the Shell feldolgozás is kisebb-nagyobb bukásnak tekinthető, ami egyfajta lakmuszpapírja annak, hogy jelenleg alacsony még a felületes érdeklődés is a téma iránt.

A jövőre nézve, egy dolog biztos lesz: 2018-ban még nehezebb lesz megkülönböztetni a valóságot a kitalációtól. Legyen szó hírekről (aminek idesorolása azért is oximoron, mert normális társadalmi közegben fogalmi eleme kellene legyen a tényszerűség), képekről, hangokról, és úgy általában: a valóságról.

Ha tetszett, ne maradj le a következőről:

 

Kommentek