Pár évvel ezelőtt, a diplomamunkám mottójának – amely egyébként a digitális adattartalmak szerzői jogi védelméről szólt – egy talán nem túl ismert, Leninnek tulajdonított idézetet választottam. Akkor a digitális jogkezelő rendszerek működését vizsgáltam, de úgy tűnik, hogy a digitális adattartalmak összessége, mint Big Data elemzése során is releváns lehet az alcímnek választott idézet.
A témakörben elég nehéz újat mondani, hiszen a Snowden-ügy, Julian Assange szivárogtatásai és a HackingTeam meghekkelése nyomán gyakorlatilag áttekinthetetlen mennyiségű információ látott napvilágot a nemzetbiztonsági szolgálatok működésével kapcsolatban, amit később számos újságcikk, interjú, könyv, tanulmány, dokumentumfilm feldolgozott már.
Gyakran azonban nincs idő egy-egy téma mélyebb megismerésére, amikor pedig igen, akkor az érdeklődő általában megelégszik a különböző hírportálok összefoglalóival. Ezzel viszont az a baj, hogy a mainstream médiában megjelenő cikkek szakmai színvonala meglehetősen változó. Ráadásul, a dezinformáció korszakát élve, facebook-posztokkal, twittekkel, blogokkal szemben hihetelenül nehéz bármilyen, 3 gépelt oldalnál hosszabb, szakmai tartalomnak versenyeznie.
Éppen ezért volt érdekes Illés Noémi: A Nagy Adat; A Nagy Adat nemzetbiztonsági aspektusai című cikkét olvasnom a Szakmai Szemlében, amit most részletesen be is mutatnék. Ugyan pár hónappal ezelőtt olvastam már Dr. Rajnai Zoltán – Nyikes Zoltán szerzőpárostól A Big Data alkalmazása a Nemzeti Digitális Közműben című írást, azonban a témakör akkor kifejezetten a társadalom digitális kompetenciájával, vagy talán még inkább: annak hiányával foglalkozott.
Mindez természetesen nagyon fontos, mégis, A Nagy Adat című írásból érthető meg szerintem konkrétabb példákkal, hogy mit is jelent a XXI. században a Big Data a nemzetbiztonsági szolgálatoknak. Vagy éppen az, hogy egyáltalán mennyire Big az a Data. Az persze nem vitás, hogy a cikkben szereplő állítások jelentős része más forrásból már megismerhetővé vált, ezért a témakörben járatosabbak számára talán evidens állításokat is tartalmaz. Viszont a cikk egyfajta iránytűként szolgál akkor is, ha egyébként is ismert forrásokat használ fel egy-egy témakör bemutatására, hiszen a cikk írója maga döntheti el, hogy kitől és mit idéz.
Elsőként érdemes kiemelni a cikkből, hogy mennyire nagy adatról beszélünk. „Az IDC statisztikái szerint 2005-től 2020-ig a globális adattömeg, azaz a digitális univerzum 300 szorosával fog növekedni, 130 exabájtról 40.000 exabájtra, vagyis 40 billió gigabájtra (ez azt jelenti, hogy az egy főre jutó adattömeg több mint 5200 gigabájt lesz 2020-ban). Az IDC becslése szerint 2020-ra a globális adattömeg 33%-a hordoz majd elemzéssel kinyerhető értékes információt, szemben a jelenlegi 25%-kal. Az EMC Digital Universe tanulmánya szerint a világ összes adatbázisa közel 4,4 zettabájt adatot tárol, 2020-ra ez a mennyiség a tízszeresére, 44 zettabájtra nő.”
Akik számára a zettabájt nem mond túl sokat, úgy lehetne a 44 zettabájtnyi adatmennyiséget szemléltetni, hogy ha egy adott időpillanatban CD-re írnánk ezeket az adatokat, és a CD-ket egymásra pakolnánk, akkor a CD-torony a Holdig érne. Meg vissza. Meg még maradna is.
„A Nagy Adat azonban nem csak az adatok növekedését foglalja magában, hanem azt a képességet is, hogy ezeket az adatokat fel tudjuk használni, és új megközelítéssel egészen másra felhasználni, egészen más összefüggéseket meglátni. A Nagy Adat egy előrejelzés, matematikai összefüggések vizsgálata a nagy adatmennyiségekre azzal a céllal, hogy valószínűségekre tudjunk következtetni. Megfelelő számítási kapacitás mellett ráadásul nincs szükség mintavételre és a téves adatok miatti pontatlanság is kezelhetővé válik” – olvasható a tanulmányban.
Legnagyobb értéke természetesen az elemezés alá vonható adatoknak van, amiknek az elsődleges forrása már most is a közösségi média. A ilyen oldalakon hihetetlen mennyiségű adat keletkezik: a Facebook felhasználói óránként több, mint tízmillió képet töltenek fel, hárommillió like-ot, vagy kommentet helyeznek el naponta. A Youtube havi 800 millió felhasználója másodpercenként egy óra videót tölt fel. „A Twitter üzenetek száma évente 200 százalékkal nő, 2012-re meghaladta a 400 milliót. Egy becslés szerint annyi adat keletkezett az informatika terén a kezdetektől számítva 2003-ig, mint 2010-ben két nap alatt, vagy mint az idei évben 10 perc alatt.”
A második forrás pedig a mobil kommunikáció. A cikk írója szerint az évtized végére az okostelefonok elterjedtsége általánossá válik az egész világon, a világ népességének 70 százaléka használ majd ilyen készüléket, az előfizetések száma több mint kétszeresére nő és eléri a 6,1 milliárdot, 90 százalékuk él majd mobil szélessávú hálózattal lefedett helyen. Az okostelefonok számának folyamatos emelkedése magával hozza az adathasználat növekedését is: becslések szerint 2020 végére eléri majd a havi 6,2 exabájtot, ez körülbelül a nyolcszorosa a 2014. évi forgalomnak. A teljes mobil adatforgalom 80 százalékát az okostelefonokon bonyolított forgalom teszi majd ki, aminek 60 százaléka videoinformáció lesz.
Az exabájt fogalma is magyarázatra szorulhat. Ezt úgy lehet talán legjobban elképzelni, hogy a Seagate jelentései szerint – 2011-ben – a teljes merevlemezpiac évi 330 exabájtnyi kapacitást jelentett, miközben az internet körülbelül 500 exabájt méretű volt 2009-ben. Ma az internet éves forgalma eléri az 1000 exabájtot, vagyis az 1 zettabájtot.
A globális vállalatok eközben minden lépésünkről adatot gyűjtenek. A bankkártyánk használatáról és forgalmáról, a törzsvásárlói kártyákkal kedvenc termékeinkről, vásárlási szokásainkról, a telefonszolgáltatók a telefon-használatunkról, a GPS-el rendelkező készülékek a tartózkodási helyünkről, a közösségi oldalak kapcsolatainkról, megnyitott oldalainkról. „A mutatók – ok-okozati kapcsolatok – felállításával következtetni lehet egy egyén szokásaira, pénztárcájának vastagságára, életmódjára (egészségi állapotára), nem kell a konkrét adatbázisba belátni. A szokásokat figyelembe véve személyre szabott ajánlat tehető, így ajánlanak nekünk termékeket, barátokat. De az adatok alapján megmondható, hogy hol alakult ki dugó a városban, melyek a legnépszerűbb éjszakai szórakozóhelyek, vagy, hogy egy tüntetésen hány ember vett részt” – olvasható a cikkben
Illés Noémi szerint a tömeges megfigyelésre valószínűleg minden ország titkosszolgálata tesz kísérletet, de kétségtelen tény, hogy ebben az amerikai titkosszolgálatok járnak az élen. „Döntenünk kell, hogy feladjuk jogainkat: felhatalmazzuk a titkosszolgálatokat adataink gyűjtésére, ezáltal téve hatékonyabbá munkájuk a terrorizmus ellen. Ezzel viszont a zsarnokság előtt is szabad az út, soha nem látott megfélemlítés, ellenőrzés jöhet.”
Az NSA például olyan körülményeket alakított ki, hogy senki se tudjon elektronikusan úgy kommunikálni, hogy az NSA ne tudja elfogni, tárolni és elemezni azokat. Az USA teljes telekommunikációs infrastruktúrájának titkos megfigyelése zajlik: behatol az internetszerverekbe, műholdakba, tenger alatti optikai kábelekbe, helyi és külföldi telefonrendszerekbe és a személyi számítógépekbe egyaránt, ahol magánéleti adatokat is feldolgoznak.
A National Security Agency (NSA, magyarul Nemzetbiztonsági Ügynökség) az Amerikai Egyesült Államok rádióelektronikai, jelhírszerzéssel foglalkozó (SIGINT) hírszerző szervezete, az Egyesült Államok Hírszerző Közösségének az egyik legnagyobb költségvetésű és létszámú tagja, önálló nemzetbiztonsági szolgálat. Az Amerikai Védelmi Minisztérium alárendeltségében működik. (Wikipedia)
Az NSA egyik egysége, a Global Access Operations 30 nap leforgása alatt 9,7 milliárd e-mail, 124 milliárd telefonhívás adatait gyűjti a világ minden tájáról. Németországból 500 millió, Brazíliából 2,3 milliárd, Indiából 13,5 milliárd adatot szerez. Több kormánnyal együttműködve gyűjtenek metaadatokat: francia (70 millió), spanyol (60 millió), olasz (47 millió), holland (1,8 millió), norvég (33 millió), dán (23 millió). A világ internetforgalmának legnagyobb része eközben áthalad az amerikai kommunikációs infrastruktúrán.
Az NSA szerződést kötött különböző internetes céggekkel a PRISM-program keretében (a Facebook, a Yahoo, az Apple, a Google, a Microsoft, a Youtube, a Skype, az AOL és a PalTalk), hogy hozzáférést biztosítanak a szervereikhez az NSA-nak. A felhőben, melyhez hozzáférnek, 2012-ben 20 milliárd kommunikációs esemény, chat, e-mail, fénykép, hang- és videotelefon-hívás metadatait gyűjtötték naponta, miközben az is kiderült, hogy több esetben fizettek a partnereinek technológiai fejlesztésekért vagy megfigyelési tevékenység végzéséért.
„A hivatal hatalmas adatbázisokba tölti a kommunikáció minden formájából származó információkat: teljes magán email-tartalmakat, mobiltelefonos beszélgetéseket, internetes kereséseket, parkoló számlákat, utazási útvonalakat, könyvesbolti beszerzéseket, és minden egyebet, ami csak fontos lehet, majd ezen adatok felkerülnek az NSA utahi adatközpontjában felköltöznek egy titkos felhőbe, amelyet bárhonnan elérhetnek a meghatalmazott hírszerzők, ügynökök. Legyenek azok kódtörők, adatbányászok, Kína-elemzők, antiterrorista-specialisták” – olvasható a cikkben.
Az így keletkezett Big Data méretű adattömeget természetesen fel is kell dolgozni, ezért amerikai hírszerzés a hatalmas begyűjtött adattömeg kezelésére egy, a Google keresőmotorjához hasonló információmegosztó felületet hozott létre, ICReach néven. A keresőmotort úgy fejlesztették ki, hogy napi több milliárd, új adat befogadására legyen képes. Több mint harminc különböző metaadatot gyűjtenek be e-mailek, hívások, SMS-ek, faxok, chatelések után, ahogy a telefonok tartózkodási helyét is bemérik. A jelenleg tömegesen fel nem törhető információkat feldolgozás nélkül is tárolják az arra alkalmas, hatékonyabb technológiák megjelenéséig.
A Nagy Adat elemzésére a németországi, walldorfi székhelyű SAP szoftveróriás HANA platformját hatalmas mennyiségű adat villámgyors elemzésére fejlesztette ki. „A korábbi adatelemző módszerek csupán a merevlemezről vagy más tárhelyről gyűjtött adatokat voltak képesek elemezni. Ezzel szemben a memóriaalapú technológiák esetén az analitika teljes folyamata, az alkalmazás által használt összes adat a memóriában zajlik, tárolódik. A HANA és a hasonló platformok ezért minden adatot – a hozzájuk tartozó alkalmazásokkal együtt – bemásolnak a memóriájukba, így növelve a feldolgozás hatékonyságát.
„2004-ben a CIA támogatásával alapított PALANTIR a nagy adatmennyiségek hírszerzési célú elemzésére specializálódott. A cég nagyon sikeres, ám tevékenysége erősen vitatott. Az amerikai nyomozóhivatalokon túl a PALANTIR – 2011 óta – a SAP-vel is együttműködik. A német cég viszonteladói szerződést kötött a PALANTIR-ral, és el is adta egy hírszerzési programját „SAP Intelligence Analysis for Public Sector application by Palantir” néven. Ezzel integrálhatóvá válik a strukturált és strukturálatlan adat minden rendszerben és biztonsági szinten.”
A Big Data Magyarországon is relevanciát kapott, gondoljunk csak a népszámlálási adatokra, ami talán a Big Data archetipusának is tekinthető: a Központi Statisztikai Hivatal (KSH) a 2011. évi népszámlálás adatainak központi feldolgozása során is használta az analitika szoftvereit. A népszámlálás során egyébként 11,4 millió kitöltött kérdőív került feldolgozásra. A továbblépés lehetősége Illés Noémi szerint az adatbázisok összekötésében rejlik. A felsőoktatásban végzettek elhelyezkedését figyelő, a diplomás pályakövető rendszer a NAV és az OEP adatbázisaival össze van kötve. A mindenkori adóhatóságnál 1988 és 2000 között gyűlt össze annyi adat, mint a 2013 első négy hónapjában a Nemzeti Adó- és Vámhivatalnál, miközben az ügyintézés túlnyomórészt elektronikus úton zajlik.
Emellett, az Európai Unió országaihoz hasonlóan, hazánkban is beindult a Digitális Nemzeti Fejlesztési Program, amely a szupergyors internetből, a digitális közösség és gazdaság fejlesztéséből, az E-közigazgatási szolgáltatásokból és a digitális kompetenciák fejlesztéséből áll össze. Magyarország az infrastruktúra fejlesztésében jól áll, komoly előrelépések történtek mind a vezetékes, mind a mobil széles sávú lefedettségben. „A program komplex, mert tartalmazza a hálózat, a kompetencia és a szolgáltatás fejlesztéseit egyaránt.”
2016. június 7-én ráadásul a parlament elfogadta a Belügyminisztérium terrorellenes csomagját. A 2016. évi LXIX. törvény létrehozta a Terrorelhárítási Információs és Bűnügyi Elemző Központot (TIBEK), amelynek nyomán az eddigi Szervezett Bűnözés Elleni Koordinációs Központ (SZEBEK) a jövőben nemzetbiztonsági szolgálatként működik tovább. A központ adatkezelése nem azonos más nemzetbiztonsági szolgálatokéval és nem végezhet titkos információgyűjtést sem.
Mindazonáltal a cikkíró szerint előremutató lehetőség lehet minden államnak (így nyilván Magyarországnak is) amerikai minta szerinti adatközpont létrehozása, ahol gyűjthetők, több évre visszamenőleg tárolhatók, és a megfelelő személyek számára kereshetők, hozzáférhetők lennének az adatok. Egyik következtetésként írja, hogy Magyarország talán kis pont ahhoz, hogy felvehesse a versenyt a Nagy Adat tárgykörében, de az EU-val együttműködve közös adatgyűjtés, adatelemzés és ezek közös felhasználásának megvalósítása esetén sokkal előnyösebb pozíciókra tehet szert.
A hazai nemzetbiztonsági szolgálatok jelenlegi kapcsolatát a Big Data elemzéssel, ennél behatóbban, a cikk – vélhetően szándékosan – nem érinti, azonban a közbeszerzési értesítők adatai alapján egyértelmű, hogy már évek óta alkalmazzák a Big Data feldolgozásához szükséges alapvető szoftvereket, mint amilyen például az IBM I2 ANALYST. Ahol pedig Big Data elemző szoftver van, ott ugyebár Big Datának is lennie kell. Ez lényegében zárszó is lehetne, de a Lenin idézetnek szerintem van egy másik, nem feltétlenül evidens olvasata is.
Nemcsak az állam mondhatja azt, hogy „a bizalom jó dolog, az ellenőrzés még jobb”, hanem a társadalom is pont ilyen elvárásokat támaszt az állami intézményrendszerekkel szemben. Ezen a ponton pedig visszanyúlnék A magyar nemzetbiztonsági szolgálatok és a civil kontroll című írásomhoz, aminek egyik végkövetkeztetése volt, hogy a véleményem szerint a nemzetbiztonságért felelős szolgálatok tevékenységének az expanziója maga után fogja vonni a civil kontroll igényének az erősödését, és a szakmai munka pártpolitikától való függetlenedését, egyben a szakmai tevékenységet nem veszélyeztető transzparencia növekedését is.
Nem elég ugyanis szervezeten belül tudni, hogy a nemzetbiztonsági szolgálatok a mindenkori törvények és más jogszabályok keretei között, magas szintű etikai és szakmai normák alapján, az adatkezelési irányelveknek megfelelően látják el tökéletesen pártpolitikamentes működésüket; a társadalom számára is ilyen szervezetnek kellene tűnni. Ahhoz viszont, hogy bárminek tűnni lehessen, látszódni is kellene, ami pedig nem lehetséges ésszerű mértékű transzparencia nélkül, amit például a Szakmai Szemle cikkei egészen biztosan elősegítenek.
Mindazonáltal a Big Data elemzésével kapcsolatos nemzetbiztonsági tevékenység szélesebb körű társadalmi támogatottsághoz – a transzparencia mellett – bizalom is szükséges, miközben a véleményem szerint teljesen abszurd az a helyzet is, hogy épp a nemzetet kellene meggyőzni arról, hogy a saját biztonságára, egyébként szükség van. Talán a Snowden-ügy egyik legfontosabb negatív hozadéka (minden pozitívum és érdem elismerése mellett) épp a bizalom csökkenése, amit a dezinformációban érdekelt szereplők igyekeznek is kihasználni.
A bizalom újraépítésében, mint folyamatban fontos lépcsőfok lehet annak a bemutatása, hogy a magánszemélyek milyen elképesztő mennyiségű, gyakran szenzitív személyes adatot tesznek elérhetővé különböző vállalatok számára, nemritkán kifejezetten annak az igényével, hogy azok feldolgozásával (profilalkotással) személyre szabott ajánlatokat kapjanak. Ugyancsak hatalmas probléma a vállalatok részéről tanúsított, felelőtlen adatkezelés Magyarországon.
Mint ahogy az is egy lépcsőfok, ha egyértelmű lesz mindenki számára, hogy a nagyhatalmak a globális kommunikáció jelentős részét többé-kevésbé sikeresen az ellenőrzésük alatt tartják, ha tetszik, ha nem. Mivel azonban az utóbbi kérdés nem ad valódi választási lehetőséget, ezért a bizalom további erősödéséhez azt hiszem mást nem is kívánhatnék, minthogy csak így tovább a lenini úton!
Ha tetszett, ne maradj le a következőről: