A napokban, konkrétan karácsony első napján szokatlan látogató érkezett a weboldalamra, egy „könyvtáros.” A látogatás után kicsit keresgéltem és azt kell, hogy mondjam: botnak/crawlernek, vagy keresőrobotnak így még nem örültem. Néhány napja még „a forgalom irányító szervereken keletkezett túlterhelés” miatt volt elérhetetlen a jogalappal.hu weboldal, ezért, bár másra most időm nincs, de belekukkantok a logokba is. Ott vettem észre az OSZKbot/3.3-at.
Igazából nem a neve az érdekes, hanem az, hogy honnan jött, ugyanis a KIFÜ-s környezet és az Országos Széchenyi Könyvtár volt megjelölve forrásként, illetve a http://mekosztaly.oaszk.hu/mia URL. Így találtam rá egy szuperérdekes projektre, amiről eddig alighanem csak a könyvtárosok hallhattak.
Az Országos Széchényi Könyvtár ugyanis 2017 áprilisától az OKR projekt keretében elkezdett kísérletezni a webarchiválás technológiájával, az internetes források hosszú távú megőrzésének érdekében. „Ennek a kutatási és fejlesztési munkának az a célja, hogy megalapozza egy leendő magyar internet archívum feltételeit.”
A feltételezem jelenleg is teszt fázisban levő (vagy nemrég zárult) projektben, első körben, néhány száz kulturális és tudományos webhely került kiválasztásra (pl. könyvtári, levéltári, múzeumi honlapok, egyetemek és kutatóintézetek oldalai, elektronikus folyóiratok, szakmai blogok), melyeknek a tulajdonosait elektronikus levélben értesítették erről és engedélyt kértek az archiválásra, illetve adott esetben a lementett változat szolgáltatására is, egy demonstrációs célra létrehozott gyűjteményben.
A webaratás projekt (szerintem zseniális név) során leginkább különböző open technológiákkal kísérletezgettek. A mentések Heritrix, a Brozzler, a Webrecorder, a HTTrack szoftverrel készültek, míg a megjelenítés az Open Wayback és a PyWb szoftverekkel és/vagy a Webrecorder Player online verziójával történik, továbbá a fájlrendszerben tárolt HTTrack mentések a webszerveren át is megnézhetők.
Szóval már kezdtem is megilletődni, hogy ilyen fontosnak tartja az írásaimat az OSZK, de azután rájöttem, hogy ez már az OSZKbot/3.3 második aratása (először 2018-09-24 és 2018-09-26 között volt aktív) és a pizzarendelés.com-ot már akkor feltérképezte, szóval ez a bot aligha az archiválásért felelős. Meg persze nincs is a feltérképezett oldalak keresőjében sem a honlapom (egyébként a bot csak néhány oldalt járt be a weboldalamon).
De nem is ez a lényeg, hanem az, hogy végre elindult (lényegében talán már le is zárult) egy ilyen projekt, amelyre építve tényleg el lehetne kezdeni az előzetes lehatárolások alapján értékesnek tartott digitális adattartalmak megőrzését az utókor számára, akár kifejezetten a magyar tartalmakra fókuszálva (nyilván már ez is óriási adatmennyiséget jelentene).
Az már csak hab a tortán, hogy mindezt ráadásul megfelelő jogi keretek között kívánják megtenni, hiszen több oldalas szerződést kötnek a kiszemelt weboldalakkal, amely leginkább a szerzői jogi kérdésekre fókuszál.
Miközben ugyanezt a funkciót különböző külföldi archiváló projektek hosszú évek óta, mindenféle engedélykérés nélkül elvégzik, és amiket egyébként én is gyakran használok, mivel nem ül közjegyző a szobámban ténytanúsítványokat írni (természetesen az ő munkájukra is szükség van, nem állítom tehát ezzel, hogy egyenértékű szolgáltatásokról lenne szó).
Visszatérve a MIA-ra (hogy mi a MIA, nem tudom: talán Magyar Internet Archívum?): a partner weboldalakról ráadásul részletes META-adatbázis (XML) jön létre, amiben már kissé visszásnak érzem, hogy magánszemélyek telefonszámát is közzéteszik, gondolom külön engedélykérés történik erre is, illetve remélem opcionális a megadása.
Összességében szerintem ez egy hiánypótló projekt lenne, ahol bár vannak külföldi minták (akár más könyvtárak ilyen funkciói kapcsán is), de ennek ellenére érdemes lenne tovább folytatni, mert a digitális adattartalmak világában is születnek értékek, amiket érdemes lenne megőrizni és a megőrzésük kereteiről szabadon dönteni.
A cikkhez ITT lehet hozzászólni. Ha tetszett, ne maradj le a következőről: