Hálózati ismeretek I.

Internet Wayback Machine

Suha Richárd, 2017. tavasz

Fennállásának huszonegyedik évfordulóját ünnepli idén az Internet Archive. A San Franciscóban székelő non-profit internetes könyvtár küldetése 1996-ban kezdődött, amikor az alapító Brewster Kahle kikiáltotta az intézmény küldetését: egyetemes hozzáférést az összes tudásanyaghoz. Az Internet Archive alapvető célja egyezik a klasszikus könyvtárakéval, azaz megóvni az (online) kulturális örökséget, ezzel párhuzamosan pedig bárki számára hozzáférést biztosítani a múlt különféle internetes tartalmaihoz. Utóbbiba a weboldalak, alkalmazások és játékok, különféle mozgóképek (videók, animált képformátumok), hanganyagok, illetve a szabadon terjeszthető könyvek tartoznak.


Az Internet Archive legnépszerűbb szolgáltatása a Wayback Machine., mellyel különféle, időközben akár végleg felszámolt weboldalak esetében is visszaugorhatunk a történelemben. A rendszer bizonyos időközönként digitális lenyomatot készít a (majdnem) teljes web tartalmáról, melybe alapértelmezetten a portálok döntő többsége beletartozik.


Érdekes etikai kérdést vet fel ugyanakkor, hogy milyen (amúgy publikus) információk kerüljenek be az Internet Archive adatbázisába. A keresőcrawlerek (amelyek a publikus tartalom beolvasását végzik) hagyományosan tiszteletben tartják a robots.txt-t, amelyben a weboldal üzemeltetője határozhatja meg a keresés korlátait és az oldal bizonyos elemeit kizárhatja a találatok közül. Hogyan kezelje azonban az Internet Könyvtára az ilyen kivételek listáját?


Az erre adott válasz időben folyamatosan alakult. 2013-ig bezárólag a robotok a szöveges fájl tartalmának megfelelően nem készítettek lenyomatot a kivételként szereplő oldalakról. Ezt követően a könyvtárosok módosítottak a megközelítésen: a crawler a listázott oldalakat is letölti, azokat viszont nem jeleníti meg az Internet Archive nyilvánosan kereshető archívumaiban (például a Wayback Machine-ben), hanem az úgynevezett dark archive része lesz. Ezt a szekciót többek között olyan portálok erősítik mint a Washington Post vagy az USA Today.


Az egyes mentési pontok megjelenéséhez korábban akár 6-18 hónapra is szükség lehetett, ennyi idő kellett, hogy a robotok munkája elérhető legyen az archívumban. Ezen sokat segített a 2013 októberében megjelent a manuális mentési lehetőség, a "Save Page Now" opcióval percek alatt készíthetünk lenyomatot az azt engedélyező oldalakról, ami azonnal bekerül a nagy elektronikus történelemkönyvbe.


Bár a Wayback Machine címsora hasonlít a Google keresőjének beviteli mezőjéhez, a háttérben egy teljesen más elven alapuló rendszer, több komplex adatbázis, illetve számos partner húzódik. Az Internet Archive keresőrobotos (crawler) tevékenysége sokkal inkább hasonlít egy tradicionális könyvtári archívum modelljéhez mintsem egy modern internetes keresőhöz. Utóbbi egységesített robotokat alkalmaz, melyek azonos szabályok szerint viselkednek, és folyamatosan, 24/7-ben pásztáznak, miközben az összes létező URL-t próbálják azonosítani, végül pedig tartalmukat eltárolni.


Ezzel szemben az Internet Archive rendszere számtalan különálló, illetve jelentősen eltérő adatbázissal operál, melyek egészen különböző metodika szerint építkeznek. Ez logikus - a szervezet más logika mentén tárolja a rendszeresen frissülő és referenciának számító híroldalak tartalmát, és egészen más logika diktálja a teljes internet "lementésére" irányuló erőfeszítést, az így kinyert adatokat pedig más struktúrájú adatbázisokban és más lekérdező felület mögé teszi a Könyvtár. Ennek van párhuzama a fizikai világban is, a nagy könyvtárak könyv-, kézirat- és periodikagyűjteménye, illetve az állami irattárak, archívumok mind-mind eltérő logika mentén végzik az adatok gyűjtését, rendszerezését, tárolását és teszik elérhetővé azokat a közönség számára.


Az Internet Archive 2010 szeptemberében indította el Worldwide Web Crawls nevű, a folyamat szempontjából szintén nagy jelentőségű programját, mely weboldalakat, illetve azok egyes részeit gyűjti be. A Hetrix szoftverén alapuló robotok egy vagy több, URL címeket tartalmazó úgynevezett seed listákból indulnak ki, melyeket többek között olyan szabályok alapján definiálnak mint az URL maximális mélysége. A legtöbb oldalt egy futtatás során csupán egyszer húz be a Worldwide Web Crawls, ugyanakkor a rendszeresen frissülő, például hírekkel foglalkozó portálok esetében sűrűbben végez mentést a robotszkenner.


Az Internet Archive munkájához számos partner is nagyban hozzájárul. A listán többek között olyan nevek vannak mint a Sloan Foundation, a NARA, az Internet Memory Foundation, vagy a Common Crawl, amihez még egy nagyjából 2,5 milliárd bejegyzéses DNS könyvtár is hozzájön. Ezen felül olyan már megszűnt közösségek hagyatéka is az Internet Archive birtokában van mint a Wretch, vagy az egykor nagyon népszerű GeoCities, ezeket a könyvtár adományként kapta meg.


Szintén adomány az Alexa crawling adatbázisa, amelyet a cég rendszeresen átad az Internet Archive-nak tárolásra és feldolgozásra. Az ismert Alexa Internet nevű rangsoroló a kezdetek óta nagy mennyiségben szolgáltat adatokat az archívum számára, melyből többek között az oldalak látogatottsága is kiderül, ami az archiválás szempontjából nagy fontossággal bír. (A támogatás annak fényében nem meglepő, hogy az Alexát ugyanaz a Brewster Kahle alapította, aki az Internet Archive-ot is.) Az Alexa által szolgáltatott adatok azért is fontosak, mert míg az archívum saját robotjai elsősorban több független oldalon gyakran hivatkozott linkeken pásztáznak, addig az Alexa egy más, nem publikus módszert alkalmaz.


A népszerű Wayback Machine csupán a jéghegy csúcsa. A huszadik születésnapját betöltött Internet Archive legfőbb célja a 21. század tömegkommunikációs médiumának konzerválása, mely feladat olykor sokkal nagyobb kihívást jelent mint a nyomtatott vagy írott anyagok rendszerezése, illetve tárolása. Az összesen nagyjából 300 alkalmazottat foglalkozó non-profit internetes könyvtár mindössze évi 10 millió dollárból gazdálkodhat, melynek egy része felhasználói adományokból származik.


A végeredmény több különböző forrásból és technikával összeállított, jelenleg valamivel több mint 7000 gyűjteményből tevődik össze. 4,1 millió tétel érhető el. 2017-től ez a szám jóval nagyobb lesz, ugyanis egy befektetésének köszönhetően a Wayback Machine mentési kapacitása a mennyiséget és a minőséget tekintve is jobb lesz.


A kódokat újraírják, hogy a weboldalak régi és jelenlegi verziói között is lehessen ugrálni, valamint elérhetővé válnak az elavult formátumú médiatartalmak is. Természetesen az oldal felülete is megújul majd, sokkal inkább felhasználóbarát lesz.


A netezők nem csak az oldalon használhatják ki a fejlődést, ugyanis a Wayback Machine az üzlet keretében együttműködést kötött a Wikipédiával. Az online lexikonban rengeteg olyan link van, amely már nem használható, azokat automatikusan pótolni tudják majd a Wayback Machine archívumából.


A kaliforniai központú Internet Archive adatbázisát – egy esetleges katasztrófa hatásainak csökkentésére – tükrözik az egyiptomi Alexandriában található Bibliotheca Alexandrina adattárába.


Szintén nekik köszönhető egy, az oldalukról elérhető igen impresszív, több millió művet számláló videó-, zene-, hang- és szöveggyűjtemény is. Mindemellett pedig aktívan munkálkodnak régi irodalmi alkotások megőrzésén is: 5 országban szétszórt, összesen 23 szkennerközpontjuk van, amelyek ezer újabb könyvvel gyarapítják a gyűjteményt évente. Végül, de nem utolsósorban még egy sor más egyéb kisebb projektet is futtatnak, például egy NASA-képtárat.


Még 2011 decemberében kezdtek először elfogadni bitcoinos adományokat. Brewster Kahle elmondása szerint épp kitettek egy bannert egy nagyobb adománygyűjtő kör beindítására, és elég sok emailt kaptak arra vonatkozóan, hogy jó lenne, ha elfogadnának bitcoint is. Ő pedig gondolta, egy próbát megérhet; vázolta az ötletet az elmondása szerint egyébként nem túl technikai irányultságú főadminisztrátoruknak, akivel letöltötték és kipróbálták a Bitcoint-t, ami lassan bár, de működött. Azóta pedig már több, mint 5.600$-t gyűjtöttek össze bitcoinban.


Jelenleg 286 milliárd weboldal archivált weboldal található az adatbázisban.