Archivovaný internet bude základním zdrojem informací pro budoucí badatele. Obrovské množství vědeckých akulturních informací dnes vzniká výhradně vdigitální podobě. Webový obsah je efemérní – obsahy na webu se velmi rychle mění, odkazy vyhnívají, informace, které byly online ještě včera, nenávratně mizí. Proto se světové paměťové instituce věnují vedle budování sbírek fyzických nosičů informací také sklízení aarchivaci obsahu internetu.
Technologie archivace webu
Kvlastnímu sklízení obsahu internetových stránek používá Webarchiv Národní knihovny ČR, podobně jako mnoho dalších institucí, open source crawler Heritrix. Pro hladké sklízení jsou potřeba další rozšíření nebo skripty. Crawler prochází web, stahuje obsah avytváří obraz stránky v určitém okamžiku. Také vytváří index, který se pak používá při emulaci archivovaných stránek pro zpřístupnění.
Archivovaný obsah je ukládá do XML kontejnerů ARC nebo WARC, které pak slouží zachycení obsahu webu apřidávají také technická aadministrativní metadata kuloženému obsahu.
Co lze archivovat pomocí technologie webarchivace?
Vprincipu webarchivace znamená stažení html acss souborů, obrázků, objektů pdf, doc apod. aaudio avideo souborů, případně javascriptu.
Technologie webarchivace umožňují sklízet jen zlomek internetu. Nedostupná je velká část deep webu, obsahy vyžadující zaplacení nebo přihlášení, obsahy databází, problémy jsou se sklízením obsahu sociálních sítí nebo se streamovaným obsahem. Není také například snadné sklízet obsahy digitálního knihoven nebo dalších podobných aplikací.
Kromě technických omezení má sklízení ilimity organizační afinanční. Webarchiv NK ČR nemá neomezené zdroje, takže například plošné sklizně českého internetu může provádět jen několikrát ročně. Další omezení je třeba nastavit na počet odkazů, které crawler sleduje, maximální velikost apočet stahovaných objektů apod.
Plošné vs. tematické a výběrové sklizně
Vlastní sklízení probíhá pomocí plošných nebo tematických avýběrových sklizní. Pravidelné plošné sklizně vytvářejí snapshot českého internetu vurčitém okamžiku. Tematické sklizně se zaměřují na dokumentování dopadu konkrétní události vinformačním prostoru internetu. Některé významné zdroje Webarchiv Národní knihovny ČR archivuje také výběrově, nad rámec plošných sklizní.
Jak se liší archivace webu od zálohování webové stránky a databáze lokálně
Zvýše uvedeného popisu technologií webarchivace je snad dostatečně jasné, že webarchiv nemůže nahradit zálohování souborů tvořících webovou stránku, jejího CMS systému adatabáze. Umožňuje ale ipo zániku webu zpřístupnit obraz internetové stránky vurčitém okamžiku.
Pro webmastery
Pro správce internetových stránek nepředstavuje sklízení crawlerem NK ČR obvykle žádné riziko. Robot Webarchivu Národní knihovny ČR se dá identifikovat vpřístupových lozích ajeho přístup na některé objekty webu lze zakázat vrobots.txt.
Webarchiv Národní knihovny ČR můžete na své zajímavé stránky upozornit prostřednictvím formuláře na http://webarchiv.cz/cs/pridat-web.