Co je webarchivace? ****************************************************************************************** * Proč se archivuje web ****************************************************************************************** Archivovaný internet bude základním zdrojem informací pro budoucí badatele. Obrovské množs a kulturních informací dnes vzniká výhradně v digitální podobě. Webový obsah je efemérní – webu se velmi rychle mění, odkazy vyhnívají, informace, které byly online ještě včera, nen Proto se světové paměťové instituce věnují vedle budování sbírek fyzických nosičů informac a archivaci obsahu internetu. ****************************************************************************************** * Technologie archivace webu ****************************************************************************************** K vlastnímu sklízení obsahu internetových stránek používá Webarchiv Národní knihovny ČR, p mnoho dalších institucí, open source crawler Heritrix [ URL "https://webarchive.jira.com/w heritrix"] . Pro hladké sklízení jsou potřeba další rozšíření nebo skripty. Crawler prochá obsah a vytváří obraz stránky v určitém okamžiku. Také vytváří index, který se pak používá archivovaných stránek pro zpřístupnění. Archivovaný obsah je ukládá do XML kontejnerů ARC nebo WARC [ URL "http://www.digitalprese formats/fdd/fdd000236.shtml"] , které pak slouží zachycení obsahu webu a přidávají také te a administrativní metadata k uloženému obsahu. ****************************************************************************************** * Co lze archivovat pomocí technologie webarchivace? ****************************************************************************************** V principu webarchivace znamená stažení html a css souborů, obrázků, objektů pdf, doc apod souborů, případně javascriptu. Technologie webarchivace umožňují sklízet jen zlomek internetu. Nedostupná je velká část d vyžadující zaplacení nebo přihlášení, obsahy databází, problémy jsou se sklízením obsahu s nebo se streamovaným obsahem. Není také například snadné sklízet obsahy digitálního knihov podobných aplikací. Kromě technických omezení má sklízení i limity organizační a finanční. Webarchiv NK ČR nem zdroje, takže například plošné sklizně českého internetu může provádět jen několikrát ročn je třeba nastavit na počet odkazů, které crawler sleduje, maximální velikost a počet staho apod. ****************************************************************************************** * Plošné vs. tematické a výběrové sklizně ****************************************************************************************** Vlastní sklízení probíhá pomocí plošných nebo tematických a výběrových sklizní. Pravidelné vytvářejí snapshot českého internetu v určitém okamžiku. Tematické sklizně se zaměřují na dopadu konkrétní události v informačním prostoru internetu. Některé významné zdroje Webarc knihovny ČR archivuje také výběrově, nad rámec plošných sklizní. Strategie budování sbírky Webarchivu NK ČR [ URL "ARCH-61-version1-collection_policy.pdf"] ****************************************************************************************** * Jak se liší archivace webu od zálohování webové stránky a databáze lokálně ****************************************************************************************** Z výše uvedeného popisu technologií webarchivace je snad dostatečně jasné, že webarchiv ne zálohování souborů tvořících webovou stránku, jejího CMS systému a databáze. Umožňuje ale zpřístupnit obraz internetové stránky v určitém okamžiku. ****************************************************************************************** * Pro webmastery ****************************************************************************************** Pro správce internetových stránek nepředstavuje sklízení crawlerem NK ČR obvykle žádné riz Webarchivu Národní knihovny ČR se dá identifikovat v přístupových lozích a jeho přístup na webu lze zakázat v robots.txt. Webarchiv Národní knihovny ČR můžete na své zajímavé stránky upozornit prostřednictvím for webarchiv.cz/cs/pridat-web [ URL "http://webarchiv.cz/cs/pridat-web"] . ****************************************************************************************** * Technologie Webarchivace ******************************************************************************************