Co je webarchivace?












            ******************************************************************************************

            * Proč se archivuje web
            ******************************************************************************************


            Archivovaný internet bude základním zdrojem informací pro budoucí badatele. Obrovské množs
            a kulturních informací dnes vzniká výhradně v digitální podobě. Webový obsah je efemérní –
            webu se velmi rychle mění, odkazy vyhnívají, informace, které byly online ještě včera, nen

            Proto se světové paměťové instituce věnují vedle budování sbírek fyzických nosičů informac
            a archivaci obsahu internetu.







            ******************************************************************************************

            * Technologie archivace webu
            ******************************************************************************************
            K vlastnímu sklízení obsahu internetových stránek používá Webarchiv Národní knihovny ČR, p

            mnoho dalších institucí, open source crawler Heritrix [ URL "https://webarchive.jira.com/w
            heritrix"] . Pro hladké sklízení jsou potřeba další rozšíření nebo skripty. Crawler prochá
            obsah a vytváří obraz stránky v určitém okamžiku. Také vytváří index, který se pak používá

            archivovaných stránek pro zpřístupnění.
            Archivovaný obsah je ukládá do XML kontejnerů ARC nebo WARC [ URL "http://www.digitalprese
            formats/fdd/fdd000236.shtml"] , které pak slouží zachycení obsahu webu a přidávají také te

            a administrativní metadata k uloženému obsahu.





            ******************************************************************************************

            * Co lze archivovat pomocí technologie webarchivace?
            ******************************************************************************************


            V principu webarchivace znamená stažení html a css souborů, obrázků, objektů pdf, doc apod
            souborů, případně javascriptu.
            Technologie webarchivace umožňují sklízet jen zlomek internetu. Nedostupná je velká část d

            vyžadující zaplacení nebo přihlášení, obsahy databází, problémy jsou se sklízením obsahu s
            nebo se streamovaným obsahem. Není také například snadné sklízet obsahy digitálního knihov
            podobných aplikací.

            Kromě technických omezení má sklízení i limity organizační a finanční. Webarchiv NK ČR nem
            zdroje, takže například plošné sklizně českého internetu může provádět jen několikrát ročn
            je třeba nastavit na počet odkazů, které crawler sleduje, maximální velikost a počet staho

            apod.





            ******************************************************************************************

            * Plošné vs. tematické a výběrové sklizně
            ******************************************************************************************


            Vlastní sklízení probíhá pomocí plošných nebo tematických a výběrových sklizní. Pravidelné
            vytvářejí snapshot českého internetu v určitém okamžiku. Tematické sklizně se zaměřují na 
            dopadu konkrétní události v informačním prostoru internetu. Některé významné zdroje Webarc

            knihovny ČR archivuje také výběrově, nad rámec plošných sklizní.
            Strategie budování sbírky Webarchivu NK ČR [ URL "ARCH-61-version1-collection_policy.pdf"]






            ******************************************************************************************
            * Jak se liší archivace webu od zálohování webové stránky a databáze lokálně
            ******************************************************************************************


            Z výše uvedeného popisu technologií webarchivace je snad dostatečně jasné, že webarchiv ne
            zálohování souborů tvořících webovou stránku, jejího CMS systému a databáze. Umožňuje ale 

            zpřístupnit obraz internetové stránky v určitém okamžiku.





            ******************************************************************************************

            * Pro webmastery
            ******************************************************************************************


            Pro správce internetových stránek nepředstavuje sklízení crawlerem NK ČR obvykle žádné riz
            Webarchivu Národní knihovny ČR se dá identifikovat v přístupových lozích a jeho přístup na
            webu lze zakázat v robots.txt.

            Webarchiv Národní knihovny ČR můžete na své zajímavé stránky upozornit prostřednictvím for
            webarchiv.cz/cs/pridat-web [ URL "http://webarchiv.cz/cs/pridat-web"] .






            ******************************************************************************************
            * Technologie Webarchivace
            ******************************************************************************************


            <iframe src="//www.slideshare.net/slideshow/embed_code/key/A6nf28D8K8FUPI" width="595" hei
            frameborder="0" marginwidth="0" marginheight="0" scrolling="no" style="border:1px solid #C

            width:1px; margin-bottom:5px; max-width: 100%;" allowfullscreen> </iframe> <div style="mar
            </div>