Web ARChive - Web ARChive
Fájlnévkiterjesztés |
.karc
|
---|---|
Internet média típusa |
alkalmazás / warc |
-Tól meghosszabbítva | ÍV |
Alapértelmezett | ISO 28500: 2017 |
Nyitott formátum ? | Igen |
Weboldal | iipc |
A Web ARChive ( WARC ) archív formátum meghatározza a több digitális erőforrás összesített archív fájlba történő egyesítésének módszerét a kapcsolódó információkkal együtt. A WARC formátum felülvizsgálata Internet Archive „s ARC_IA File Format hogy hagyományosan tárolására használt» web feltérképezés «sorozataként tartalom blokkok takarítják a World Wide Web . A WARC formátum általánosítja a régebbi formátumot, hogy jobban támogassa az archiváló szervezetek betakarítási, hozzáférési és csereigényeit. A jelenleg rögzített elsődleges tartalom mellett a verzió tartalmazza a kapcsolódó másodlagos tartalmat is, például a hozzárendelt metaadatokat , a rövidített ismétlődő észlelési eseményeket és a későbbi dátumú transzformációkat. A WARC formátumot a HTTP / 1.0 folyamok ihlették, hasonló fejléc és CRLF-ek használata elválasztóként, ami nagyon elősegíti a bejáró megvalósítását.
Először 2008-ban adták meg, és a legtöbb nemzeti könyvtári rendszer elismeri a WARC-ot a webarchiválás során követendő szabványként.
Szoftver
- Heritrix web archiváló a Java
- wget (az 1.14 verzió óta)
- Webrögzítő
- StormCrawler
- Apache Nutch
- libarchívum