Heritrix - Heritrix
Pillanatkép a Heritrix Felügyeleti Konzolról.
| |
Stabil kiadás | 3.4.0 / 2020. augusztus 3
|
---|---|
Adattár | |
Beírva | Jáva |
Operációs rendszer | Linux / Unix-szerű / Windows (nem támogatott) |
típus | Webrobot |
Engedély | Apache licenc |
Weboldal | GitHub |
A Heritrix egy webrobot, amelyet webarchiválásra terveztek . Az Internetes Archívum írta . Ingyenes szoftverlicenc alatt érhető el, Java nyelven írva . A fő felület webböngészővel érhető el , és van egy parancssori eszköz, amely opcionálisan használható a bejárások kezdeményezésére.
A Heritrixet az Internetes Archívum és a skandináv nemzeti könyvtárak közösen fejlesztették ki a 2003 elején írt specifikációk alapján. Az első hivatalos kiadás 2004 januárjában volt, és az Internet Archívum munkatársai és más érdekelt felek folyamatosan fejlesztették.
Sok éven keresztül nem Heritrix volt a fő bejáró, amellyel feltérképezte az Internet Archívum webgyűjteményének tartalmát. A gyűjtemény legnagyobb munkatársa 2011-től az Alexa Internet . Alexa saját céljaira mászkálja az internetet, az ia_archiver nevű bejáróval . Ezután Alexa felajánlja az anyagot az Internetes Archívumnak. Az Internet Archívum maga is feltérképezett néhányat a Heritrix segítségével, de csak kisebb léptékben.
2008-tól kezdődően az Internetes Archívum megkezdte a teljesítmény javítását, hogy elvégezze saját széles körű feltérképezését, és most a tartalmának nagy részét összegyűjti.
Projektek Heritrix használatával
Számos szervezet és országos könyvtár használja a Heritrix-et, többek között:
- Osztrák Nemzeti Könyvtár , webarchiválás
- Bibliotheca Alexandrina internetes archívuma
- Bibliothèque nationale de France
- Brit Könyvtár
- A kaliforniai digitális könyvtár webarchiválási szolgáltatása
- CiteSeerX
- Internet dokumentálása2
- Internet Memória Alapítvány
- Kanadai Könyvtár és Levéltár
- Kongresszusi Könyvtár
- Izlandi Nemzeti és Egyetemi Könyvtár
- Finn Nemzeti Könyvtár
- Új-Zéland Nemzeti Könyvtára
- Holland Királyi Könyvtár (Koninklijke Bibliotheek)
- Netarkivet.dk
- Smithsonian Institution Archives
- Izraeli Nemzeti Könyvtár
Arc fájlok
A Heritrix régebbi verziói alapértelmezés szerint az általa feltérképezett webes erőforrásokat egy Arc fájlban tárolták. Ez a fájlformátum teljes mértékben nincs kapcsolatban az ARC-vel (fájlformátum) . Ezt a formátumot az Internet Archívuma 1996 óta használja webarchívumainak tárolására. Újabban alapértelmezés szerint az ARC-hez hasonló, de pontosabban meghatározott és rugalmasabb WARC fájlformátumban ment . A Heritrix úgy is konfigurálható, hogy fájlokat tároljon egy könyvtárformátumban, hasonlóan a Wget robothoz , amely az URL-címet használja az egyes erőforrások könyvtárának és fájlnevének megadására.
Az Arc fájl több archivált erőforrást egyetlen fájlban tárol, hogy elkerülje a nagyszámú kis fájl kezelését. A fájl URL-rekordok sorozatából áll, mindegyik fejléccel, amely tartalmazza az erőforrás igénylésének metaadatait, majd a HTTP fejlécet és a választ. Az ívfájlok tartománya 100 és 600 MB között van.
Példa:
filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
1 1 InternetArchive
URL IP-address Archive-date Content-type Archive-length
http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
HTTP/1.1 200 OK
Date: Thu, 22 Jun 2006 19:01:15 GMT
Server: Apache
Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
Content-Length: 30
Content-Type: text/html
<html>
Hello World!!!
</html>
Eszközök az Arc fájlok feldolgozásához
A Heritrix tartalmaz egy parancssori eszközt, az arcreader nevet, amely felhasználható az Arc fájl tartalmának kibontására. Az alábbi parancs felsorolja az adott Arc fájlban ( CDX formátumban) tárolt összes URL-t és metaadatot :
arcreader IA-2006062.arc
A következő parancs kivonja a hello.html fájlt a fenti példából, feltéve, hogy a rekord a 140-es eltolásnál kezdődik:
arcreader -o 140 -f dump IA-2006062.arc
Egyéb eszközök:
Parancssori eszközök
A Heritrix számos parancssori eszközzel rendelkezik:
- htmlextractor - megjeleníti azokat a linkeket, amelyeket Heritrix kibont egy adott URL-hez
- hoppath.pl - újraterjeszti az ugrás útját (a linkek útvonalát) a megadott URL-re egy befejezett feltérképezésből
- manifest_bundle.pl - összesíti a feltérképezési jegyzékfájl által hivatkozott összes erőforrást egy tömörítetlen vagy tömörített tar golyóba
- cmdline-jmxclient - lehetővé teszi a Heritrix parancssori vezérlését
- arcreader - kivonja az ARC fájlok tartalmát (lásd fent)
További eszközök állnak rendelkezésre az Internet Archív warctools projektjének részeként.
Lásd még
Hivatkozások
A szerkesztéstől kezdve ez a cikk a "Re: Az internetes archívum ellenőrzése mellett a" Letiltás / "?" Tartalmat használja . , amely olyan módon van licencelve, amely lehetővé teszi az újrafelhasználást a Creative Commons Attribution-ShareAlike 3.0 Unported licenc alapján , de nem a GFDL alapján . Minden vonatkozó kifejezést be kell tartani.
- ^ a b c d e Kris (2011. szeptember 6.). "Re: Az internetes archívum ellenőrzése a" Disallow / "mellett?" . Pro Webmesterek Stack Exchange . Stack Exchange Inc . A letöltött január 7-, 2013-as .
- ^ "Wayback Machine: Most 240 000 000 000 URL-lel - Internet Archive Blogok" . blog.archive.org . Letöltve: 2017. szeptember 11 .
- ^ "Névjegy - Webarchiválás (Kongresszusi Könyvtár)" . www.loc.gov . Letöltve: 2017-10-29 .
- ^ "Technische aspekten bij webarchivering - Koninklijke Bibliotheek" . www.kb.nl . Letöltve: 2017. szeptember 11 .
- ^ "warctools" . 2017. augusztus 25 . Letöltve: 2017. szeptember 11. - a GitHubon keresztül.
- Burner, M. (1997). "Kúszni az örökkévalóság felé - archívum létrehozása a világhálóról" . Webes technikák . 2. (5) bekezdése. Az eredetiből 2008. január 1-jén archiválva .
- Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Bevezetés a Heritrixbe, egy archív minőségű internetes bejáróba" (PDF) . A 4. Nemzetközi Webarchiváló Műhely (IWAW'04) anyagai . Archiválva az eredetiből (PDF) , 2011.06.06 . Letöltve: 2007-03-09 . CS1 maint: több név: szerzők listája ( link )
- Sigurðsson, K. (2005). "Inkrementális feltérképezés Heritrixszel" (PDF) . Az 5. Nemzetközi Webarchiváló Műhely (IWAW'05) anyagai . Archiválva az eredetiből (PDF) 2011.06.06 . Letöltve: 2006.06.23 .
Külső linkek
Eszközök az Internetes archívum segítségével:
- Heritrix - hivatalos wiki
- NutchWAX - keresés az internetes archívum gyűjteményekben
- Wayback (Open Source Wayback Machine) - keressen és navigáljon a webarchívum-gyűjteményekben a NutchWax segítségével
Linkek a kapcsolódó eszközökhöz:
- Arc fájlformátum
- A Heritrix futtatása a Windows rendszerben
- WERA (Web ARchive Access) - keressen és navigáljon a webarchívum-gyűjteményekben a NutchWAX segítségével