Heritrix - Heritrix

Heritrix
Heritrix logo.png
Pillanatkép a Heritrix Felügyeleti Konzolról.
Pillanatkép a Heritrix Felügyeleti Konzolról.
Stabil kiadás
3.4.0 / 2020. augusztus 3  ( 2020-08-03 )
Adattár Szerkessze ezt a Wikidatán
Beírva Jáva
Operációs rendszer Linux / Unix-szerű / Windows (nem támogatott)
típus Webrobot
Engedély Apache licenc
Weboldal GitHub .com / Internet Archive / heritrix3 / wiki

A Heritrix egy webrobot, amelyet webarchiválásra terveztek . Az Internetes Archívum írta . Ingyenes szoftverlicenc alatt érhető el, Java nyelven írva . A fő felület webböngészővel érhető el , és van egy parancssori eszköz, amely opcionálisan használható a bejárások kezdeményezésére.

A Heritrixet az Internetes Archívum és a skandináv nemzeti könyvtárak közösen fejlesztették ki a 2003 elején írt specifikációk alapján. Az első hivatalos kiadás 2004 januárjában volt, és az Internet Archívum munkatársai és más érdekelt felek folyamatosan fejlesztették.

Sok éven keresztül nem Heritrix volt a fő bejáró, amellyel feltérképezte az Internet Archívum webgyűjteményének tartalmát. A gyűjtemény legnagyobb munkatársa 2011-től az Alexa Internet . Alexa saját céljaira mászkálja az internetet, az ia_archiver nevű bejáróval . Ezután Alexa felajánlja az anyagot az Internetes Archívumnak. Az Internet Archívum maga is feltérképezett néhányat a Heritrix segítségével, de csak kisebb léptékben.

2008-tól kezdődően az Internetes Archívum megkezdte a teljesítmény javítását, hogy elvégezze saját széles körű feltérképezését, és most a tartalmának nagy részét összegyűjti.

Projektek Heritrix használatával

Számos szervezet és országos könyvtár használja a Heritrix-et, többek között:

Arc fájlok

A Heritrix régebbi verziói alapértelmezés szerint az általa feltérképezett webes erőforrásokat egy Arc fájlban tárolták. Ez a fájlformátum teljes mértékben nincs kapcsolatban az ARC-vel (fájlformátum) . Ezt a formátumot az Internet Archívuma 1996 óta használja webarchívumainak tárolására. Újabban alapértelmezés szerint az ARC-hez hasonló, de pontosabban meghatározott és rugalmasabb WARC fájlformátumban ment . A Heritrix úgy is konfigurálható, hogy fájlokat tároljon egy könyvtárformátumban, hasonlóan a Wget robothoz , amely az URL-címet használja az egyes erőforrások könyvtárának és fájlnevének megadására.

Az Arc fájl több archivált erőforrást egyetlen fájlban tárol, hogy elkerülje a nagyszámú kis fájl kezelését. A fájl URL-rekordok sorozatából áll, mindegyik fejléccel, amely tartalmazza az erőforrás igénylésének metaadatait, majd a HTTP fejlécet és a választ. Az ívfájlok tartománya 100 és 600 MB között van.

Példa:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
1 1 InternetArchive
URL IP-address Archive-date Content-type Archive-length

http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
HTTP/1.1 200 OK
Date: Thu, 22 Jun 2006 19:01:15 GMT
Server: Apache
Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
Content-Length: 30
Content-Type: text/html

<html>
Hello World!!!
</html>

Eszközök az Arc fájlok feldolgozásához

A Heritrix tartalmaz egy parancssori eszközt, az arcreader nevet, amely felhasználható az Arc fájl tartalmának kibontására. Az alábbi parancs felsorolja az adott Arc fájlban ( CDX formátumban) tárolt összes URL-t és metaadatot :

arcreader IA-2006062.arc

A következő parancs kivonja a hello.html fájlt a fenti példából, feltéve, hogy a rekord a 140-es eltolásnál kezdődik:

arcreader -o 140 -f dump IA-2006062.arc

Egyéb eszközök:

Parancssori eszközök

A Heritrix számos parancssori eszközzel rendelkezik:

  • htmlextractor - megjeleníti azokat a linkeket, amelyeket Heritrix kibont egy adott URL-hez
  • hoppath.pl - újraterjeszti az ugrás útját (a linkek útvonalát) a megadott URL-re egy befejezett feltérképezésből
  • manifest_bundle.pl - összesíti a feltérképezési jegyzékfájl által hivatkozott összes erőforrást egy tömörítetlen vagy tömörített tar golyóba
  • cmdline-jmxclient - lehetővé teszi a Heritrix parancssori vezérlését
  • arcreader - kivonja az ARC fájlok tartalmát (lásd fent)

További eszközök állnak rendelkezésre az Internet Archív warctools projektjének részeként.

Lásd még

Hivatkozások

A szerkesztéstől kezdve ez a cikk a "Re: Az internetes archívum ellenőrzése mellett a" Letiltás / "?" Tartalmat használja . , amely olyan módon van licencelve, amely lehetővé teszi az újrafelhasználást a Creative Commons Attribution-ShareAlike 3.0 Unported licenc alapján , de nem a GFDL alapján . Minden vonatkozó kifejezést be kell tartani.

  1. ^ a b c d e Kris (2011. szeptember 6.). "Re: Az internetes archívum ellenőrzése a" Disallow / "mellett?" . Pro Webmesterek Stack Exchange . Stack Exchange Inc . A letöltött január 7-, 2013-as .
  2. ^ "Wayback Machine: Most 240 000 000 000 URL-lel - Internet Archive Blogok" . blog.archive.org . Letöltve: 2017. szeptember 11 .
  3. ^ "Névjegy - Webarchiválás (Kongresszusi Könyvtár)" . www.loc.gov . Letöltve: 2017-10-29 .
  4. ^ "Technische aspekten bij webarchivering - Koninklijke Bibliotheek" . www.kb.nl . Letöltve: 2017. szeptember 11 .
  5. ^ "warctools" . 2017. augusztus 25 . Letöltve: 2017. szeptember 11. - a GitHubon keresztül.
  1. Burner, M. (1997). "Kúszni az örökkévalóság felé - archívum létrehozása a világhálóról" . Webes technikák . 2. (5) bekezdése. Az eredetiből 2008. január 1-jén archiválva .
  2. Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Bevezetés a Heritrixbe, egy archív minőségű internetes bejáróba" (PDF) . A 4. Nemzetközi Webarchiváló Műhely (IWAW'04) anyagai . Archiválva az eredetiből (PDF) , 2011.06.06 . Letöltve: 2007-03-09 . CS1 maint: több név: szerzők listája ( link )
  3. Sigurðsson, K. (2005). "Inkrementális feltérképezés Heritrixszel" (PDF) . Az 5. Nemzetközi Webarchiváló Műhely (IWAW'05) anyagai . Archiválva az eredetiből (PDF) 2011.06.06 . Letöltve: 2006.06.23 .

Külső linkek

Eszközök az Internetes archívum segítségével:

Linkek a kapcsolódó eszközökhöz: