GPFS - GPFS

GPFS
Fejlesztő (k)	IBM
Teljes név	IBM Spectrum Scale
Bemutatott	1998 ; 23 évvel ezelőtt az AIX- szel
Határértékek
Max. kötet mérete	8 YB
Max. fájl méret	8 EB
Max. fájlok száma	2 64 fájlrendszerenként
Jellemzők
A fájlrendszer engedélyei	POSIX
Átlátszó titkosítás	Igen
Egyéb
Támogatott operációs rendszerek	AIX , Linux , Windows Server

A GPFS ( General Parallel File System , márkanév IBM Spectrum Scale ) egy nagy teljesítményű, fürtözött fájlrendszer- szoftver, amelyet az IBM fejlesztett ki . Telepíthető megosztott lemezes vagy megosztott, semmi megosztott párhuzamos módban, vagy ezek kombinációjában. A világ számos legnagyobb kereskedelmi vállalata, valamint a Top 500 listán szereplő szuperszámítógépek egy része használja . Például az Oak Ridge Nemzeti Laboratórium csúcstalálkozójának fájlrendszere volt a világ első számú leggyorsabb szuperszámítógépe a 2019. novemberi top500 szuperszámítógépek listáján. A Summit egy 200 Petaflops rendszer, amely több mint 9000 IBM POWER mikroprocesszorból és 27 000 NVIDIA Volta GPU-ból áll . Az Alpine nevű tárolórendszer-rendszer 250 PB tárhelyet tartalmaz Spectrum Scale használatával az IBM ESS tároló hardveren, amely körülbelül 2,5 TB / s szekvenciális I / O és 2,2 TB / s véletlen I / O kapacitásra képes.

A tipikus fürt fájlrendszerekhez hasonlóan a GPFS egyidejűleg nagy sebességű fájlhozzáférést biztosít a fürtök több csomópontján futó alkalmazásokhoz. Használható AIX- fürtökkel, Linux- fürtökkel, a Microsoft Windows Server rendszeren , vagy az AIX, Linux és Windows csomópontok heterogén fürtjével, amely x86 , POWER vagy IBM Z processzor architektúrán fut . A fájlrendszer-tárolási lehetőségek mellett eszközöket biztosít a GPFS-fürt kezeléséhez és adminisztrációjához, és lehetővé teszi a fájlrendszerek megosztott elérését távoli fürtökből.

Történelem

A GPFS a Tiger Shark fájlrendszerként indult , egy kutatási projekt az IBM Almaden Kutatóközpontjában már 1993-ban. A Tiger Shark-ot eredetileg nagy teljesítményű multimédia alkalmazások támogatására tervezték. Ez a kialakítás megfelelőnek bizonyult a tudományos számítástechnikához.

Tovább őse az IBM Vesta fájlrendszer, kifejlesztett egy kutatási projekt az IBM Thomas J. Watson Research Center 1992 és 1995 között Vesta bevezette a fájl felosztásához szükségleteinek kielégítését párhuzamos futó alkalmazások nagy teljesítményű multiszámítógépek a párhuzamos I / O alrendszerek. A particionálás során a fájl nem bájtsorozat, hanem több diszjunkt szekvencia, amelyek párhuzamosan érhetők el. A particionálás olyan, hogy elvonja a fájlrendszert befogadó I / O csomópontok számát és típusát, és lehetővé teszi a fájlok logikusan particionált sokféle nézetét, függetlenül az adatok fizikai elosztásától az I / O csomópontokon. A diszjunkt szekvenciák úgy vannak elrendezve, hogy megfeleljenek a párhuzamos alkalmazás egyes folyamatainak, lehetővé téve a jobb skálázhatóságot.

A Vesta 1994 körül PIOFS fájlrendszerként került kereskedelmi forgalomba, és 1998 körül a GPFS követte. A régebbi és az újabb fájlrendszerek közötti fő különbség az volt, hogy a GPFS a Vesta / PIOFS által kínált speciális felületet a szabványos Unix API-val cserélte le : az összes támogatható funkcióval a nagy teljesítményű párhuzamos I / O-t elrejtették a felhasználók elől, és a motorháztető alatt hajtották végre.

A GPFS 1998 óta elérhető az IBM AIX rendszerén , 2001 óta Linuxon és 2008 óta Windows Server rendszeren.

Manapság az első 500 szuperszámítógépes listán szereplő első 500 szuperszámítógép közül sokan használják. A kezdetektől fogva számos kereskedelmi alkalmazás számára sikeresen telepítették, beleértve a digitális médiát, a rácselemzéseket és a méretezhető fájlszolgáltatásokat.

2010-ben az IBM megtekintette a GPFS verzióját, amely tartalmazta a GPFS-SNC néven ismert képességet, ahol az SNC a Shared Nothing Cluster (megosztott semmi fürt) rövidítése. Ezt 2012 decemberében hivatalosan is kiadták a GPFS 3.5-gyel, és ma FPO (File Placement Optimizer) néven ismert. Ez lehetővé teszi a helyileg csatolt lemezek használatát a hálózathoz csatlakoztatott szerverek csoportján, ahelyett, hogy megosztott lemezekkel rendelkező dedikált szervereket igényelne (pl. SAN használatával). Az FPO alkalmas nagy adat lokalitású munkaterhelésekre, például megosztott semmi adatbázis- fürtre , mint például az SAP HANA és a DB2 DPF, és használható HDFS- kompatibilis fájlrendszerként.

Építészet

Ez egy fürtözött fájlrendszer . Egy fájlt konfigurált méretű, egyenként kevesebb mint 1 megabájtos blokkokra bont, amelyeket több fürtcsomóponton osztanak szét.

A rendszer adatokat tárol a szokásos blokktárolási köteteken, de tartalmaz egy belső RAID réteget, amely virtualizálhatja ezeket a köteteket redundancia és párhuzamos hozzáférés céljából, hasonlóan a RAID blokktároló rendszerhez. Képes replikálni a köteteket a magasabb fájlszinten.

Az architektúra jellemzői közé tartozik

Elosztott metaadatok, beleértve a könyvtárfát is. Nincs egyetlen "címtárvezérlő" vagy "indexszerver", amely a fájlrendszerért felel.
A könyvtár bejegyzések hatékony indexelése nagyon nagy könyvtárakhoz.
Elosztott reteszelés. Ez lehetővé teszi a teljes POSIX fájlrendszer szemantikáját, beleértve a zárolást az exkluzív fájlhozzáférés érdekében.
Partíció tudatában. A hálózat meghibásodása esetén a fájlrendszer két vagy több csomópontcsoportra osztható, amelyek csak a csoportjukban lévő csomópontokat láthatják. Ez egy szívverés protokollon keresztül detektálható, és amikor partíció történik, a fájlrendszer továbbra is életben marad a kialakult legnagyobb partíción. Ez a fájlrendszer kecses lebontását kínálja - néhány gép továbbra is működik.
A fájlrendszer karbantartása online elvégezhető. A fájlrendszer karbantartási munkáinak többségét (új lemezek hozzáadása, az adatok egyensúlyának helyreállítása a lemezek között) a fájlrendszer aktív állapotában lehet végrehajtani. Ez biztosítja, hogy a fájlrendszer gyakrabban elérhető legyen, így a szuperszámítógép-fürt hosszabb ideig elérhető marad.

További jellemzők a magas rendelkezésre állás, a heterogén fürtökben való alkalmazás képessége, a katasztrófa utáni helyreállítás, a biztonság, a DMAPI , a HSM és az ILM .

Összehasonlítva a Hadoop elosztott fájlrendszerrel (HDFS)

A Hadoop HDFS fájlrendszerét hasonló vagy nagyobb mennyiségű adat tárolására tervezték árucikk hardveren - azaz RAID lemez nélküli adatközpontokon és tárolóhálózaton (SAN).

A HDFS a fájlokat blokkokra bontja és különböző fájlrendszeri csomópontokon tárolja.
A GPFS teljes Posix fájlrendszer-szemantikával rendelkezik.
A GPFS elosztja címtárindexeit és egyéb metaadatait a fájlrendszeren. A Hadoop ezzel ellentétben ezt az Első és Másodlagos Namenode-on tartja, amely nagy szervereken minden indexinformációt RAM-ban kell tárolni.
A GPFS kis fájlokra bontja a fájlokat. A Hadoop HDFS kedveli a 64 MB vagy annál nagyobb blokkokat , mivel ez csökkenti a Namenode tárolási igényét. Kis blokkok vagy sok kicsi fájl gyorsan kitölti a fájlrendszer mutatóit, ezért korlátozza a fájlrendszer méretét.

Információ életciklus-kezelés

A tárolókészletek lehetővé teszik a lemezek fájlrendszeren belüli csoportosítását. A rendszergazda tárolórétegeket hozhat létre lemezek csoportosítása révén teljesítmény, lokalitás vagy megbízhatósági jellemzők alapján. Például az egyik készlet nagy teljesítményű Fibre Channel lemezek és egy másik gazdaságosabb SATA tároló lehet.

A fájlkészlet a fájlrendszer névterének egy alfája, és lehetőséget nyújt a névtér kisebb, könnyebben kezelhető egységekre osztására. A fájlkészletek olyan adminisztratív határt biztosítanak, amely felhasználható kvóták beállításához, és egy házirendben megadható a kezdeti adatelhelyezés vagy az adatok migrációjának ellenőrzésére. Az egyetlen fájlkészletben lévő adatok egy vagy több tárolókészletben helyezkedhetnek el. A fájl adatainak tartózkodási helye és áttelepítési módja a felhasználó által definiált házirend szabályrendszerén alapul.

A felhasználó által definiált házirendeknek két típusa van: fájlelhelyezés és fájlkezelés. A fájlelhelyezési házirendek a fájladatokat irányítják, amikor fájlok jönnek létre a megfelelő tárolókészletben. A fájlelhelyezési szabályokat olyan attribútumok választják meg, mint a fájlnév, a felhasználónév vagy a fájlkészlet. A fájlkezelési házirendek lehetővé teszik a fájl adatainak áthelyezését vagy replikálását vagy a fájlok törlését. A fájlkezelési házirendek felhasználásával az adatok áthelyezhetők egyik készletből a másikba anélkül, hogy megváltoztatnák a fájl helyét a könyvtárszerkezetben. A fájlkezelési házirendeket a fájlattribútumok határozzák meg, például az utolsó hozzáférési idő, az elérési út neve vagy a fájl mérete.

Az irányelv-feldolgozó motor méretezhető és sok csomóponton futtatható egyszerre. Ez lehetővé teszi, hogy a kezelési házirendeket egyetlen fájlrendszerre alkalmazzák, több milliárd fájllal, és néhány órán belül elkészüljenek.

Languages

In other projects

GPFS - GPFS

Tartalom

Történelem

Építészet

Összehasonlítva a Hadoop elosztott fájlrendszerrel (HDFS)

Információ életciklus-kezelés

Lásd még

Hivatkozások

Külső linkek