Szövegkódolási kezdeményezés - Text Encoding Initiative
A szöveg Encoding Initiative ( TEI ) egy szöveg-centrikus gyakorlat közösségének a tudományterület a digitális bölcsészet , folyamatosan működik 1980 óta. A közösség jelenleg levelezőlistát, értekezleteket és konferenciasorozatokat üzemeltet, valamint fenntartja a TEI technikai szabványt , naplót , wikit , GitHub -tárházat és eszköztárat .
TEI irányelvek
A TEI Irányelvek együttesen határozzák meg az XML formátum típusát , és a gyakorlat közösségének meghatározó eredményei. A formátum abban különbözik a többi jól ismert nyílt szövegformátumtól (például HTML és OpenDocument ), hogy elsősorban szemantikai, nem pedig prezentációs; minden címke és attribútum szemantikája és értelmezése meghatározott. Körülbelül 500 különböző szöveges alkotóelem és fogalom létezik ( szó , mondat , karakter , betűjel , személy stb.); mindegyik egy vagy több tudományos diszciplínán alapul, és példákat adunk.
Műszaki információk
A szabvány két részre oszlik, egy diszkurzív szöveges leírásra, kiterjesztett példákkal és vitákkal, valamint a címkénkénti definíciókkal. A sémák a legtöbb modern formátumban ( DTD , RELAX NG és W3C Schema ) automatikusan generálódnak a címkenkénti definíciókból. Számos eszköz támogatja az irányelvek elkészítését és az irányelvek konkrét projektekre történő alkalmazását.
Számos speciális címkét használnak a mögöttes Unicode által előírt korlátozások megkerülésére ; glyph lehetővé teszi olyan karakterek ábrázolását, amelyek nem jogosultak a Unicode felvételére és választására, hogy lehetővé tegyék a szükséges szigorú linearitás leküzdését.
A formátum legtöbb felhasználója nem használja a címkék teljes skáláját, hanem testreszabást készít az irányelvekben meghatározott címkék és attribútumok projekt-specifikus részhalmazával. A TEI definiál egy kifinomult testreszabási mechanizmust, amelyet ODD néven ismernek erre a célra. Az egyes TEI -címkék dokumentálása és leírása mellett az ODD -specifikáció meghatározza annak tartalmi modelljét és egyéb használati korlátozásait is, amelyeket a schematron segítségével lehet kifejezni .
A TEI Lite egy példa erre a testreszabásra. XML-alapú fájlformátumot határoz meg a szövegek cseréjéhez. Ez egy kezelhető válogatás a teljes TEI Irányelvekben elérhető elemek széles skálájából.
XML-alapú formátumként a TEI nem tud közvetlenül foglalkozni az átfedő jelölésekkel és a nem hierarchikus struktúrákkal. Az irányelvek számos lehetőséget kínálnak az ilyen típusú adatok ábrázolására.
Példák
A TEI irányelvek szövege példákban gazdag. A TEI wikin található egy mintaoldal is, amely példákat ad valós projektekre, amelyek leleplezik mögöttes TEI-jüket.
Prózai címkék
A TEI lehetővé teszi a szövegek szintaktikai jelölését a szemcsésség bármely szintjén, vagy a szemcsésség keverékén. Például ezt a (p) bekezdést mondat (ok) és záradékok (cl) jelölik.
<s>
<cl>It was about the beginning of September, 1664,
<cl>that I, among the rest of my neighbours,
heard in ordinary discourse
<cl>that the plague was returned again to Holland; </cl>
</cl>
</cl>
<cl>for it had been very violent there, and particularly at
Amsterdam and Rotterdam, in the year 1663, </cl>
<cl>whither, <cl>they say,</cl> it was brought,
<cl>some said</cl> from Italy, others from the Levant, among some goods
<cl>which were brought home by their Turkey fleet;</cl>
</cl>
<cl>others said it was brought from Candia;
others from Cyprus. </cl>
</s>
<s>
<cl>It mattered not <cl>from whence it came;</cl>
</cl>
<cl>but all agreed <cl>it was come into Holland again.</cl>
</cl>
</s>
Vers
A TEI címkékkel rendelkezik a vers megjelölésére. Ez a példa (a TEI irányelvek francia fordításából vett) szonettet mutat.
<div type="sonnet">
<lg type="quatrain">
<l>Les amoureux fervents et les savants austères</l>
<l> Aiment également, dans leur mûre saison,</l>
<l> Les chats puissants et doux, orgueil de la maison,</l>
<l> Qui comme eux sont frileux et comme eux sédentaires.</l>
</lg>
<lg type="quatrain">
<l>Amis de la science et de la volupté</l>
<l> Ils cherchent le silence et l'horreur des ténèbres ;</l>
<l> L'Érèbe les eût pris pour ses coursiers funèbres,</l>
<l> S'ils pouvaient au servage incliner leur fierté.</l>
</lg>
<lg type="tercet">
<l>Ils prennent en songeant les nobles attitudes</l>
<l>Des grands sphinx allongés au fond des solitudes,</l>
<l>Qui semblent s'endormir dans un rêve sans fin ;</l>
</lg>
<lg type="tercet">
<l>Leurs reins féconds sont pleins d'étincelles magiques,</l>
<l> Et des parcelles d'or, ainsi qu'un sable fin,</l>
<l>Étoilent vaguement leurs prunelles mystiques.</l>
</lg>
</div>
Választási címke
A választási címke olyan szövegrészek ábrázolására szolgál, amelyek egynél több módon kódolhatók vagy címkézhetők. A következő példában, a szabványban szereplő egyik alapján, a választást kétszer használják, egyszer az eredeti és a javított szám jelzésére, egyszer pedig az eredeti és rendszerezett helyesírás jelzésére.
<p xml:id="p23">Lastly, That, upon his solemn oath to observe all the above
articles, the said man-mountain shall have a daily allowance of
meat and drink sufficient for the support of <choice>
<sic>1724</sic>
<corr>1728</corr>
</choice> of our subjects,
with free access to our royal person, and other marks of our
<choice>
<orig>favour</orig>
<reg>favor</reg>
</choice>.
PÁRATLAN
Az egyik dokumentum mindent megtesz ("ODD") egy írástudó programozási nyelv az XML sémákhoz .
Az írástudó programozási stílusban az ODD dokumentumok egyesítik az ember által olvasható dokumentációt és a géppel olvasható modelleket a Text Encoding Initiative Documentation Elements moduljának használatával. Az eszközök lokalizált és nemzetközivé tett HTML , ePub vagy PDF ember által olvasható kimenetet és DTD-ket , W3C XML sémát , Relax NG Compact Syntax vagy Relax NG XML Syntax géppel olvasható kimenetet hoznak létre .
A Roma webalkalmazás az ODD formátum köré épül, és felhasználhatja sémák létrehozásához DTD , W3C XML séma , Relax NG Compact szintaxis vagy Relax NG XML szintaxis formátumban, ahogy azt sok XML érvényesítési eszköz és szolgáltatás használja.
Az ODD a Text Encoding Initiative által a TEI technikai szabványban belsőleg használt formátum . Bár az ODD fájlok általában leírják a testreszabott XML formátum és a teljes TEI modell közötti különbséget, az ODD használható a TEI -től teljesen elkülönülő XML formátumok leírására is. Ennek egyik példája a W3C Internationalization Tag Set, amely az ODD formátumot használja a sémák előállításához és a szókincs dokumentálásához.
TEI testreszabások
A TEI testreszabások a TEI XML specifikációjának szakterületei, amelyeket bizonyos területeken vagy bizonyos közösségekben lehet használni.
- EpiDoc (epigrafikus dokumentumok)
- Charters Encoding Initiative
- Középkori skandináv szövegarchívum (Menota)
A TEI testreszabása a fent említett ODD mechanizmuson keresztül történik. Valójában a P5-ös verzió óta a TEI-irányelvek úgynevezett „TEI-konform” felhasználása a TEI ODD-fájlban dokumentált TEI-testreszabáson alapul. Még akkor is, ha a felhasználók a polcról származó, előre generált sémák közül választanak egyet az érvényesítéshez, ezeket szabadon elérhető testreszabási fájlokból hozták létre.
Projektek
A formátumot számos projekt használja világszerte. Gyakorlatilag minden projekt egy vagy több egyetemhez kapcsolódik. Néhány jól ismert projekt, amely szövegeket kódol a TEI segítségével, a következők:
Történelem
A TEI létrehozása előtt a bölcsészek nem rendelkeztek közös szabványokkal az elektronikus szövegek olyan módon történő kódolására, amely szolgálja tudományos céljaikat ( Hockey 1993, 41. o.). 1987 -ben a Vassar College -ban összeült a bölcsészettudományok, a nyelvészet és a számítástechnika területét képviselő tudósok egy csoportja, hogy kidolgozzon egy „Poughkeepsie Principles” néven ismert iránymutatást. Ezek az irányelvek irányították az első TEI szabvány, a "P1" kifejlesztését.
- 1987 - megindult a munka az Egyesület Számítógépek és humán , az Association for Számítógépes Nyelvészeti és a Szövetség Irodalmi és nyelvi Computing , hogy milyen lesz a TEI. Ennek csúcspontja a Vassar Tervezési Konferencia zárónyilatkozata volt .
- 1994-Megjelent a TEI P3, Lou Burnard (az Oxfordi Egyetemen ) és Michael Sperberg-McQueen (majd a chicagói Illinois Egyetemen , később a W3C ) társszerkesztésében .
- 1999 - A TEI P3 frissítve.
- 2002 - Megjelent a TEI P4, amely az SGML -ről az XML -re vált; Unicode elfogadása , amelyet az XML -elemzőknek támogatniuk kell.
- 2007 - Megjelent a TEI P5, beleértve a W3C
xml:lang
ésxml:id
-attribútumokkal való integrációt (ezek korábban a TEI névtérben voltak attribútumok), a helyi mutatóattribútumok rendszerezése a hash használatához (a HTML -ben használt módon), valamint a ptr és az xptr címkék egységesítése . Ezek a változtatások és számos új kiegészítés együttesen szabályosabbá teszik a P5 -öt, és közelebb hozzák a W3C által támogatott és más XML -változatok által használt jelenlegi xml -gyakorlathoz. A TEI P5 karbantartási és szolgáltatásfrissítési verziói 2007 óta évente legalább kétszer megjelentek. - 2011 - Megjelent a TEI P5 v2.0.1 a genetikai szerkesztés támogatásával (sok más kiegészítés mellett a genetikai szerkesztési funkciók lehetővé teszik a szövegek kódolását a konkrét szemantikájuk nélkül).
- 2017 - A TEI -t Antonio Zampolli -díjjal tüntették ki a Digital Humanities Organizations Alliance -tól.
Hivatkozások
Külső linkek
- TEI konzorcium webhely egy listát a TEI projektek egy űrlapot hozzá a projekthez , és wiki
- A TEI folyóirata
- TEI Lite: Bevezetés a szövegkódoláshoz
- TEI @ Oxford (házigazda az Oxfordi Egyetemen ) az alaptartalom nagy részének fejlesztési és biztonsági mentési verzióival.
- TEI GitHub webhely (a GitHubon tárolva ) tárolóval és problémakövetővel
- A TEI projektek nagyobb listája
- Mi a TEI? (Lou Burnard bevezető áttekintése)