Szövegkódolási kezdeményezés - Text Encoding Initiative

Szövegkódolási kezdeményezésTEI Logo.svg

A szöveg Encoding Initiative ( TEI ) egy szöveg-centrikus gyakorlat közösségének a tudományterület a digitális bölcsészet , folyamatosan működik 1980 óta. A közösség jelenleg levelezőlistát, értekezleteket és konferenciasorozatokat üzemeltet, valamint fenntartja a TEI technikai szabványt , naplót , wikit , GitHub -tárházat és eszköztárat .

TEI irányelvek

A TEI Irányelvek együttesen határozzák meg az XML formátum típusát , és a gyakorlat közösségének meghatározó eredményei. A formátum abban különbözik a többi jól ismert nyílt szövegformátumtól (például HTML és OpenDocument ), hogy elsősorban szemantikai, nem pedig prezentációs; minden címke és attribútum szemantikája és értelmezése meghatározott. Körülbelül 500 különböző szöveges alkotóelem és fogalom létezik ( szó , mondat , karakter , betűjel , személy stb.); mindegyik egy vagy több tudományos diszciplínán alapul, és példákat adunk.

Műszaki információk

A szabvány két részre oszlik, egy diszkurzív szöveges leírásra, kiterjesztett példákkal és vitákkal, valamint a címkénkénti definíciókkal. A sémák a legtöbb modern formátumban ( DTD , RELAX NG és W3C Schema ) automatikusan generálódnak a címkenkénti definíciókból. Számos eszköz támogatja az irányelvek elkészítését és az irányelvek konkrét projektekre történő alkalmazását.

Számos speciális címkét használnak a mögöttes Unicode által előírt korlátozások megkerülésére ; glyph lehetővé teszi olyan karakterek ábrázolását, amelyek nem jogosultak a Unicode felvételére és választására, hogy lehetővé tegyék a szükséges szigorú linearitás leküzdését.

A formátum legtöbb felhasználója nem használja a címkék teljes skáláját, hanem testreszabást készít az irányelvekben meghatározott címkék és attribútumok projekt-specifikus részhalmazával. A TEI definiál egy kifinomult testreszabási mechanizmust, amelyet ODD néven ismernek erre a célra. Az egyes TEI -címkék dokumentálása és leírása mellett az ODD -specifikáció meghatározza annak tartalmi modelljét és egyéb használati korlátozásait is, amelyeket a schematron segítségével lehet kifejezni .

A TEI Lite egy példa erre a testreszabásra. XML-alapú fájlformátumot határoz meg a szövegek cseréjéhez. Ez egy kezelhető válogatás a teljes TEI Irányelvekben elérhető elemek széles skálájából.

XML-alapú formátumként a TEI nem tud közvetlenül foglalkozni az átfedő jelölésekkel és a nem hierarchikus struktúrákkal. Az irányelvek számos lehetőséget kínálnak az ilyen típusú adatok ábrázolására.

Példák

A TEI irányelvek szövege példákban gazdag. A TEI wikin található egy mintaoldal is, amely példákat ad valós projektekre, amelyek leleplezik mögöttes TEI-jüket.

Prózai címkék

A TEI lehetővé teszi a szövegek szintaktikai jelölését a szemcsésség bármely szintjén, vagy a szemcsésség keverékén. Például ezt a (p) bekezdést mondat (ok) és záradékok (cl) jelölik.

 <s>
  <cl>It was about the beginning of September, 1664,
  <cl>that I, among the rest of my neighbours,
       heard in ordinary discourse
   <cl>that the plague was returned again to Holland; </cl>
   </cl>
  </cl>
  <cl>for it had been very violent there, and particularly at
     Amsterdam and Rotterdam, in the year 1663, </cl>
  <cl>whither, <cl>they say,</cl> it was brought,
  <cl>some said</cl> from Italy, others from the Levant, among some goods
  <cl>which were brought home by their Turkey fleet;</cl>
  </cl>
  <cl>others said it was brought from Candia;
     others from Cyprus. </cl>
 </s>
 <s>
  <cl>It mattered not <cl>from whence it came;</cl>
  </cl>
  <cl>but all agreed <cl>it was come into Holland again.</cl>
  </cl>
 </s>

Vers

A TEI címkékkel rendelkezik a vers megjelölésére. Ez a példa (a TEI irányelvek francia fordításából vett) szonettet mutat.

<div type="sonnet">
 <lg type="quatrain">
  <l>Les amoureux fervents et les savants austères</l>
  <l> Aiment également, dans leur mûre saison,</l>
  <l> Les chats puissants et doux, orgueil de la maison,</l>
  <l> Qui comme eux sont frileux et comme eux sédentaires.</l>
 </lg>
 <lg type="quatrain">
  <l>Amis de la science et de la volupté</l>
  <l> Ils cherchent le silence et l'horreur des ténèbres ;</l>
  <l> L'Érèbe les eût pris pour ses coursiers funèbres,</l>
  <l> S'ils pouvaient au servage incliner leur fierté.</l>
 </lg>
 <lg type="tercet">
  <l>Ils prennent en songeant les nobles attitudes</l>
  <l>Des grands sphinx allongés au fond des solitudes,</l>
  <l>Qui semblent s'endormir dans un rêve sans fin ;</l>
 </lg>
 <lg type="tercet">
  <l>Leurs reins féconds sont pleins d'étincelles magiques,</l>
  <l> Et des parcelles d'or, ainsi qu'un sable fin,</l>
  <l>Étoilent vaguement leurs prunelles mystiques.</l>
 </lg>
</div>

Választási címke

A választási címke olyan szövegrészek ábrázolására szolgál, amelyek egynél több módon kódolhatók vagy címkézhetők. A következő példában, a szabványban szereplő egyik alapján, a választást kétszer használják, egyszer az eredeti és a javított szám jelzésére, egyszer pedig az eredeti és rendszerezett helyesírás jelzésére.

<p xml:id="p23">Lastly, That, upon his solemn oath to observe all the above
articles, the said man-mountain shall have a daily allowance of
meat and drink sufficient for the support of <choice>
  <sic>1724</sic>
  <corr>1728</corr>
 </choice> of our subjects,
with free access to our royal person, and other marks of our
<choice>
  <orig>favour</orig>
  <reg>favor</reg>
 </choice>.

PÁRATLAN

Az egyik dokumentum mindent megtesz ("ODD") egy írástudó programozási nyelv az XML sémákhoz .

Az írástudó programozási stílusban az ODD dokumentumok egyesítik az ember által olvasható dokumentációt és a géppel olvasható modelleket a Text Encoding Initiative Documentation Elements moduljának használatával. Az eszközök lokalizált és nemzetközivé tett HTML , ePub vagy PDF ember által olvasható kimenetet és DTD-ket , W3C XML sémát , Relax NG Compact Syntax vagy Relax NG XML Syntax géppel olvasható kimenetet hoznak létre .

A Roma webalkalmazás az ODD formátum köré épül, és felhasználhatja sémák létrehozásához DTD , W3C XML séma , Relax NG Compact szintaxis vagy Relax NG XML szintaxis formátumban, ahogy azt sok XML érvényesítési eszköz és szolgáltatás használja.

Az ODD a Text Encoding Initiative által a TEI technikai szabványban belsőleg használt formátum . Bár az ODD fájlok általában leírják a testreszabott XML formátum és a teljes TEI modell közötti különbséget, az ODD használható a TEI -től teljesen elkülönülő XML formátumok leírására is. Ennek egyik példája a W3C Internationalization Tag Set, amely az ODD formátumot használja a sémák előállításához és a szókincs dokumentálásához.

TEI testreszabások

A TEI testreszabások a TEI XML specifikációjának szakterületei, amelyeket bizonyos területeken vagy bizonyos közösségekben lehet használni.

  • EpiDoc (epigrafikus dokumentumok)
  • Charters Encoding Initiative
  • Középkori skandináv szövegarchívum (Menota)

A TEI testreszabása a fent említett ODD mechanizmuson keresztül történik. Valójában a P5-ös verzió óta a TEI-irányelvek úgynevezett „TEI-konform” felhasználása a TEI ODD-fájlban dokumentált TEI-testreszabáson alapul. Még akkor is, ha a felhasználók a polcról származó, előre generált sémák közül választanak egyet az érvényesítéshez, ezeket szabadon elérhető testreszabási fájlokból hozták létre.

Projektek

A formátumot számos projekt használja világszerte. Gyakorlatilag minden projekt egy vagy több egyetemhez kapcsolódik. Néhány jól ismert projekt, amely szövegeket kódol a TEI segítségével, a következők:

TEI projektek
Projekt URL Erősségek
Brit Nemzeti Korpusz http://www.natcorp.ox.ac.uk 100 millió szó pillanatkép a jelenlegi angolról
Oxfordi szövegarchívum https://ota.bodleian.ox.ac.uk/repository/xmlui/ > 1 GB nyelvi adat és elektronikus szöveg 25 nyelven
Perseus projekt https://www.perseus.tufts.edu/ Görög és latin szövegek
EpiDoc https://sourceforge.net/p/epidoc/wiki/Home/ Felirattan és papirológia
Női írók projektje https://wwp.northeastern.edu/ A kora újkori írónők ( Margaret Cavendish , Eliza Haywood stb.)
Új -zélandi elektronikus szövegközpont http://www.nzetc.org/ Új -zélandi és csendes -óceáni szigetek szövegei
A SWORD projekt https://www.crosswire.org/sword/ Bibliai szoftver , szótárak, keresztény irodalom
FreeDict https://freedict.org/ Kétnyelvű szótárak
Szövegkészítési partnerség https://textcreationpartnership.org/ Korai angol és amerikai könyvek
KELTA https://celt.ucc.ie/publishd.html Ősi és középkori ír kéziratok
ISTEX https://www.istex.fr/ Tudományos publikációk archívuma
TAXI https://cab.geschkult.fu-berlin.de/ A zoroasztriai rituálék kiadása avesztán nyelven

Történelem

A TEI létrehozása előtt a bölcsészek nem rendelkeztek közös szabványokkal az elektronikus szövegek olyan módon történő kódolására, amely szolgálja tudományos céljaikat ( Hockey 1993, 41. o.). 1987 -ben a Vassar College -ban összeült a bölcsészettudományok, a nyelvészet és a számítástechnika területét képviselő tudósok egy csoportja, hogy kidolgozzon egy „Poughkeepsie Principles” néven ismert iránymutatást. Ezek az irányelvek irányították az első TEI szabvány, a "P1" kifejlesztését.

  • 1987 - megindult a munka az Egyesület Számítógépek és humán , az Association for Számítógépes Nyelvészeti és a Szövetség Irodalmi és nyelvi Computing , hogy milyen lesz a TEI. Ennek csúcspontja a Vassar Tervezési Konferencia zárónyilatkozata volt .
  • 1994-Megjelent a TEI P3, Lou Burnard (az Oxfordi Egyetemen ) és Michael Sperberg-McQueen (majd a chicagói Illinois Egyetemen , később a W3C ) társszerkesztésében .
  • 1999 - A TEI P3 frissítve.
  • 2002 - Megjelent a TEI P4, amely az SGML -ről az XML -re vált; Unicode elfogadása , amelyet az XML -elemzőknek támogatniuk kell.
  • 2007 - Megjelent a TEI P5, beleértve a W3C xml:langés xml:id-attribútumokkal való integrációt (ezek korábban a TEI névtérben voltak attribútumok), a helyi mutatóattribútumok rendszerezése a hash használatához (a HTML -ben használt módon), valamint a ptr és az xptr címkék egységesítése . Ezek a változtatások és számos új kiegészítés együttesen szabályosabbá teszik a P5 -öt, és közelebb hozzák a W3C által támogatott és más XML -változatok által használt jelenlegi xml -gyakorlathoz. A TEI P5 karbantartási és szolgáltatásfrissítési verziói 2007 óta évente legalább kétszer megjelentek.
  • 2011 - Megjelent a TEI P5 v2.0.1 a genetikai szerkesztés támogatásával (sok más kiegészítés mellett a genetikai szerkesztési funkciók lehetővé teszik a szövegek kódolását a konkrét szemantikájuk nélkül).
  • 2017 - A TEI -t Antonio Zampolli -díjjal tüntették ki a Digital Humanities Organizations Alliance -tól.

Hivatkozások

Külső linkek