Egyszerű szöveg - Plain text

Szöveg iratai The Human Side of Animals által Royal Dixon , parancs által megjelenített categy xterm ablakban

A számítástechnikai , sima szöveg egy laza kifejezés adatokat (pl fájl tartalmát), hogy képviselje csak karaktereket az olvasható anyag, de nem a grafikus ábrázolás sem más tárgyak ( lebegőpontos számok , képek, stb.) Korlátozott számú "szóköz" karaktert is tartalmazhat, amelyek befolyásolják a szöveg egyszerű elrendezését, például szóközöket, sortöréseket vagy táblázási karaktereket (bár a tabulátor karakterek "sok mindent" jelenthetnek, ezért alig "sima"). Az egyszerű szöveg eltér a formázott szövegtől , ahol a stílusinformációk szerepelnek; strukturált szövegből, ahol a dokumentum szerkezeti részeit, például bekezdéseket, szakaszokat és hasonlókat azonosítják; és bináris fájlokból , amelyekben egyes részeket bináris objektumként kell értelmezni (kódolt egész számok, valós számok, képek stb.).

A kifejezést néha meglehetősen lazán használják, és olyan fájlokat jelentenek, amelyek csak "olvasható" tartalmat tartalmaznak (vagy csak olyan fájlokat, amelyekben a hangszóró nem részesíti előnyben). Például kizárhatja a betűtípusok vagy elrendezések jelzését (például jelölés, jelölés vagy akár lapok); olyan karakterek, mint a göndör idézetek, töretlen szóközök, lágy kötőjelek, kötőjelek és/vagy ligatúrák; vagy más dolgokat.

Elvileg a sima szöveg bármilyen kódolású lehet , de néha a kifejezés ASCII -t jelent . Ahogy az Unicode- alapú kódolások, mint például az UTF-8 és az UTF-16, egyre gyakoribbá válnak, ez a használat csökkenhet.

Az egyszerű szöveget néha csak a "bináris" fájlok kizárására is használják: olyanokat, amelyekben a fájl legalább egyes részei nem értelmezhetők helyesen a hatályos karakterkódolással. Például egy "hello" -ból (bármilyen kódolásban) álló fájl vagy karakterlánc , amelyet 4 bájt követ, amelyek bináris egész számot fejeznek ki, amely nem csak karakter (ek), bináris fájl, nem a leglazább közös szöveg szokások. Másképpen fogalmazva, fordítására egy sima szöveges fájl, hogy a karakterkódolás, hogy felhasználása teljesen más számok ábrázolására karakter nem változik a jelentése (mindaddig, amíg tudod, mit kódoló van használatban), de a bináris fájlok egy ilyen átalakítás nem megváltoztatni a jelentését a fájl legalább egyes részeiről.

Egyszerű és gazdag szöveg

A The Unicode Standard szerint:

  • "A sima szöveg a karakterkódok tiszta sorozata; a sima Un-kódolatlan szöveg ezért az Unicode-karakterkódok sorozata.
  • Ezzel szemben a stílusos szöveg , más néven gazdag szöveg , minden olyan szöveges ábrázolás, amely egyszerű szöveget és hozzáadott információkat tartalmaz, például nyelvi azonosítót, betűméretet, színt, hipertext hivatkozásokat stb.

Az SGML, az RTF, a HTML, az XML és a TEX a gazdag szöveg példái, amelyek teljes egészében egyszerű szöveges adatfolyamként jelennek meg, és amelyek sima szöveges adatokat tartalmaznak a további adatstruktúrákat reprezentáló karaktersorokkal. "

Más definíciók szerint azonban a jelölést vagy más metaadatokat tartalmazó fájlok általában egyszerű szövegnek minősülnek, amennyiben a jelölés közvetlenül ember által is olvasható formában van (például HTML , XML és így tovább). Így az olyan ábrázolások, mint az SGML , RTF , HTML , XML , wiki jelölés és TeX , valamint szinte minden programozási nyelv forráskódfájlja egyszerű szövegnek minősül. Az adott tartalomnak nincs jelentősége abban, hogy a fájl egyszerű szöveg -e. Például egy SVG fájl képes rajzokat vagy akár bittérképes grafikákat kifejezni, de még mindig sima szöveg.

A bináris fájlok helyett egyszerű szöveg használata lehetővé teszi a fájlok sokkal jobb túlélését "a vadonban", részben azáltal, hogy nagyrészt immunisak a számítógépes architektúra összeférhetetlenségeivel szemben. Például az Endianness minden problémája elkerülhető (olyan kódolásokkal, mint az UCS-2, nem az UTF-8, az endianitás számít, de egységesen minden karakterre, nem pedig annak potenciálisan ismeretlen részhalmazaira).

Használat

A sima szöveg használatának célja ma elsősorban az olyan programoktól való függetlenség, amelyek saját kódolást, formázást vagy fájlformátumot igényelnek . Az egyszerű szöveges fájlok mindenütt jelenlévő szövegszerkesztőkkel és segédprogramokkal nyithatók meg, olvashatók és szerkeszthetők .

A parancssori felület lehetővé teszi az emberek számára, hogy parancsokat adjanak egyszerű szövegben, és választ kapjanak, általában egyszerű szövegben is.

Sok más számítógépes program is képes egyszerű szöveg feldolgozására vagy létrehozására, például számtalan program DOS -ban , Windows -ban , klasszikus Mac OS -ben és Unixban és hozzátartozóiban; valamint a webböngészők (néhány böngésző, például a Lynx és a Line Mode Browser csak egyszerű szöveget állít elő megjelenítésre) és más e-szöveg olvasók.

A sima szöveges fájlok szinte univerzálisak a programozásban; a programozási nyelven utasításokat tartalmazó forráskódfájl szinte mindig egyszerű szöveges fájl. A sima szöveget gyakran használják a konfigurációs fájlokhoz is , amelyeket a program indításakor olvas a mentett beállításokhoz.

Az egyszerű szöveget sok e-mailben használják .

Egy megjegyzés , egy " .txt " fájl vagy egy TXT rekord általában csak egyszerű szöveget tartalmaz (formázás nélkül), amelyet emberek olvashatnak.

A legjobb formátum a tudás tartós tárolására az egyszerű szöveg, nem pedig valamilyen bináris formátum .

Kódolás

Karakterkódolások

A hatvanas évek eleje előtt a számítógépeket főként számok legyűrésére használták, nem pedig szövegre, a memória pedig rendkívül drága volt. A számítógépek gyakran csak 6 bitet rendeltek minden karakterhez, ami csak 64 karaktert engedélyezett-az AZ, az és a 0-9 kódok hozzárendelésével csak 2 kód maradna: közel sem elég. A legtöbb számítógép úgy döntött, hogy nem támogatja a kisbetűket. Így a korai szöveget projektek, mint Roberto Busa „s Index Thomisticus , a Brown Corpus és mások kellett igénybe egyezmények, úgymint kódolási csillaggal előző leveleket valójában szánták nagybetűs.

Fred Brooks, az IBM határozottan érvelt amellett, hogy 8 bites bájtokat szeretne használni, mert egyszer az emberek esetleg feldolgozni akarják a szöveget; és nyert. Bár az IBM az EBCDIC-t használta , ettől kezdve a legtöbb szöveget ASCII- ben kódolták, a 0-tól 31-ig terjedő értékeket használva a (nem nyomtatott) vezérlőkarakterekhez , és 32 és 127 közötti értékeket a grafikus karakterekhez, például betűkhez, számjegyekhez és írásjelekhez. A legtöbb gép nem 7, hanem 8 bitben tárolta a karaktereket, figyelmen kívül hagyva a fennmaradó bitet, vagy ellenőrző összegként használva .

Az ASCII szinte mindenütt jelenlévője nagy segítséget jelentett, de nem válaszolt a nemzetközi és nyelvi problémákra. A dollárjel ("$") nem volt annyira hasznos Angliában, és a spanyol, francia, német, portugál és sok más nyelvben használt ékezetes karakterek teljesen nem voltak elérhetők az ASCII-ben (nem beszélve a görög, orosz, és a legtöbb keleti nyelv). Sok magánszemély, vállalat és ország szükség szerint extra karaktereket határozott meg - gyakran átirányították a vezérlőkaraktereket, vagy 128 és 255 közötti értékeket használtak. A 128 feletti értékek használata ütközik azzal, hogy a 8. bitet használjuk ellenőrző összegként, de az ellenőrző összeg használata fokozatosan kihalt .

Ezeket a kiegészítő karaktereket különböző országokban másképp kódolták, ami lehetetlenné tette a szövegek dekódolását anélkül, hogy rájönnének a kezdeményező szabályaira. Például, a böngésző is megjeleníthet ¬A helyett ` ha megpróbáltam értelmezni egy karakterkészlet, mint a másik. A Nemzetközi Szabványügyi Szervezet ( ISO ) végül több kódlapot is kidolgozott az ISO 8859 szabvány szerint, különböző nyelvek kielégítésére. Ezek közül az első ( ISO 8859-1 ) "Latin-1" néven is ismert, és a legtöbb (nem minden) európai nyelv igényeit fedezi, amelyek latin alapú karaktereket használnak (nem volt elég hely mindezek lefedésére) . Az ISO 2022 ezután konvenciókat biztosított a fájl közepén lévő különböző karakterkészletek közötti "váltáshoz". Sok más szervezet fejlesztett ezekre variációkat, és sok éven át a Windows és a Macintosh számítógépek nem kompatibilis változatokat használtak.

A szövegkódolási helyzet egyre összetettebbé vált, ami az ISO és a Unicode Consortium erőfeszítéseihez vezetett, hogy egyetlen, egységes karakterkódolást dolgozzanak ki, amely lefedheti az összes ismert (vagy legalábbis az összes jelenleg ismert) nyelvet. Némi konfliktus után ezek az erőfeszítések egyesültek. Az Unicode jelenleg 1 114 112 kódértéket tesz lehetővé, és szinte minden modern szövegíró rendszert, valamint sok történeti rendszert lefedő kódokat, valamint számos nem nyelvi karaktert, például a nyomtató dingbatjait , matematikai szimbólumait stb.

A szöveg kódolásától függetlenül egyszerű szövegnek minősül. A címzettnek ahhoz, hogy megfelelően megértse vagy feldolgozza, tudnia kell (vagy ki kell tudnia találni), hogy milyen kódolást használtak; azonban semmit sem kell tudniuk a használt számítógépes architektúráról, vagy az adatokat létrehozó program által meghatározott bináris struktúrákról (ha vannak ilyenek).

Talán a leggyakoribb módja annak, hogy kifejezetten kimondjuk az egyszerű szöveg sajátos kódolását, a MIME típus . Az e -mail és a HTTP esetében az alapértelmezett MIME típus a " text/plain " - sima szöveg jelölés nélkül. Egy másik MIME-típus, amelyet gyakran használnak mind az e-mailekben, mind a HTTP-ben, a " text/html ; charset = UTF-8"-egyszerű szöveg, amelyet UTF-8 karakterkódolással és HTML-jelöléssel ábrázolnak. Egy másik gyakori MIME típus az "application/json"-egyszerű szöveg, amelyet UTF-8 karakterkódolással ábrázolnak JSON jelöléssel.

Ha egy dokumentumot a karakterkódolás kifejezett megjelölése nélkül fogad, egyes alkalmazások karakterkészlet -észlelést használnak, hogy megpróbálják kitalálni, hogy milyen kódolást használtak.

Vezérlőkódok

Az ASCII fenntartja az első 32 kódot (0-31 tizedesjegy) a "C0 készlet" néven ismert vezérlő karakterekhez : a kódok eredetileg nem a nyomtatható információkat, hanem az ASCII -t használó vezérlőeszközöket (például nyomtatókat ) szánták , vagy hogy meta-adatok találhatóak adatfolyamok például a tárolt mágneses szalagot. Olyan gyakori karaktereket tartalmaznak, mint az újsor és a tabulátor karakter .

A 8 bites karakterkészletekben, mint például a Latin-1 és a többi ISO 8859 készlet, a „felső fele” (128–159) első 32 karaktere szintén vezérlőkód, más néven „C1 készlet”. Ritkán használják közvetlenül; amikor felbukkannak olyan dokumentumokban, amelyek látszólag ISO 8859 kódolásúak, kódhelyzetük általában inkább az adott pozícióban lévő karakterekre utal egy saját, rendszerspecifikus kódolásban, mint például a Windows-1252 vagy a Mac OS Roman , amelyek a kódokat használják hogy helyette további grafikus karaktereket adjon meg.

Az Unicode további vezérlőkaraktereket határoz meg, beleértve a kétirányú szövegirány- felülbíráló karaktereket (a jobbról balra történő írás kifejezett megjelölésére használják a balról jobbra írásban és fordítva) és a variációválasztókat a CJK ideográfiák , hangulatjelek alternatív formáinak kiválasztásához és más karakterek.

Lásd még

Hivatkozások