Karakter kombinálása - Combining character

A cirill betű Y breve- vel kombinálva ў-t ad .

A digitális tipográfia , ötvözve karakterek vannak karakterek , amelyek célja, hogy módosítsa a többi karakter. A leggyakoribb ötvözi karakterek a latin írás a kombinálásával ékezetek (beleértve kombinálásával ékezetek ).

Az Unicode számos előkomponált karaktert is tartalmaz , így sok esetben lehetőség van a diakritikus és az előkomponált karakterek kombinációjára is, a felhasználó vagy az alkalmazás választása szerint. Ez elvezeti az Unicode normalizálását, mielőtt két Unicode karakterláncot összehasonlítana, és gondosan meg kell terveznie a kódoló átalakítókat, hogy az adatvesztés elkerülése érdekében helyesen hozzárendeljék az Unicode-ban szereplő karakter összes érvényes módját egy régi kódoláshoz.

Az Unicode-ban az európai nyelvek és a nemzetközi fonetikus ábécé összekapcsolásának fő blokkja az U + 0300 – U + 036F. A diakritikus jelek kombinálása az Unicode karakterek sok más blokkjában is megtalálható. Az Unicode-ban a diakritikusokat mindig a fő karakter után adják meg (ellentétben néhány régebbi kombináló karakterkészlettel, például ANSEL ), és lehetőség van több diakritikus hozzáadására ugyanahhoz a karakterhez, beleértve a halmozott diakritikusokat is fent és alatt, bár egyes rendszerek nem feltétlenül teszi ezeket jól.

Unicode tartományok

A következő blokkok kifejezetten a karakterek kombinálására szolgálnak:

  • A diakritikus jelek (0300–036F) kombinálása az 1.0-s verzió óta, a későbbi verziók 4.1-ig történő módosításával
  • Kiterjesztett Diacritical Marks Extended (1AB0–1AFF), 7.0 verzió
  • A diakritikus jelek kiegészítésének (1DC0–1DFF) kombinálása, 4.1–5.2. Verziók
  • Diakritikus szimbólumok (20D0–20FF) kombinálása az 1.0-s verzió óta a későbbi verziók 5.1-ig történő módosításával
  • A Half Marks (FE20 – FE2F) 1.0 verziójának kombinálása a későbbi verziók 8.0-ig történő módosításával

A karakterek kombinálása nem korlátozódik ezekre a blokkokra; például a kombináló dakuten (U + 3099) és a kombináló handakuten (U + 309A) a Hiragana blokkban található , a Devanagari blokk magánhangzókat és egyéb, a szkripthez használható egyéb jeleket tartalmaz, és így tovább. Az egyesítő karakterekhez az Unicode fő kategória "M" ("Mark") tartozik.

A diakritikus jelek
hivatalos Unicode Consortium kóddiagramjának egyesítése (PDF)
  0 1 2 3 4 5. 6. 7 8. 9. A B C D E F
U + 030x ◌̀ ◌́ ◌̂ ◌̃ ◌̄ ◌̅ ◌̆ ◌̇ ◌̈ ◌̉ ◌̊ ◌̋ ◌̌ ◌̍ ◌̎ ◌̏
U + 031x ◌̐ ◌̑ ◌̒ ◌̓ ◌̔ ◌̕ ◌̖ ◌̗ ◌̘ ◌̙ ◌̚ ◌̛ ◌̜ ◌̝ ◌̞ ◌̟
U + 032x ◌̠ ◌̡ ◌̢ ◌̣ ◌̤ ◌̥ ◌̦ ◌̧ ◌̨ ◌̩ ◌̪ ◌̫ ◌̬ ◌̭ ◌̮ ◌̯
U + 033x ◌̰ ◌̱ ◌̲ ◌̳ ◌̴ ◌̵ ◌̶ ◌̷ ◌̸ ◌̹ ◌̺ ◌̻ ◌̼ ◌̽ ◌̾ ◌̿
U + 034x ◌̀ ◌́ ◌͂ ◌̓ ◌̈́ ◌ͅ ◌͆ ◌͇ ◌͈ ◌͉ ◌͊ ◌͋ ◌͌ ◌͍ ◌͎  CGJ 
U + 035x ◌͐ ◌͑ ◌͒ ◌͓ ◌͔ ◌͕ ◌͖ ◌͗ ◌͘ ◌͙ ◌͚ ◌͛ ◌͜ ◌͝ ◌͞ ◌͟
U + 036x ◌͠ ◌͡ ◌͢ ◌ͣ ◌ͤ ◌ͥ ◌ͦ ◌ͧ ◌ͨ ◌ͩ ◌ͪ ◌ͫ ◌ͬ ◌ͭ ◌ͮ ◌ͯ
Megjegyzések
1. ^ Az Unicode 13.0 verziótól kezdve

Az U + 032A és az U + 0346–034A kódpontok IPA szimbólumok:

Az U + 034B – 034E kódpontok a zavaros beszéd IPA-kritikái :

  • U + 034B  ◌͋ : orrszökés
  • U + 034C  ◌͌ : velopharyngealis súrlódás
  • U + 034D  ◌͍ : labialis terjedés
  • U + 034E  ◌͎ : sípolt artikuláció

Az U + 034F a " kombináló graféma-csatlakozó " (CGJ), és nincs látható karakterjele.

Az U + 035C – 0362 kódpontok kettős diakritikus , két betűre helyezett diakritikus jelek.

Az U + 0363–036F kódpontok középkori felső indexű betűkritikák, közvetlenül a többi betű fölé írt levelek, amelyek a középkori germán kéziratokban jelennek meg, de egyes esetekben egészen a 19. század végéig használatosak. Például az U + 0364 az előző betű fölé írt e, amelyet ( kora ) új felnémet umlaut jelölésekhez kell használni , például az a modern német ü esetében .

Kibocsátva a diakritikus jelek kiterjesztett
hivatalos Unicode Consortium kóddiagramját (PDF)
  0 1 2 3 4 5. 6. 7 8. 9. A B C D E F
U + 1ABx ◌᪰ ◌᪱ ◌᪲ ◌᪳ ◌᪴ ◌᪵ ◌᪶ ◌᪷ ◌᪸ ◌᪹ ◌᪺ ◌᪻ ◌᪼ ◌᪽ ◌᪾ ◌ᪿ
U + 1ACx ◌ᫀ
U + 1ADx
U + 1Axx
U + 1AFx
Megjegyzések
1. ^ Az Unicode 13.0 verziótól kezdve
2. ^ A szürke területek a nem hozzárendelt kódpontokat jelölik
A diakritikus jelek kiegészítése a
hivatalos Unicode konzorcium kóddiagramjának kiegészítése (PDF)
  0 1 2 3 4 5. 6. 7 8. 9. A B C D E F
U + 1DCx ◌᷀ ◌᷁ ◌᷂ ◌᷃ ◌᷄ ◌᷅ ◌᷆ ◌᷇ ◌᷈ ◌᷉ ◌᷊ ◌᷋ ◌᷌ ◌᷍ ◌᷎ ◌᷏
U + 1DDx ◌᷐ ◌᷑ ◌᷒ ◌ᷓ ◌ᷔ ◌ᷕ ◌ᷖ ◌ᷗ ◌ᷘ ◌ᷙ ◌ᷚ ◌ᷛ ◌ᷜ ◌ᷝ ◌ᷞ ◌ᷟ
U + 1DEx ◌ᷠ ◌ᷡ ◌ᷢ ◌ᷣ ◌ᷤ ◌ᷥ ◌ᷦ ◌ᷧ ◌ᷨ ◌ᷩ ◌ᷪ ◌ᷫ ◌ᷬ ◌ᷭ ◌ᷮ ◌ᷯ
U + 1DFx ◌ᷰ ◌ᷱ ◌ᷲ ◌ᷳ ◌ᷴ ◌᷵ ◌᷶ ◌᷷ ◌᷸ ◌᷹ ◌᷻ ◌᷼ ◌᷽ ◌᷾ ◌᷿
Megjegyzések
1. ^ Az Unicode 13.0 verziótól kezdve
2. ^ A szürke terület a nem hozzárendelt kódpontot jelöli
Diakritikus jelek kombinálása a szimbólumokhoz
Hivatalos Unicode Consortium kóddiagram (PDF)
  0 1 2 3 4 5. 6. 7 8. 9. A B C D E F
U + 20Dx ◌⃐ ◌⃑ ◌⃒ ◌⃓ ◌⃔ ◌⃕ ◌⃖ ◌⃗ ◌⃘ ◌⃙ ◌⃚ ◌⃛ ◌⃜ ◌⃝ ◌⃞ ◌⃟
U + 20Ex ◌⃠ ◌⃡ ◌⃢ ◌⃣ ◌⃤ ◌⃥ ◌⃦ ◌⃧ ◌⃨ ◌⃩ ◌⃪ ◌⃫ ◌⃬ ◌⃭ ◌⃮ ◌⃯
U + 20Fx ◌⃰
Megjegyzések
1. ^ Az Unicode 13.0 verziótól kezdve
2. ^ A szürke területek a nem hozzárendelt kódpontokat jelölik
A Half Marks
hivatalos Unicode Consortium kóddiagramjának egyesítése (PDF)
  0 1 2 3 4 5. 6. 7 8. 9. A B C D E F
U + FE2x ◌︠ ◌︡ ◌︢ ◌︣ ◌︤ ◌︥ ◌︦ ◌︧ ◌︨ ◌︩ ◌︪ ◌︫ ◌︬ ◌︭ ◌︮ ◌︯
Megjegyzések
1. ^ Az Unicode 13.0 verziótól kezdve

OpenType

Az OpenType rendelkezik a ccmp "feature tag" -nel, amely meghatározza azokat a karakterjeleket, amelyek a karakterek kombinálásával járó kompozíciók vagy bontások, a mark taget a karakterek kombinációjának alapjelre történő elhelyezésének meghatározásához , és mkmk- t a karakterek egymáshoz történő kombinálásához.

Zalgo szöveg

Zalgo szöveg.

Kombináló karakterekkel hozták létre a Zalgo szöveget , amely olyan szöveg jelenik meg, amely "sérült" vagy "hátborzongató" a diakritikusok túlzott használata miatt. Ez a szöveget függőlegesen kinyújtja, átfedésben más szöveggel.

Lásd még

Megjegyzések

Külső linkek