Helyesírás-ellenőrző - Spell checker

A szoftverekben a helyesírás -ellenőrző (vagy helyesírás -ellenőrző vagy helyesírás -ellenőrzés ) olyan szoftverfunkció, amely ellenőrzi a szövegben lévő helyesírási hibákat . A helyesírás-ellenőrző funkciókat gyakran beépítik szoftverekbe vagy szolgáltatásokba, például szövegszerkesztőbe , e-mail kliensbe , elektronikus szótárba vagy keresőmotorba .

Szemnek van helyesírás -ellenőrzője,
Borsó tengerrel jött.
Ez sík lee jelzi négy a revue
Miss Steaks tudok csomót tengeren.

Szem sztrájk a rakparton, és gépeljen egy pörgős
És súly négy ez kettő mondjuk
Időjárás szem írok evező rosszul
Azt mondja egyenesen a mérleget.

Szem futott ez a vers megdobta,
A partod igazán örült két nem.
Különböző csiszolt a súlya.
Az ellenőrzőm bírta varrni.

A dáma áldás,
fagyasztja a kakukkfű tiszafaféléjét.
Segít a helyesbítés minden helyzetében,
és segít a szemem lázában.

Minden törés megjelenik a képernyőmön
.
Az ellenőr ellenőrzi a szavakat.
Két ellenőrző összeg helyesírási szabály.

Ennek a versnek az eredeti változatát Jerrold H. Zar írta 1992 -ben. Egy kifinomult helyesírás -ellenőrző kevés vagy semmilyen hibát nem talál ebben a versben, mert elszigetelten ellenőrzi a szavakat. Egy kifinomultabb helyesírás -ellenőrző egy nyelvi modellt használ a szó előfordulásának kontextusának figyelembevételéhez.
A Google Chrome helyesírás -ellenőrzője a fenti versben, a "checker" szó felismerhetetlen szóként megjelölve

Tervezés

Egy alapvető helyesírás -ellenőrző a következő folyamatokat hajtja végre:

  • Szkenneli a szöveget, és kivonja a benne található szavakat.
  • Ezután minden szót összehasonlít a helyesen írt szavak ismert listájával (azaz egy szótárral). Ez csak szavak listáját tartalmazhatja, vagy további információkat is tartalmazhat, például elválasztási pontokat vagy lexikai és nyelvtani attribútumokat.
  • Egy további lépés egy nyelvfüggő algoritmus a morfológia kezelésére . Még egy enyhén ragozott nyelv, például az angol esetében is a helyesírás -ellenőrzőnek figyelembe kell vennie ugyanazon szó különböző formáit, például a többes számokat, a verbális formákat, az összehúzódásokat és a birtokosokat . Sok más nyelv esetében, például az agglutinációval, valamint a bonyolultabb deklinációval és konjugációval rendelkező nyelvek esetében ez a folyamat bonyolultabb.

Nem világos, hogy a morfológiai elemzés - lehetővé téve a szó sok formáját nyelvtani szerepétől függően - jelentős előnyt jelent -e az angol számára, jóllehet az előnyei az olyan szintetikus nyelvekhez , mint a német, a magyar vagy a török, egyértelműek.

Ezen összetevők kiegészítéseként a program felhasználói felülete lehetővé teszi a felhasználók számára, hogy jóváhagyják vagy elutasítsák a cseréket, és módosítsák a program működését.

A helyesírás -ellenőrzők hozzávetőleges karakterlánc -egyező algoritmusokat, például Levenshtein -távolságot használhatnak a hibásan írt szavak helyes helyesírásának megkereséséhez. Egy alternatív helyesírás-ellenőrző típus kizárólag statisztikai információkat, például n- grammokat használ a hibák felismerésére a helyesen írt szavak helyett. Ez a megközelítés általában sok erőfeszítést igényel ahhoz, hogy elegendő statisztikai információt szerezzen. A legfontosabb előnyök közé tartozik a kevesebb futásidejű tárolás és a hibák kijavítása azon szavakban, amelyek nem szerepelnek a szótárban.

Bizonyos esetekben a helyesírás -ellenőrzők rögzített listát használnak a helyesírási hibákról és javaslatokról ; ez a kevésbé rugalmas megoldás gyakran használják a papír alapú korrekciós módszerek, mint például a Lásd még bejegyzéseket a lexikon.

Fürtözési algoritmusokat is használtak a helyesírás -ellenőrzéshez fonetikus információkkal kombinálva.

Történelem

PC előtti

1961 -ben Les Earnest , aki ennek a bimbózó technológiának a kutatását vezette, szükségesnek látta az első helyesírás -ellenőrző szerepeltetését, amely 10 000 elfogadható szó listájához fér hozzá. Ralph Gorin, az Earnest akkori végzős hallgatója februárban megalkotta az első valódi helyesírás-ellenőrző programot, amelyet alkalmazásként (nem pedig kutatásként) írtak az általános angol szöveghez: SPELL for the DEC PDP-10, a Stanford Egyetem Mesterséges Intelligencia Laboratóriumában. 1971. Gorin a SPELL -et szerelő nyelven írta , a gyorsabb cselekvés érdekében; ő készítette el az első helyesírás -korrigálót azzal, hogy a szólistában keresett olyan hiteles helyes írásmódokat, amelyek egyetlen betűvel vagy a szomszédos betűátültetéssel különböznek egymástól, és bemutatja azokat a felhasználónak. Gorin nyilvánosan hozzáférhetővé tette a SPELL -t, mint a legtöbb SAIL (Stanford Artificial Intelligence Laboratory) program esetében, és hamarosan elterjedt az egész világon az új ARPAneten keresztül, körülbelül tíz évvel azelőtt, hogy a személyi számítógépek általános használatba kerültek. A SPELL, annak algoritmusai és adatstruktúrái inspirálták a Unix ispell programot.

Az első helyesírás -ellenőrzők széles körben elérhetők voltak a nagyszámítógépeken az 1970 -es évek végén. A Georgetown Egyetem hat nyelvészből álló csoportja kifejlesztette az első helyesírás-ellenőrző rendszert az IBM vállalat számára.

Henry Kučera 1981 -ben feltalált egyet a Digital Equipment Corp. VAX gépeihez.

PC -k

Az első külalakot a személyi számítógépek megjelentek 1980-ban, mint például a „WordCheck” Commodore rendszerek, amely megjelent 1980-as évek időben reklámok megy a nyomtatás 1981. január fejlesztők, mint a Maria Mariani és Random House rohant OEM csomag vagy végén -felhasználói termékek a gyorsan bővülő szoftverpiacra. A Windows előtti számítógépeken ezek a helyesírás-ellenőrzők önálló programok voltak, amelyek közül sok TSR módban is futtatható a megfelelő memóriájú számítógépek szövegszerkesztő csomagjaiból.

Az önálló csomagok piaca azonban rövid életű volt, mivel az 1980-as évek közepére a népszerű szövegszerkesztő csomagok, például a WordStar és a WordPerfect fejlesztői helyesírás-ellenőrzőket építettek be csomagjaikba, amelyek többnyire a fenti cégek licencei, és gyorsan kiterjesztették a támogatást az Angolul sok európai és végül ázsiai nyelvre . Ez azonban egyre bonyolultabbá tette a szoftver morfológiai rutinjait, különös tekintettel az erősen agglutináló nyelvekre, például a magyarra és a finnre . Bár az olyan országokban, mint például Izland , a szövegszerkesztő piac mérete nem indokolta a helyesírás-ellenőrző beruházást, a WordPerfecthez hasonló vállalatok ennek ellenére törekedtek arra, hogy globális marketingstratégiájuk részeként a lehető legtöbb nemzeti piacon lokalizálják szoftvereiket .

Amikor az Apple kifejlesztette a „rendszerszintű helyesírás-ellenőrzőt” a Mac OS X rendszerhez úgy, hogy „az operációs rendszer átvette a helyesírás-javításokat”, ez volt az első: az egyiknek „nem kellett külön-külön fenntartania minden helyesírás-ellenőrző programot”. A Mac OS X helyesírás -ellenőrzési lefedettsége gyakorlatilag minden csomagban lévő és harmadik féltől származó alkalmazást tartalmaz.

A Visual Tools 1994 -ben bemutatott VT Spellerét "a Windows rendszert támogató alkalmazások fejlesztőinek tervezték". Szótárral érkezett, de képes volt másodlagos szótárak létrehozására és használatára.

Böngészők

A Firefox 2.0, egy webböngésző , támogatja a helyesírás-ellenőrzést a felhasználók által írt tartalmakhoz, például a Wikitext szerkesztésekor, számos webmail-en , blogon és közösségi oldalon. A Google Chrome , a Konqueror és az Opera webböngésző , a Kmail e -mail kliens és a Pidgin azonnali üzenetküldő kliens is kínál helyesírás -ellenőrzési támogatást, átláthatóan a korábban GNU Aspell és jelenleg a Hunspell motorjaként.

Különlegességek

Néhány helyesírás -ellenőrző külön támogatja az orvosi szótárakat az orvosi hibák megelőzése érdekében.

Funkcionalitás

Az első helyesírás -ellenőrzők a "javítók" helyett "ellenőrzők" voltak. Nem javasoltak helytelenül írt szavakat. Ez hasznos volt a helyesírási hibáknál, de nem annyira a logikai vagy fonetikai hibáknál. A fejlesztők előtt álló kihívás az volt, hogy nehéz volt hasznos javaslatokat adni a hibásan írt szavakra. Ehhez szükség van a szavak csontvázra való redukálására és a mintaegyeztető algoritmusok alkalmazására.

Logikusnak tűnhet, hogy a helyesírás-ellenőrző szótárak esetében "minél nagyobb, annál jobb", hogy a helyes szavakat ne jelöljék helytelennek. A gyakorlatban azonban úgy tűnik, hogy az angol nyelv optimális mérete körülbelül 90 000 bejegyzés. Ha ennél több van, a helytelenül írt szavak kihagyhatók, mert összetévesztik másokkal. Például egy nyelvész a korpusznyelvészet alapján megállapíthatja, hogy a baht szó gyakrabban a fürdő vagy denevér helyesírási hibája, mint a thai pénznemre való utalás. Ennélfogva jellemzően hasznosabb lenne, ha néhány ember, aki thai valutáról ír, némi kellemetlenséget okozna, mint ha figyelmen kívül hagynák azoknak a helyesírási hibáit, akik a fürdőkről beszélnek.

Az Enbi , az AbiWord helyesírás -ellenőrző képernyőképe .

Az első MS-DOS helyesírás-ellenőrzőket leginkább szövegszerkesztő csomagokból származó korrekciós módban használták. A dokumentum előkészítése után a felhasználó beolvasta a szöveget, és hibás elírásokat keresett. Később azonban a kötegelt feldolgozást olyan csomagokban kínálták, mint az Oracle rövid életű CoAuthorja, és lehetővé tette a felhasználó számára, hogy a dokumentum feldolgozása után megtekinthesse az eredményeket, és csak azokat a szavakat javítsa ki, amelyekről ismert, hogy hibásak. Amikor a memória és a feldolgozási teljesítmény bőséges lett, a helyesírás -ellenőrzést interaktív módon végezték el a háttérben, például a Sector Software által gyártott Spellbound program 1987 -ben és a Microsoft Word esetében a Word 95 óta.

Az elmúlt években a helyesírás -ellenőrzők egyre kifinomultabbak lettek; néhányan most már képesek egyszerű nyelvtani hibák felismerésére . Azonban még a legjobb esetben is ritkán fogják fel a szöveg összes hibáját (például a homofon hibákat), és a neologizmusokat és az idegen szavakat helyesírási hibaként jelölik meg. Mindazonáltal a helyesírás-ellenőrző egyfajta idegen nyelvi írási segédeszköznek tekinthető, amelyre a nem anyanyelvű tanulók támaszkodhatnak a célnyelvi helyesírási hibák észlelése és kijavítása érdekében.

Helyesírás-ellenőrzés más nyelveken kívül

Az angol szokatlan abban az értelemben, hogy a hivatalos írásban használt szavak többsége egyetlen írásmóddal rendelkezik, amely megtalálható egy tipikus szótárban, néhány zsargon és módosított szavak kivételével. Sok nyelvben a szavakat gyakran új szóösszetételekké fűzik össze. A németben az összetett főnevek gyakran más létező főnevekből származnak. Néhány szkript nem választja el egyértelműen az egyik szót a másiktól, ezért szükség van szóosztó algoritmusokra. Ezek mindegyike egyedi kihívásokat jelent a nem angol nyelvű helyesírás-ellenőrzők számára.

Kontextus-érzékeny helyesírás-ellenőrzők

Kutatásokat végeztek olyan algoritmusok kifejlesztésén, amelyek képesek a helytelenül írt szavak felismerésére, még akkor is, ha maga a szó szerepel a szókincsben, a környező szavak kontextusa alapján. Ez nemcsak lehetővé teszi, hogy olyan szavakat fogjunk fel, mint a fenti vers, hanem enyhíti a szótárak kibővítésének káros hatását, és lehetővé teszi több szó felismerését. Például baht ugyanabban a bekezdésben Thai vagy Thaiföldön nem lenne felismerhető, mint egy elírás a fürdő . Az ilyen rendszer által észlelt hibák leggyakoribb példája a homofon hibák, például a vastag szavak a következő mondatban:

Az elkövetkező túl tengeren , ha a tekercs .

Az eddigi legsikeresebb algoritmus Andrew Golding és Dan Roth 1999-ben megjelent " Winnow- alapú helyesírás-javító algoritmusa", amely a közönséges, nem szóbeli helyesírási hibák mellett képes felismerni a kontextus-érzékeny helyesírási hibák mintegy 96% -át. A kontextus-érzékeny helyesírás-ellenőrző megjelenik a Microsoft Office 2007-ben , és megjelent a már megszűnt Google Wave-ben is .

A nyelvtani ellenőrök megpróbálják kijavítani a nyelvtani problémákat a helyesírási hibákon túl, beleértve a helytelen szóválasztást is.

Lásd még

Hivatkozások

Külső linkek