Helyesírás-ellenőrző - Spell checker

A szoftverekben a helyesírás -ellenőrző (vagy helyesírás -ellenőrző vagy helyesírás -ellenőrzés ) olyan szoftverfunkció, amely ellenőrzi a szövegben lévő helyesírási hibákat . A helyesírás-ellenőrző funkciókat gyakran beépítik szoftverekbe vagy szolgáltatásokba, például szövegszerkesztőbe , e-mail kliensbe , elektronikus szótárba vagy keresőmotorba .

Szemnek van helyesírás -ellenőrzője,
Borsó tengerrel jött.
Ez sík lee jelzi négy a revue
Miss Steaks tudok csomót tengeren.

Szem sztrájk a rakparton, és gépeljen egy pörgős
És súly négy ez kettő mondjuk
Időjárás szem írok evező rosszul
Azt mondja egyenesen a mérleget.

Szem futott ez a vers megdobta,
A partod igazán örült két nem.
Különböző csiszolt a súlya.
Az ellenőrzőm bírta varrni.

A dáma áldás,
fagyasztja a kakukkfű tiszafaféléjét.
Segít a helyesbítés minden helyzetében,
és segít a szemem lázában.

Minden törés megjelenik a képernyőmön
.
Az ellenőr ellenőrzi a szavakat.
Két ellenőrző összeg helyesírási szabály.

Ennek a versnek az eredeti változatát Jerrold H. Zar írta 1992 -ben. Egy kifinomult helyesírás -ellenőrző kevés vagy semmilyen hibát nem talál ebben a versben, mert elszigetelten ellenőrzi a szavakat. Egy kifinomultabb helyesírás -ellenőrző egy nyelvi modellt használ a szó előfordulásának kontextusának figyelembevételéhez.

A Google Chrome helyesírás -ellenőrzője a fenti versben, a "checker" szó felismerhetetlen szóként megjelölve

Tervezés

Egy alapvető helyesírás -ellenőrző a következő folyamatokat hajtja végre:

Szkenneli a szöveget, és kivonja a benne található szavakat.
Ezután minden szót összehasonlít a helyesen írt szavak ismert listájával (azaz egy szótárral). Ez csak szavak listáját tartalmazhatja, vagy további információkat is tartalmazhat, például elválasztási pontokat vagy lexikai és nyelvtani attribútumokat.
Egy további lépés egy nyelvfüggő algoritmus a morfológia kezelésére . Még egy enyhén ragozott nyelv, például az angol esetében is a helyesírás -ellenőrzőnek figyelembe kell vennie ugyanazon szó különböző formáit, például a többes számokat, a verbális formákat, az összehúzódásokat és a birtokosokat . Sok más nyelv esetében, például az agglutinációval, valamint a bonyolultabb deklinációval és konjugációval rendelkező nyelvek esetében ez a folyamat bonyolultabb.

Nem világos, hogy a morfológiai elemzés - lehetővé téve a szó sok formáját nyelvtani szerepétől függően - jelentős előnyt jelent -e az angol számára, jóllehet az előnyei az olyan szintetikus nyelvekhez , mint a német, a magyar vagy a török, egyértelműek.

Ezen összetevők kiegészítéseként a program felhasználói felülete lehetővé teszi a felhasználók számára, hogy jóváhagyják vagy elutasítsák a cseréket, és módosítsák a program működését.

A helyesírás -ellenőrzők hozzávetőleges karakterlánc -egyező algoritmusokat, például Levenshtein -távolságot használhatnak a hibásan írt szavak helyes helyesírásának megkereséséhez. Egy alternatív helyesírás-ellenőrző típus kizárólag statisztikai információkat, például n- grammokat használ a hibák felismerésére a helyesen írt szavak helyett. Ez a megközelítés általában sok erőfeszítést igényel ahhoz, hogy elegendő statisztikai információt szerezzen. A legfontosabb előnyök közé tartozik a kevesebb futásidejű tárolás és a hibák kijavítása azon szavakban, amelyek nem szerepelnek a szótárban.

Bizonyos esetekben a helyesírás -ellenőrzők rögzített listát használnak a helyesírási hibákról és javaslatokról ; ez a kevésbé rugalmas megoldás gyakran használják a papír alapú korrekciós módszerek, mint például a Lásd még bejegyzéseket a lexikon.

Fürtözési algoritmusokat is használtak a helyesírás -ellenőrzéshez fonetikus információkkal kombinálva.

Történelem

PC előtti

1961 -ben Les Earnest , aki ennek a bimbózó technológiának a kutatását vezette, szükségesnek látta az első helyesírás -ellenőrző szerepeltetését, amely 10 000 elfogadható szó listájához fér hozzá. Ralph Gorin, az Earnest akkori végzős hallgatója februárban megalkotta az első valódi helyesírás-ellenőrző programot, amelyet alkalmazásként (nem pedig kutatásként) írtak az általános angol szöveghez: SPELL for the DEC PDP-10, a Stanford Egyetem Mesterséges Intelligencia Laboratóriumában. 1971. Gorin a SPELL -et szerelő nyelven írta , a gyorsabb cselekvés érdekében; ő készítette el az első helyesírás -korrigálót azzal, hogy a szólistában keresett olyan hiteles helyes írásmódokat, amelyek egyetlen betűvel vagy a szomszédos betűátültetéssel különböznek egymástól, és bemutatja azokat a felhasználónak. Gorin nyilvánosan hozzáférhetővé tette a SPELL -t, mint a legtöbb SAIL (Stanford Artificial Intelligence Laboratory) program esetében, és hamarosan elterjedt az egész világon az új ARPAneten keresztül, körülbelül tíz évvel azelőtt, hogy a személyi számítógépek általános használatba kerültek. A SPELL, annak algoritmusai és adatstruktúrái inspirálták a Unix ispell programot.

Az első helyesírás -ellenőrzők széles körben elérhetők voltak a nagyszámítógépeken az 1970 -es évek végén. A Georgetown Egyetem hat nyelvészből álló csoportja kifejlesztette az első helyesírás-ellenőrző rendszert az IBM vállalat számára.

Henry Kučera 1981 -ben feltalált egyet a Digital Equipment Corp. VAX gépeihez.

PC -k

Az első külalakot a személyi számítógépek megjelentek 1980-ban, mint például a „WordCheck” Commodore rendszerek, amely megjelent 1980-as évek időben reklámok megy a nyomtatás 1981. január fejlesztők, mint a Maria Mariani és Random House rohant OEM csomag vagy végén -felhasználói termékek a gyorsan bővülő szoftverpiacra. A Windows előtti számítógépeken ezek a helyesírás-ellenőrzők önálló programok voltak, amelyek közül sok TSR módban is futtatható a megfelelő memóriájú számítógépek szövegszerkesztő csomagjaiból.

Az önálló csomagok piaca azonban rövid életű volt, mivel az 1980-as évek közepére a népszerű szövegszerkesztő csomagok, például a WordStar és a WordPerfect fejlesztői helyesírás-ellenőrzőket építettek be csomagjaikba, amelyek többnyire a fenti cégek licencei, és gyorsan kiterjesztették a támogatást az Angolul sok európai és végül ázsiai nyelvre . Ez azonban egyre bonyolultabbá tette a szoftver morfológiai rutinjait, különös tekintettel az erősen agglutináló nyelvekre, például a magyarra és a finnre . Bár az olyan országokban, mint például Izland , a szövegszerkesztő piac mérete nem indokolta a helyesírás-ellenőrző beruházást, a WordPerfecthez hasonló vállalatok ennek ellenére törekedtek arra, hogy globális marketingstratégiájuk részeként a lehető legtöbb nemzeti piacon lokalizálják szoftvereiket .

Amikor az Apple kifejlesztette a „rendszerszintű helyesírás-ellenőrzőt” a Mac OS X rendszerhez úgy, hogy „az operációs rendszer átvette a helyesírás-javításokat”, ez volt az első: az egyiknek „nem kellett külön-külön fenntartania minden helyesírás-ellenőrző programot”. A Mac OS X helyesírás -ellenőrzési lefedettsége gyakorlatilag minden csomagban lévő és harmadik féltől származó alkalmazást tartalmaz.

A Visual Tools 1994 -ben bemutatott VT Spellerét "a Windows rendszert támogató alkalmazások fejlesztőinek tervezték". Szótárral érkezett, de képes volt másodlagos szótárak létrehozására és használatára.

Böngészők

A Firefox 2.0, egy webböngésző , támogatja a helyesírás-ellenőrzést a felhasználók által írt tartalmakhoz, például a Wikitext szerkesztésekor, számos webmail-en , blogon és közösségi oldalon. A Google Chrome , a Konqueror és az Opera webböngésző , a Kmail e -mail kliens és a Pidgin azonnali üzenetküldő kliens is kínál helyesírás -ellenőrzési támogatást, átláthatóan a korábban GNU Aspell és jelenleg a Hunspell motorjaként.

Különlegességek

Néhány helyesírás -ellenőrző külön támogatja az orvosi szótárakat az orvosi hibák megelőzése érdekében.

Funkcionalitás

Az első helyesírás -ellenőrzők a "javítók" helyett "ellenőrzők" voltak. Nem javasoltak helytelenül írt szavakat. Ez hasznos volt a helyesírási hibáknál, de nem annyira a logikai vagy fonetikai hibáknál. A fejlesztők előtt álló kihívás az volt, hogy nehéz volt hasznos javaslatokat adni a hibásan írt szavakra. Ehhez szükség van a szavak csontvázra való redukálására és a mintaegyeztető algoritmusok alkalmazására.

Logikusnak tűnhet, hogy a helyesírás-ellenőrző szótárak esetében "minél nagyobb, annál jobb", hogy a helyes szavakat ne jelöljék helytelennek. A gyakorlatban azonban úgy tűnik, hogy az angol nyelv optimális mérete körülbelül 90 000 bejegyzés. Ha ennél több van, a helytelenül írt szavak kihagyhatók, mert összetévesztik másokkal. Például egy nyelvész a korpusznyelvészet alapján megállapíthatja, hogy a baht szó gyakrabban a fürdő vagy denevér helyesírási hibája, mint a thai pénznemre való utalás. Ennélfogva jellemzően hasznosabb lenne, ha néhány ember, aki thai valutáról ír, némi kellemetlenséget okozna, mint ha figyelmen kívül hagynák azoknak a helyesírási hibáit, akik a fürdőkről beszélnek.

Az Enbi , az AbiWord helyesírás -ellenőrző képernyőképe .

Az első MS-DOS helyesírás-ellenőrzőket leginkább szövegszerkesztő csomagokból származó korrekciós módban használták. A dokumentum előkészítése után a felhasználó beolvasta a szöveget, és hibás elírásokat keresett. Később azonban a kötegelt feldolgozást olyan csomagokban kínálták, mint az Oracle rövid életű CoAuthorja, és lehetővé tette a felhasználó számára, hogy a dokumentum feldolgozása után megtekinthesse az eredményeket, és csak azokat a szavakat javítsa ki, amelyekről ismert, hogy hibásak. Amikor a memória és a feldolgozási teljesítmény bőséges lett, a helyesírás -ellenőrzést interaktív módon végezték el a háttérben, például a Sector Software által gyártott Spellbound program 1987 -ben és a Microsoft Word esetében a Word 95 óta.

Az elmúlt években a helyesírás -ellenőrzők egyre kifinomultabbak lettek; néhányan most már képesek egyszerű nyelvtani hibák felismerésére . Azonban még a legjobb esetben is ritkán fogják fel a szöveg összes hibáját (például a homofon hibákat), és a neologizmusokat és az idegen szavakat helyesírási hibaként jelölik meg. Mindazonáltal a helyesírás-ellenőrző egyfajta idegen nyelvi írási segédeszköznek tekinthető, amelyre a nem anyanyelvű tanulók támaszkodhatnak a célnyelvi helyesírási hibák észlelése és kijavítása érdekében.

Helyesírás-ellenőrzés más nyelveken kívül

Az angol szokatlan abban az értelemben, hogy a hivatalos írásban használt szavak többsége egyetlen írásmóddal rendelkezik, amely megtalálható egy tipikus szótárban, néhány zsargon és módosított szavak kivételével. Sok nyelvben a szavakat gyakran új szóösszetételekké fűzik össze. A németben az összetett főnevek gyakran más létező főnevekből származnak. Néhány szkript nem választja el egyértelműen az egyik szót a másiktól, ezért szükség van szóosztó algoritmusokra. Ezek mindegyike egyedi kihívásokat jelent a nem angol nyelvű helyesírás-ellenőrzők számára.

Kontextus-érzékeny helyesírás-ellenőrzők

Kutatásokat végeztek olyan algoritmusok kifejlesztésén, amelyek képesek a helytelenül írt szavak felismerésére, még akkor is, ha maga a szó szerepel a szókincsben, a környező szavak kontextusa alapján. Ez nemcsak lehetővé teszi, hogy olyan szavakat fogjunk fel, mint a fenti vers, hanem enyhíti a szótárak kibővítésének káros hatását, és lehetővé teszi több szó felismerését. Például baht ugyanabban a bekezdésben Thai vagy Thaiföldön nem lenne felismerhető, mint egy elírás a fürdő . Az ilyen rendszer által észlelt hibák leggyakoribb példája a homofon hibák, például a vastag szavak a következő mondatban:

Az elkövetkező túl tengeren , ha a tekercs .

Az eddigi legsikeresebb algoritmus Andrew Golding és Dan Roth 1999-ben megjelent " Winnow- alapú helyesírás-javító algoritmusa", amely a közönséges, nem szóbeli helyesírási hibák mellett képes felismerni a kontextus-érzékeny helyesírási hibák mintegy 96% -át. A kontextus-érzékeny helyesírás-ellenőrző megjelenik a Microsoft Office 2007-ben , és megjelent a már megszűnt Google Wave-ben is .

A nyelvtani ellenőrök megpróbálják kijavítani a nyelvtani problémákat a helyesírási hibákon túl, beleértve a helytelen szóválasztást is.

Lásd még

Hivatkozások

Külső linkek

Listája külalakot meg Curlie
Norvig.com , "Hogyan írjunk helyesírás -javítót ", Peter Norvig
BBK.ac.uk , "Helyesírás -ellenőrzés számítógépen", Roger Mitton
CBSNews.com , Lloyd de Vries helyesírás-ellenőrző mankófájdalmak korrektsége
Mark Eckman és Jerrold H. Zar "Kandidátus egy meglepetés jelöltje" története és szövege

Languages

In other projects