Számítógépes lexikológia - Computational lexicology

A számítástechnika a számítási nyelvészet egyik ága , amely a számítógépek lexikon tanulmányozására vonatkozik . Egyes tudósok (Amsler, 1980) szűkebben írják le, mint a számítógépek használatát a géppel olvasható szótárak tanulmányozására . Ez különbözik a számítási lexikográfiától , amely helyesebben a számítógépek használata a szótárak készítésében lenne, bár egyes kutatók a számítási lexikográfiát szinonimákként használják .

Történelem

A számítógépes lexikológia önálló tudományágként jelent meg a számítástechnológiában a gépi olvasású szótárak megjelenésével, kezdve a Merriam-Webster hetedik kollégiumi szótár és a Merriam-Webster új zseb szótár gépi úton olvasható szalagjának létrehozásával az 1960-as években, John készítette. Olney és munkatársai. a System Development Corporationnél . Manapság a számítási lexikológia leginkább a WordNet létrehozásával és alkalmazásával ismert . Mivel a kutatók számítástechnikai feldolgozása az idő múlásával növekedett, a számítási lexikológia alkalmazását mindenütt alkalmazták a szövegelemzésben. 1987-ben, többek között Byrd, Calzolari és Chodorow kidolgozott számítási eszközöket a szövegelemzéshez. A modellt elsősorban a poliszemikus szavak érzékeit érintő asszociációk koordinálására tervezték .

A lexikon tanulmányozása

A számítógépes lexikológia hozzájárult a nyomtatott szótárak tartalmának és korlátozásainak megértéséhez a számítógépes célokra (azaz tisztázta, hogy a lexikográfia korábbi munkája nem volt elegendő a számítási nyelvészet igényeinek). A számítási lexikológusok munkája során a nyomtatott szótár bejegyzéseinek szinte minden részét megvizsgálták, kezdve:

  1. mi alkotja a szavakat - helyesírás-javító listák elkészítéséhez;
  2. milyen változatok és inflexiók alakulnak ki a fejszóban - a morfológia empirikus megértéséhez használták;
  3. hogyan oszlik meg a fejszó szótagokba;
  4. a szavak kiejtésének módja - a beszédgeneráló rendszerekben;
  5. a beszéd azon részei, amelyeket a fejléc felvesz - a POS-címkéknél használják ;
  6. a fejléchez hozzárendelt különleges tárgy vagy használati kód - a szöveges dokumentum tárgyának azonosítására szolgál;
  7. a fejszó fogalommeghatározása és szintaxisa - a szó egyértelművé tételének segédeszközeként felhasználva;
  8. a fejszó etimológiája és annak használata a szókincs származási nyelvek szerinti jellemzésére - a szöveg szókincsének származási nyelvekre jellemzésére szolgál;
  9. a példamondatok;
  10. futtatások (a szavakból kialakított kiegészítő szavak és többszörös kifejezések); és
  11. kapcsolódó szavak, például szinonimák és antonimák .

Sok számítógépes nyelvész elvárta a nyomtatott szótárakat, mint a számítógépes nyelvészet forrását, mivel nem voltak elegendő szintaktikai és szemantikai információ a számítógépes programok számára. A számítási lexikológiával kapcsolatos munka gyorsan további két irányba tett erőfeszítéseket eredményezett.

A számítási lexikológia utódjai

Először, a számítástechnikus nyelvészek és lexikográfusok közötti együttműködési tevékenységek megértették a corpora szerepét a szótárak létrehozásában. A legtöbb számítástechnikai lexikológus nagyméretű testek építésén ment át, hogy összegyűjtse azokat az alapadatokat, amelyeket a lexikográfusok szótárak készítéséhez használtak. Az ACL / DCI (adatgyűjtési kezdeményezés) és az LDC ( Linguistic Data Consortium ) lement erre az útra. A jelölőnyelvek megjelenése olyan címkézett corpora létrehozásához vezetett, amelyet könnyebben elemezni lehetett a számítógépes nyelvi rendszerek létrehozásához. A beszédrészes és a szemantikusan címkézett corporat úgy hozták létre, hogy teszteljék és fejlesszék a POS-címkéket és a szó-szemantikus egyértelműsítési technológiát.

A második irány a Lexical Knowledge Bases (LKB) létrehozása felé irányult. A lexikális tudásbázist úgy ítélték meg, hogy mi legyen a szótár számítási nyelvi célokra, különösen számítási lexikai szemantikai célokra. Ugyanaz az információ volt, mint a nyomtatott szótárban, de teljesen kifejtették a szavak jelentését és az érzékek közötti megfelelő kapcsolatokat. Sokan elkezdték létrehozni azokat a forrásokat, amelyekhez vágyakoztak volna a szótárak, ha azokat a számítógépes elemzéshez felhasználták volna. A WordNet ilyen fejleménynek tekinthetõ, csakúgy, mint a szintaktikai és szemantikai információk leírására irányuló újabb erõfeszítések, például a Fillmore FrameNet munkája. A számítástechnológián kívül a mesterséges intelligencia ontológiai munkája evolúciós erőfeszítésnek tekinthető az AI alkalmazások lexikális tudásbázisának felépítésére.

Szabványosítás

A számítási lexikonok előállításának, karbantartásának és kiterjesztésének optimalizálása az NLP-t befolyásoló egyik kritikus szempont . A fő probléma az interoperabilitás : a különböző lexikonok gyakran nem kompatibilisek. A leggyakoribb helyzet: hogyan lehet egyesíteni két lexikont vagy lexikon-darabot? Másodlagos probléma az, hogy a lexikont általában kifejezetten egy adott NLP programhoz igazítják, és nehézségekbe ütközik abban, hogy más NLP programokban vagy alkalmazásokban használja.

Ebből a szempontból a számítási lexikonok különféle adatmodelljeit 2003 óta vizsgálja az ISO / TC37 , a projekt lexikai jelölőrendszere keretében, amely 2008-ban ISO-szabványt eredményezett.

Irodalom

Amsler, Robert A. 1980. Ph.D. Disszertáció: "A Merriam-Webster zsebszótár szerkezete". A texasi egyetem, Austin.

Külső linkek