Koncepció keresés - Concept search

A fogalomkeresés (vagy fogalmi keresés ) egy automatizált információ-visszakeresési módszer, amelyet elektronikusan tárolt strukturálatlan szöveg (például digitális archívumok , e-mail, tudományos irodalom stb.) Keresésére használnak olyan információkra, amelyek fogalmilag hasonlóak a keresési lekérdezés . Más szavakkal, a fogalom- keresési lekérdezésre válaszként kinyert információkban kifejezett ötletek relevánsak a lekérdezés szövegében található ötletek szempontjából .

Fejlődés

A koncepció keresési technikákat a klasszikus Boole-i kulcsszó-keresési technológiák korlátai miatt fejlesztették ki, amikor nagy, strukturálatlan digitális szöveggyűjteményekkel foglalkoztak. A kulcsszóval végzett keresések gyakran olyan eredményeket jelenítenek meg, amelyek sok nem releváns elemet tartalmaznak ( hamis pozitív eredmények ), vagy amelyek túl sok releváns elemet (hamis negatívumot) zárnak ki a szinonimia és a poliszémia hatásai miatt . A szinonimia azt jelenti, hogy az azonos nyelvű két vagy több szó egyike jelentése azonos, a poliszémia pedig azt, hogy sok egyedi szónak több jelentése van.

A polysemy fő akadályt jelent minden olyan számítógépes rendszer előtt, amely megkísérli kezelni az emberi nyelvet. Angolul a leggyakrabban használt kifejezéseknek több közös jelentése van. Például a tűz szó jelentése: égési tevékenység; a munkaviszony megszüntetése; indítani, vagy gerjeszteni (mint a tüzet). Az angol 200 legpoliszémásabb kifejezés esetében a tipikus ige tizenkétnél több közös jelentéssel vagy érzékkel rendelkezik. Az e halmazból származó tipikus főnévnek több mint nyolc közös érzéke van. A 2000 legpoliszémabb angol kifejezés esetében a tipikus ige nyolcnál több, a tipikus főnév pedig ötnél több.

A poliszémus és a szinonimia problémái mellett a kulcsszóval végzett keresések kizárhatják a véletlenül elgépelt szavakat, valamint a szavak szárának (vagy gyökerének) variációit (például sztrájk vagy sztrájk). A kulcsszó-keresések szintén érzékenyek az optikai karakterfelismerő (OCR) szkennelési folyamatok által bevezetett hibákra , amelyek véletlenszerű hibákat vezethetnek be a dokumentumok szövegébe (gyakran zajos szövegnek nevezik őket ) a beolvasási folyamat során.

A fogalomkeresés leküzdheti ezeket a kihívásokat a szóérzék-elkülönítés (WSD) és más technikák alkalmazásával, hogy segítsen a szavak tényleges jelentéseinek és mögöttes fogalmainak levezetésében, nem pedig egyszerűen a karakterláncok, például a kulcsszó-keresési technológiák összehangolásával.

Megközelít

Az információ-visszakeresés és a technológia általában két nagy kategóriába sorolható: szemantikai és statisztikai. A szemantikai kategóriába tartozó információ-visszakeresési rendszerek megkísérlik megvalósítani a természetes nyelvű szöveg bizonyos szintaktikai és szemantikai elemzését , amelyet az emberi felhasználó biztosítana (lásd még a számítási nyelvészetet ). A statisztikai kategóriába tartozó rendszerek statisztikai mérések alapján találnak eredményeket arra vonatkozóan, hogy mennyire felelnek meg pontosan a lekérdezésnek. A szemantikai kategóriába tartozó rendszerek azonban gyakran támaszkodnak statisztikai módszerekre is, hogy segítsenek nekik információt találni és visszakeresni.

A szemantikus feldolgozási képességekkel rendelkező információ-visszakereső rendszerek biztosítására tett erőfeszítések alapvetően három megközelítést alkalmaztak:

Kiegészítő szerkezetek

A szemantikai feldolgozás során számos mesterséges intelligencián (AI) és természetes nyelv feldolgozásán (NLP) alapuló technikát alkalmaztak, és többségük olyan segédstruktúrákra támaszkodott, mint az ellenőrzött szókincsek és ontológiák . Az ellenőrzött szókincsek (szótárak és tezauruszok) és az ontológiák lehetővé teszik a tágabb kifejezések, a szűkebb kifejezések és a kapcsolódó kifejezések beépítését a lekérdezésekbe. Az ellenőrzött szókincsek az egyik módja annak, hogy legyőzzük a Boole-i kulcsszó-lekérdezések néhány legsúlyosabb kényszerét. Az évek során további általános érdekű kiegészítő struktúrák épültek , például a WordNet nagy szinonimakészletei . Megmutatták, hogy a segédstruktúrákon, például a WordNeten alapuló fogalomkeresés hatékonyan megvalósítható a klasszikus információ-visszakeresési modellek és adatstruktúrák újrafelhasználásával. A későbbi megközelítések a nyelvtanokat valósították meg a szemantikus konstrukciók körének bővítése érdekében. Az elmúlt években szintén megvalósult olyan adatmodellek létrehozása, amelyek egy adott tartományon belüli fogalomkészleteket képviselnek ( domain ontológiák ), és amelyek beépíthetik a kifejezések közötti kapcsolatokat.

A kézművesen vezérelt szókincsek hozzájárulnak az információ-visszakeresés és a kapcsolódó szövegelemzési műveletek hatékonyságához és átfogóságához, de akkor működnek a legjobban, ha a témák szűken vannak meghatározva, és a terminológia egységes. Az ellenőrzött szókincsek széles körű emberi hozzájárulást és felügyeletet igényelnek, hogy lépést tarthassanak a nyelv gyors fejlődésével. Nem alkalmasak a korlátlan számú témát felölelő, strukturálatlan szöveg növekvő mennyiségére, és több ezer egyedi kifejezést tartalmaznak, mert új kifejezéseket és témákat kell folyamatosan bevezetni. Az ellenőrzött szókincsek szintén hajlamosak megragadni egy adott világképet egy adott időpontban, ami megnehezíti azok módosítását, ha egy bizonyos tématerület fogalmai változnak.

Helyi együttes előfordulási statisztikák

Az ezt a megközelítést magában foglaló információ-visszakereső rendszerek megszámolják, hogy a kifejezéscsoportok együttesen (együtt fordulnak-e elő) egy dokumentumban a kifejezések vagy mondatok (például ± 5 mondat vagy ± 50 szó) csúszó ablakán belül. Azon az elképzelésen alapul, hogy a hasonló összefüggésekben együtt előforduló szavak jelentése hasonló. Helyi abban az értelemben, hogy a kifejezések együttes előfordulásának meghatározásához használt kifejezések és mondatok csúszó ablaka viszonylag kicsi.

Ez a megközelítés egyszerű, de a szöveggyűjteményben szereplő szemantikai információknak csak egy kis részét ragadja meg. A legalapvetőbb szinten számos kísérlet kimutatta, hogy a szövegben található információknak körülbelül csak ¼ része helyi jellegű. Ezenkívül a leghatékonyabb működés érdekében ez a módszer előzetes ismereteket igényel a szöveg tartalmáról, ami nehéz lehet nagy, strukturálatlan dokumentumgyűjtemények esetén.

Átalakítási technikák

A szemantikai feldolgozás egyik leghatékonyabb megközelítése matematikai transzformációs technikákon alapul. A mátrixbontási technikák a legsikeresebbek. Néhány széles körben alkalmazott mátrixbontási technika a következőket tartalmazza:

A mátrixbontási technikák adatközpontúak, így elkerülhető a segédstruktúrákhoz kapcsolódó számos hátrány. Globális természetűek is, ami azt jelenti, hogy sokkal erőteljesebb információ kinyerésre és szemantikai információk ábrázolására képesek, mint a helyi együttes előfordulási statisztikákon alapuló technikák.

A független komponenselemzés olyan technika, amely ritka reprezentációkat hoz létre automatizált módon, és a félig diszkrét és nem negatív mátrix megközelíti az ábrázolás pontosságát a számítási komplexitás csökkentése érdekében.

Az egyedi értékbontást (SVD) először a szövegre a Bell Labs-nál alkalmazták az 1980-as évek végén. A látens szemantikus indexelés (LSI) nevű technika alapjaként használták, mivel képes megtalálni a szöveggyűjteményben látens latens szemantikai jelentést. Eleinte az SVD-t lassan fogadták el a nagy adatkészletekkel való munkához szükséges erőforrásigény miatt. Az LSI használata azonban az utóbbi években jelentősen kibővült, mivel a skálázhatóság és a teljesítmény korábbi kihívásainak leküzdése megtörtént. és még nyílt forrásból is. Az LSI-t különféle információ-visszakeresési és szövegfeldolgozó alkalmazásokban használják, bár elsődleges alkalmazása koncepciókeresésre és automatizált dokumentum-kategorizálásra irányult.

Használ

  • eDiscovery - A koncepciókon alapuló keresési technológiákat egyre inkább használják az elektronikus dokumentumfelfedezéshez (EDD vagy eDiscovery), hogy segítsék a vállalkozásokat a peres felkészülésben. Az eDiscovery-ben a strukturálatlan szöveg nagy gyűjteményeinek fogalmi alapon történő csoportosítása, kategorizálása és keresése sokkal hatékonyabb, mint a hagyományos lineáris áttekintési technikák. A koncepció alapú keresés megbízható és hatékony keresési módszerként válik elfogadottá, amely nagyobb valószínűséggel hoz releváns eredményeket, mint a kulcsszó vagy logikai keresés.
  • Vállalati keresés és vállalati tartalomkezelés (ECM) - A koncepciós keresési technológiákat széles körben használják a vállalati keresésben. Amint a vállalkozáson belül az információk mennyisége növekszik, elengedhetetlenné vált a strukturálatlan szöveg nagy gyűjteményeinek csoportosítása, kategorizálása és fogalmi alapon történő keresése. 2004-ben a Gartner-csoport becslése szerint a szakemberek idejük 30 százalékát információk keresésére, visszakeresésére és kezelésére fordítják. Az IDC kutatócég megállapította, hogy egy 2000 alkalmazottból álló vállalat évente akár 30 millió dollárt is megtakaríthat azáltal, hogy csökkenti az információk keresésére fordított időt és a meglévő dokumentumok sokszorosítását.
  • Tartalom-alapú képkeresés (CBIR) - Tartalom-alapú megközelítéseket alkalmaznak digitalizált képek és videók szemantikai visszakereséséhez nagy vizuális korpuszokból. A szemantikai probléma kezelésére az egyik legkorábbi tartalomalapú képkeresési rendszer az ImageScape kereső volt. Ebben a rendszerben a felhasználó több vizuális objektumra, például égre, fára, vízre, stb. Tehet közvetlen lekérdezést egy olyan térbeli ikonok felhasználásával, amelyek több mint tízmillió képet és videót tartalmaznak kulcsképek használatával. A rendszer az információelmélet segítségével határozta meg a legjobb tulajdonságokat a besorolás bizonytalanságának minimalizálására. A szemantikai szakadékot gyakran emlegetik a CBIR vonatkozásában. A szemantikai rés a vizuális adatokból kinyerhető információk és az értelmezés között rejlik, amelyet ugyanazok az adatok jelentenek a felhasználó számára egy adott helyzetben. Az ACM SIGMM Multimédia információ-visszakeresés műhelye a CBIRtanulmányainak szól.
  • Multimédia és kiadványok - A koncepció keresést a multimédia és a kiadói ipar használja, hogy hozzáférést biztosítson a felhasználók számára a különféle strukturálatlan forrásokból származó hírekhez, műszaki információkhoz és tárgyi ismeretekhez. A multimédia információ-visszakeresés (MIR) tartalom-alapú módszerei különösen fontossá váltak, ha a szöveges kommentárok hiányoznak vagy hiányosak.
  • Digitális könyvtárak és archívumok - A digitális könyvtárakban és a digitális archívumokban található képeket, videókat, zenéket és szöveges elemeket a fogalom keresési technikák segítségével a felhasználók nagy csoportjai számára hozzáférhetővé teszik (különösen az interneten). Például az Executive Daily Brief (EDB), az EBSCO Publishing által kifejlesztett üzleti információ-figyelő és riasztó termék koncepciókeresési technológiát használ a vállalati végfelhasználók számára az üzleti tartalmak széles skáláját tartalmazó digitális könyvtárhoz való hozzáférés biztosításához. A Music Genome Project hasonló módon hozta létre a Pandorát, amely koncepciókeresést alkalmaz, hogy spontán módon hozzon létre egyedi zenei könyvtárakat vagy virtuális rádióállomásokat.
  • Genomic Information Retrieval (GIR) - A Genomic Information Retrieval (GIR) a genomikai irodalom adatbázisaiban alkalmazott fogalomkeresési technikákat használja fel a tudományos irodalom kétértelműségének leküzdésére.
  • Emberi erőforrásokkal foglalkozó személyzet és toborzás - Számos emberi erőforrást alkalmazó és toborzó szervezet fogalom-keresési technológiákat alkalmazott a nagyon releváns önéletrajzi keresési eredmények előállításához, amelyek pontosabb és relevánsabb pályázói önéletrajzokat nyújtanak, mint lazán kapcsolódó kulcsszóeredmények.

Hatékony keresés

A fogalomkeresés hatékonysága számos elemtől függhet, beleértve a keresett adatkészletet és a lekérdezések feldolgozásához és az eredmények megjelenítéséhez használt keresőmotort. A legtöbb koncepciós keresőmotor azonban a legmegfelelőbb bizonyos típusú lekérdezésekhez:

  • A hatékony lekérdezések elegendő szövegből állnak, hogy megfelelően továbbítsák a tervezett fogalmakat. A hatékony lekérdezések tartalmazhatnak teljes mondatokat, bekezdéseket vagy akár teljes dokumentumokat. A csupán néhány szóból álló lekérdezések valószínűleg nem a legrelevánsabb eredményeket adják.
  • A hatékony lekérdezések nem tartalmaznak olyan lekérdezésben szereplő fogalmakat, amelyek nem a keresés tárgyát képezik. Túl sok, egymással nem összefüggő fogalom felvétele egy lekérdezésbe negatívan befolyásolhatja az eredményelemek relevanciáját. Például a Mississippi folyón történő csónakázással kapcsolatos információk keresése nagyobb valószínűséggel hoz releváns eredményeket, mint 1967 nyár közepén esős napon a Mississippi folyón történő csónakázás.
  • A hatékony lekérdezéseket teljes szövegű, természetes nyelvi stílusban fejezik ki, hasonló stílusban, mint a keresett dokumentumok. Például a bevezető természettudományi tankönyv kivonataiból álló lekérdezések használata nem lenne olyan hatékony a fogalomkeresés szempontjából, ha a keresett adatkészlet haladó, főiskolai szintű tudományos szövegekből áll. Azok a lényeges lekérdezések, amelyek jobban tükrözik a lekérdezés tárgyát képező elemek általános fogalmait, stílusait és nyelvét, általában hatékonyabbak.

Mint minden keresési stratégiák, tapasztalt keresők általában keresési lekérdezéseket keresztül több keresés, kezdőnyomással vetőmag lekérdezés megszerezni fogalmilag releváns eredményeket fel lehet használni, hogy össze és / vagy finomíthatja további lekérdezéseket egyre több releváns találatokat. A keresőmotortól függően az eredménydokumentumokban található lekérdezési fogalmak használata ugyanolyan egyszerű lehet, mint egy dokumentum kiválasztása és egy hasonló keresési funkció végrehajtása. A lekérdezés terminusok és fogalmak hozzáadásával történő megváltoztatását az eredmény relevanciájának javítása érdekében lekérdezés-bővítésnek nevezzük . Az ontológiák, például a WordNet használatát tanulmányozták a lekérdezések fogalmilag kapcsolódó szavakkal történő kibővítésére.

Relevancia visszajelzés

A relevancia visszajelzés egy olyan szolgáltatás, amely segít a felhasználóknak megállapítani, hogy a lekérdezéseikre adott eredmények megfelelnek-e információs igényeiknek. Más szavakkal, a relevanciát egy információigényhez viszonyítják, nem pedig egy lekérdezéshez. A dokumentum akkor releváns, ha a megadott információigénnyel foglalkozik, nem azért, mert véletlenül csak a lekérdezés összes szavát tartalmazza. Ez egy olyan módszer, amely bevonja a felhasználókat a visszakeresési folyamatba a végeredmény javítása érdekében. A felhasználók finomíthatják lekérdezéseiket a kezdeti eredmények alapján, hogy javítsák a végső eredmények minőségét.

Általánosságban a fogalomkeresés relevanciája a lekérdezésben kifejezett fogalmak és a lekérdezésre visszaküldött eredményekben szereplő fogalmak közötti hasonlóság mértékére utal. Minél hasonlóbbak az eredmények fogalmai a lekérdezésben szereplő fogalmakhoz, annál relevánsabbnak tekintik az eredményeket. Az eredményeket általában relevancia szerint rangsorolják és rendezik, így a legrelevánsabb eredmények az eredménylista tetején, a legkevésbé releváns eredmények pedig a lista végén találhatók.

A relevancia visszajelzés bebizonyosodott, hogy nagyon hatékonyan javítja az eredmények relevanciáját. A fogalomkeresés csökkenti a fontos eredményelemek hiányának kockázatát, mert a lekérdezés fogalmaival kapcsolatos összes elem visszaküldik, függetlenül attól, hogy a lekérdezésben használt szavakat tartalmazzák-e.

A rangsor továbbra is része lesz minden modern információ-visszakeresési rendszernek. A szövegben tükröződő heterogén adatok, méretarány és nem hagyományos diskurzustípusok problémái, valamint az a tény, hogy a keresőmotorok egyre inkább a komplex információkezelési folyamatok integrált elemei lesznek, nem csak önálló rendszerek, újfajta lekérdezésre adott rendszerválaszok száma. Például a rangsorolt ​​listák egyik problémája az, hogy azok nem fedhetik fel az eredményelemek között fennálló összefüggéseket.

Iránymutatások a koncepció keresőmotor értékeléséhez

  1. Az eredményelemeknek relevánsaknak kell lenniük a lekérdezési utasításokban szereplő fogalmak által kifejezett információigény szempontjából, még akkor is, ha az eredményelemek által használt terminológia eltér a lekérdezésben használt terminológiától.
  2. Az eredménytételeket relevancia szerint kell rendezni és rangsorolni.
  3. A releváns eredményelemeket gyorsan meg kell találni és meg kell jeleníteni. Még a bonyolult lekérdezéseknek is elég gyorsan vissza kell adniuk a releváns eredményeket.
  4. A lekérdezés hosszának nem rögzítettnek kell lennie , azaz a lekérdezés lehet annyi, amennyi szükségesnek tekinthető. Mondatot, bekezdést vagy akár egy teljes dokumentumot lekérdezésként lehet benyújtani.
  5. A koncepciókérdezéshez nem szükséges speciális vagy összetett szintaxis. A lekérdezésben szereplő fogalmak egyértelműen és jól láthatóan kifejezhetők speciális szabályok használata nélkül.
  6. Engedélyezni kell a fogalmakat, kulcsszavakat és metaadatokat tartalmazó kombinált lekérdezéseket.
  7. Az eredményelemek releváns részeinek lekérdezési szövegként használhatóknak kell lenniük, egyszerűen az elem kiválasztásával és a keresőmotor utasításával, hogy keressen hasonló elemeket.
  8. A lekérdezésre kész indexeket viszonylag gyorsan kell létrehozni.
  9. A keresőnek képesnek kell lennie egyesített keresések végrehajtására . Az egyesített keresés lehetővé teszi a koncepciókérdések használatát több adatforrás egyidejű keresésére információkért, amelyeket aztán egyesítenek, rendeznek és megjelenítenek az eredményekben.
  10. A fogalomkeresést nem befolyásolhatják a hibásan írt szavak, tipográfiai hibák vagy OCR-beolvasási hibák sem a lekérdezés szövegében, sem a keresett adatkészlet szövegében .

Konferenciák és fórumok

A formalizált keresőmotorok értékelése évek óta folyik. Például a szöveg-visszakeresési konferenciát (TREC) 1992-ben kezdték meg, hogy támogassa az információ-visszakereső közösségen belüli kutatást azáltal, hogy biztosítja a szöveg-visszakeresési módszerek nagyszabású értékeléséhez szükséges infrastruktúrát. A legtöbb mai kereskedelmi keresőmotor magában foglalja a technológiát, amelyet először a TREC-ben fejlesztettek ki.

1997-ben indult a TREC japán megfelelője, National Institute of Informatics Test Collection for IR Systems (NTCIR) néven. Az NTCIR értékelési műhelysorozatot folytat az információkeresés, a kérdések megválaszolása, az automatikus összesítés stb. Kutatása céljából. A többnyelvű információkhoz való hozzáférés kutatásának támogatása érdekében 2001-ben elindították a Cross Language Evaluation Forum (CLEF) elnevezésű európai műhelysorozatot. 2002-ben létrehozták az XML visszakeresés értékelésének kezdeményezését (INEX) a tartalomorientált XML visszakeresési rendszerek értékelésére.

A pontosság és a visszahívás két hagyományos teljesítménymérő volt az információ-visszakereső rendszerek értékelésénél. A pontosság a visszakeresett eredménydokumentumok azon töredéke, amely releváns a felhasználó információigénye szempontjából. A visszahívás a teljes gyűjtemény releváns dokumentumainak töredéke, amely eredménydokumentumként kerül visszaadásra.

Bár a keresőmotorok teszteléséhez és értékeléséhez használt műhelyek és nyilvánosan elérhető tesztgyűjtemények jelentős betekintést nyújtottak az információk kezelésének és visszakeresésének módjába, a terület csak megkarcolta azokat a kihívásokat, amelyekkel az emberek és szervezetek az információk felkutatása, kezelése és felhasználása során szembesülnek. most, hogy ennyi információ áll rendelkezésre. A tudományos adatok arról, hogy az emberek miként használják a számukra elérhető információs eszközöket, még mindig hiányosak, mivel a kísérleti kutatási módszertanok nem tudtak lépést tartani a változások gyors ütemével. Számos kihívással - például a kontextus szerinti kereséssel, a személyes információk kezelésével, az információk integrálásával és a feladatok támogatásával - még mindig foglalkozni kell.

Lásd még

Hivatkozások

Külső linkek