Proximity search (szöveg) - Proximity search (text)

A szövegfeldolgozás során a közelségkeresés olyan dokumentumokat keres, amelyekben két vagy több külön -külön illeszkedő kifejezés előfordulása egy meghatározott távolságon belül van , ahol a távolság a köztes szavak vagy karakterek száma. A közelségen kívül egyes megvalósítások korlátozást is előírhatnak a szórendben, mivel a keresett szöveg sorrendjének azonosnak kell lennie a keresési lekérdezés sorrendjével. A közelség szerinti keresés túlmutat a szavak egyszerű párosításán, a közelség korlátozásának hozzáadásával, és általában a speciális keresés egyik formájának tekintik.

Például egy kereséssel megtalálható a "vörös tégla ház", és a megfelelő kifejezések, például "vörös tégla ház" vagy "vörös téglából készült ház". A közelség korlátozásával ezek a kifejezések illeszthetők egymáshoz, elkerülve az olyan dokumentumokat, amelyekben a szavak szétszóródtak, vagy eloszlanak egy oldalon, vagy egy antológia nem kapcsolódó cikkeiben.

Indoklás

A közelségkeresés alapvető nyelvi feltételezése az, hogy a dokumentumban lévő szavak közelsége a szavak közötti kapcsolatot feltételezi . Tekintettel arra, hogy a dokumentumok szerzői olyan mondatokat próbálnak megfogalmazni, amelyek egyetlen gondolatot vagy kapcsolódó gondolatok csoportját tartalmazzák a szomszédos mondatokban, vagy bekezdésekbe szerveződnek, a dokumentumszerkezeten belül rejlő, viszonylag nagy valószínűséggel fordulnak elő az együtt használt szavak. Másrészt, ha két szó egy könyv ellentétes végén található, akkor a szavak közötti kapcsolat valószínűsége viszonylag gyenge. Ha a keresési eredményeket csak olyan egyezésekre korlátozza, amelyekben a szavak a megadott maximális közelségen vagy távolságon belül vannak, akkor a keresési eredmények nagyobb relevanciájúnak minősülnek, mint azok a találatok, ahol a szavak szórványosak.

A kereskedelmi internetes keresőmotorok általában túl sok egyezést (visszahívásként) keresnek az átlagos keresési lekérdezéshez. A közelség szerinti keresés az egyik módszer az oldalak egyezésének csökkentésére és az egyező oldalak relevanciájának javítására a szóközelség segítségével a rangsoroláshoz. További előny, hogy a közelség szerinti keresés segít a spamdexelés elleni küzdelemben, mivel elkerüli azokat a weboldalakat, amelyek több ezer szóból álló szótárlistákat vagy puskás listákat tartalmaznak, amelyek egyébként magas rangúak lennének, ha a keresőmotor erősen elfogult lenne a szó gyakorisága felé .

Logikai szintaxis és operátorok

Ne feledje, hogy a közelségi keresés kijelölheti, hogy csak néhány kulcsszónak kell meghatározott távolságon belül lennie. A közelség szerinti keresés más keresési szintaxissal és/vagy vezérlőkkel is használható, hogy pontosabb keresési lekérdezéseket tegyen lehetővé. Néha a lekérdezési operátorokat, mint a NEAR, NOT NEAR, FOLLOWED BY, NOT FOLLEDY BY, SENTENCE vagy FAR, használják a megadott kulcsszavak közti keresési korlát megadására: például "tégla NEAR ház".

Használat kereskedelmi keresőmotorokban

Ami az implicit/automatikus versus explicit proximity keresést illeti, 2008 novemberétől a legtöbb internetes keresőmotor csak implicit proximity search funkciót valósít meg. Azaz automatikusan magasabbra rangsorolják azokat a keresési eredményeket, ahol a felhasználói kulcsszavak jó „általános közelségi pontszámmal” rendelkeznek az ilyen találatok között. Ha csak két kulcsszó szerepel a keresési lekérdezésben, ez nem különbözik az explicit proximity kereséstől, amely egy NEAR operátort helyez a két kulcsszó közé. Ha azonban három vagy több kulcsszó van jelen, gyakran fontos, hogy a felhasználó határozza meg, hogy ezeknek a kulcsszavaknak milyen részhalmazai várják a keresési eredmények közelségét. Ez akkor hasznos, ha a felhasználó technika állása szerinti keresést szeretne végezni (pl. Egy meglévő megközelítés megtalálása egy adott feladat elvégzéséhez, egy dokumentum megtalálása, amely olyan rendszert tár fel, amely eljárási viselkedést mutat több összetevő együttműködésével, és ezen összetevők közötti kapcsolatok).

Azok a webes keresőmotorok, amelyek lekérdezési nyelvükön támogatják a proximity keresést explicit proximity operátoron keresztül, a Walhello , Exalead , Yandex , Yahoo! , Altavista és Bing :

  • A Walhello keresőmotor használatakor a közelség a kulcsszavak közötti karakterek számával határozható meg.
  • Az Exalead keresőmotor lehetővé teszi a felhasználó számára a kívánt közelség megadását, mint a kulcsszavak közötti maximális szavak számát. A szintaxis az, (keyword1 NEAR/n keyword2)ahol n a szavak száma.
  • A Yandex a szintaxist használja keyword1 /n keyword2két, legfeljebb szavakkal elválasztott kulcsszó keresésére , és támogatja a szintaxis néhány más változatát.
  • Jehu! és az Altavista egyaránt támogat egy dokumentálatlan NEAR operátort. A szintaxis az keyword1 NEAR keyword2.
  • A Google Keresés támogatja a KÖRÜL (#) lehetőséget.
  • A Bing támogatja a NEAR -t. A szintaxis az, keyword1 near:n keyword2ahol n = a maximális elválasztó szavak száma.

Rendelt keresés a Google -n és a Yahoo -n belül ! a keresőmotorok a csillagos (*) teljes szó helyettesítő karakterek használatával lehetségesek : a Google-ban ez egy vagy több szónak felel meg , a Yahoo-ban pedig! A keresés pontosan egy szónak felel meg. (Ez könnyen ellenőrizhető, ha a következő kifejezést keresi a Google -ban és a Yahoo -ban !: "addictive * of biblioscopy".)

A NEAR operátor rendezetlen keresésének emulálása a rendezett keresések kombinációjával végezhető el. Például a "ház" és a "kutya" közeli együttes előfordulásának megadásához a következő keresési kifejezést lehet megadni: "házi kutya" VAGY "kutyaház" VAGY "ház * kutya" VAGY "kutya * ház" VAGY "ház * * kutya" VAGY "kutya * * ház".

Lásd még

Megjegyzések