Keresőmotor technológia - Search engine technology

A kereső egy információ -visszakereső szoftver, amely a felhasználói lekérdezésekre válaszul felfedezi, feltérképezi, átalakítja és tárolja az információkat visszakeresésre és bemutatásra .

A keresőmotor általában négy összetevőből áll, amelyek a keresési felület, a robot (más néven pók vagy bot), az indexelő és az adatbázis. A robot bejár egy dokumentumgyűjteményt, dekonstruálja a dokumentum szövegét, és helyettesítőket rendel tároláshoz a keresőmotor indexében. Az online keresőmotorok a dokumentumhoz képeket, linkadatokat és metaadatokat is tárolnak.

A keresési technológia története

A Memex

A hipertext és a memóriabővítés fogalma egy cikkből származik, amelyet az Atlantic Monthly 1945 júliusában publikált Vannevar Bush , As We May Think címmel . Ebben a cikkben Vannevar arra buzdította a tudósokat, hogy dolgozzanak együtt, hogy segítsenek az egész emberiség számára tudásanyag létrehozásában. Ezt követően javaslatot tett egy gyakorlatilag korlátlan, gyors, megbízható, bővíthető, asszociatív memória tároló és visszakereső rendszer ötletére. Ezt az eszközt memexnek nevezte el .

Bush az „asszociatív indexelés” fogalmát tekintette a legfontosabb fogalmi hozzájárulásnak. Mint kifejtette, ez „olyan rendelkezés, amelynek értelmében bármely elem tetszés szerint kényszeríthető arra, hogy azonnal és automatikusan válasszon egy másikat. Ez a memex alapvető jellemzője. A két elem összekapcsolásának folyamata a legfontosabb. ” Ez az „összekapcsolás” (ahogy most mondjuk) „nyomvonalat” jelentett a dokumentumoknak, amelyeket meg lehetett nevezni, kódolni és újra megtalálni. Sőt, miután az eredeti két elemet összekapcsolták, „számos elemet” „össze lehetett kötni, hogy nyomvonalat alkossanak”; „gyors vagy lassú sorrendben áttekinthetők, ha egy könyvet lapoznak, mint egy könyvet. Pontosan olyan, mintha a fizikai tárgyakat széles körben elkülönített forrásokból gyűjtötték össze és kötötték össze, hogy új könyvet alkossanak. ”

A memexben használt összes dokumentum mikrofilm másolat formájában kerülne beszerzésre, vagy személyes rekordok esetén a gép mikrofilmmé alakítaná át. A Memex új lekérési technikákat is alkalmazna egy újfajta asszociatív indexelésen alapulva, amelynek alapötlete egy olyan rendelkezés, amely szerint bármely elem tetszés szerint arra kényszeríthető, hogy azonnal és automatikusan válasszon ki egy másikat, hogy linkelt dokumentumokon keresztül személyes "nyomvonalakat" hozzon létre. Az új eljárások, amelyekkel Bush számított az információ tárolásának és visszakeresésének megkönnyítésére, teljesen új enciklopédiaformák kialakulásához vezetnek.

A legfontosabb mechanizmus, amelyet Bush gondolt ki, és a modern hypertext rendszerek előtt lezártnak tekint, az asszociatív nyomvonal. Ez egy módja annak, hogy új lineáris mikrofilm -képkockasorozatot hozzunk létre a mikrofilmek képkockáinak tetszőleges sorozatain keresztül, ha egy láncolt linksorozatot hozunk létre az imént leírt módon, személyes megjegyzésekkel és mellékutakkal együtt. A memex lényeges jellemzője [az], hogy két elemet össze kell kötni ... Amikor a felhasználó nyomvonalat épít, megnevezi azt a kódkönyvében, és kiüti a billentyűzetén. Előtte a két összeillesztendő elem, amelyeket a szomszédos nézőpontokra vetítenek. Mindegyik alján számos üres kódterület található, és egy mutató van beállítva, hogy mindegyik elemen egyet jelezzen. A felhasználó egyetlen kulcsra koppint, és az elemek véglegesen össze vannak kapcsolva ... Ezt követően bármikor, amikor az egyik elem látható, a másik azonnal visszahívható, ha megérinti a megfelelő kódtér alatti gombot.

Bush cikkében nincs leírva sem automatikus keresés, sem univerzális metaadat -séma, mint például a szabványos könyvtári besorolás vagy a hipertext elemkészlet. Ehelyett, amikor a felhasználó bejegyzést tett, például új vagy jegyzetekkel ellátott kéziratot vagy képet, elvárják, hogy indexelje és írja le a személyi kódkönyvében. Később, a kódkönyvében olvasva, a felhasználó nyomon követheti a megjegyzésekkel ellátott és létrehozott bejegyzéseket.

1965 -ben Bush részt vett az MIT INTREX projektjében, melynek célja a könyvtári használatra szánt információk feldolgozásának gépesítésére szolgáló technológia kifejlesztése. 1967 -es "Memex Revisited" című esszéjében rámutatott, hogy a digitális számítógép, a tranzisztor, a videó és más hasonló eszközök fejlesztése növelte az ilyen gépesítés megvalósíthatóságát, de a költségek késleltetik annak eredményeit. Megint igaza volt.

Ted Nelson, aki később úttörő munkát végzett az első praktikus hipertext rendszerrel, és a hatvanas években megalkotta a "hipertex" kifejezést, Bushnak tulajdonította fő befolyását.

OKOS

Gerard Salton, aki 1995. augusztus 28 -án halt meg, a modern keresési technológia atyja volt. A Harvardon és Cornellben dolgozó csapatai kifejlesztették a SMART információs visszakeresési rendszert. A Salton varázslatos automatikus retrieverje olyan fontos fogalmakat tartalmazott, mint a vektoros térmodell , az inverz dokumentumfrekvencia (IDF), a kifejezés gyakorisága (TF), a megkülönböztetés értékei és a relevancia visszacsatolási mechanizmusai.

A Theory of Indexing című 56 oldalas könyvet írta, amely sok olyan tesztet magyarázott, amelyeken a keresés még mindig nagyrészt alapul.

String keresőmotorok

1987-ben megjelent egy cikk, amely részletesen kifejlesztette a karakterlánc-keresőmotor (SSE) kifejlesztését a gyors szövegvisszanyeréshez egy kettős fém 1,6 μm n-lyukú CMOS szilárdtest-áramkörön, 217 600 tranzisztorral, 8,62 x 12,76 mm megmunkálási terület. Az SSE egy új karakterlánc-keresési architektúrát tartalmazott, amely ötvözi az 512 fokozatú véges állapotú automatika (FSA) logikát a tartalomcímzett memóriával (CAM), hogy megközelítőleg 80 millió karakterláncot hasonlítson össze másodpercenként. A CAM cella négy hagyományos statikus RAM (SRAM) cellából és egy olvasó/író áramkörből állt. 64 változó hosszúságú karakterlánc párhuzamos összehasonlítását 50 ns alatt értük el 10 millió karakter/s bemeneti szöveges adatfolyam esetén, ami lehetővé teszi a teljesítményt, annak ellenére, hogy karakterkód formájában egyetlen karakteres hiba van. Ezenkívül a chip lehetővé tette a nem horgonyos karakterlánc-keresést és a változó hosszúságú "nem érdekel" (VLDC) karakterlánc-keresést.

Internetes keresőmotorok

Archie

Az első webes keresőmotor az Archie volt , amelyet 1990 -ben Alan Emtage, a montreali McGill Egyetem hallgatója hozott létre. A szerző eredetileg "archívum" -nak akarta nevezni a programot, de le kellett rövidítenie, hogy megfeleljen a Unix világszabványának, amely szerint a programokat és fájlokat rövid, rejtélyes nevekhez rendeli, például grep, cat, troff, sed, awk, perl stb. .

A fájlok tárolásának és visszakeresésének elsődleges módja a File Transfer Protocol (FTP) volt. Ez egy olyan rendszer volt (és ma is az), amely a számítógépek közös módját határozta meg a fájlok internetes cseréjére. Ez így működik: Néhány rendszergazda úgy dönt, hogy hozzáférhetővé kívánja tenni a fájlokat a számítógépéről. Beállít egy programot a számítógépére, az úgynevezett FTP -kiszolgálót. Ha valaki az interneten szeretne lekérni egy fájlt erről a számítógépről, akkor egy másik FTP -ügyfélprogramon keresztül csatlakozik hozzá. Bármely FTP kliens program csatlakozhat bármely FTP szerverprogramhoz, amennyiben mind az ügyfél, mind a szerverprogram teljes mértékben megfelel az FTP protokollban meghatározott előírásoknak.

Kezdetben mindenkinek, aki megosztani akart egy fájlt, be kellett állítania egy FTP -kiszolgálót, hogy mások számára is hozzáférhető legyen. Később az "anonim" FTP -webhelyek fájlok tárolójává váltak, lehetővé téve minden felhasználó számára, hogy közzétegye és lekérje azokat.

Még az archív oldalaknál is sok fontos fájl még mindig szétszóródott a kis FTP -kiszolgálókon. Sajnos ezeket a fájlokat csak a szájról szájra terjedő internetes megfelelőjével lehetett megtalálni: Valaki e-mailt küld egy üzenetlistára vagy egy vitafórumra, amelyben bejelentik a fájl elérhetőségét.

Archie mindent megváltoztatott. Egyesítette a parancsfájlalapú adatgyűjtőt, amely névtelen FTP-fájlok webhelylistáit hozta létre, és egy reguláris kifejezés-egyeztetőt a felhasználói lekérdezésnek megfelelő fájlnevek lekérésére. (4) Más szóval, Archie gyűjtögetője átkutatta az FTP -webhelyeket az interneten, és indexelte az összes talált fájlt. A reguláris kifejezés párosítója hozzáférést biztosított a felhasználókhoz az adatbázisához.

Veronika

1993 -ban a University of Nevada System Computing Services csoport kifejlesztette a Veronica -t . Az Archie -hoz hasonló keresési eszközként jött létre, de Gopher -fájlokat keres. Egy másik Gopher-keresési szolgáltatás, Jughead néven, kicsit később jelent meg, valószínűleg kizárólag a képregényes triumvirátus kerekítése céljából. A Jughead a Jonzy Universal Gopher Hierarchy Excavation and Display rövidítése, bár Veronikához hasonlóan valószínűleg nyugodtan feltételezhető, hogy az alkotó a mozaikszóhoz csatlakozott. A Jughead funkciói nagyjából megegyeztek Veronicaéval, bár úgy tűnik, hogy egy kicsit durvább a szélek körül.

A magányos vándor

A Matthew Gray által 1993 -ban kifejlesztett World Wide Web Wanderer volt az első robot a weben, és a web növekedésének nyomon követésére készült. Kezdetben a Wanderer csak a webszervereket számolta, de röviddel a bevezetése után elkezdett URL -eket rögzíteni menet közben. A rögzített URL -ek adatbázisa a Wandex, az első webes adatbázis lett.

Matthew Gray vándora meglehetősen ellentmondásokat keltett abban az időben, részben azért, mert a szoftver korai verziói elterjedtek a neten, és észrevehető netes teljesítményromlást okoztak. Ez a leépülés azért következett be, mert a Vándor naponta százszor elérte ugyanazt az oldalt. A vándor hamarosan módosította útjait, de a vita arról maradt fenn, hogy a robotok jóak vagy rosszak az internet számára.

Válaszul a vándorra Martijn Koster 1993 októberében megalkotta az Archie-szerű indexelést a weben (ALIWEB). Amint a neve is sugallja, az ALIWEB az Archie HTTP megfelelője volt, és emiatt még mindig sok szempontból egyedülálló.

Az ALIWEB-nek nincs webes keresőrobotja. Ehelyett a részt vevő webhelyek webmesterei közzéteszik saját indexadataikat minden egyes listázni kívánt oldalhoz. Ennek a módszernek az az előnye, hogy a felhasználók leírhatják saját webhelyüket, és egy robot nem szaladgálja fel a nettó sávszélességet. Sajnos az ALIWEB hátrányai ma inkább problémát jelentenek. Az elsődleges hátrány az, hogy speciális indexelő fájlt kell benyújtani. A legtöbb felhasználó nem érti, hogyan kell ilyen fájlt létrehozni, ezért nem küldi be az oldalait. Ez viszonylag kicsi adatbázishoz vezet, ami azt jelenti, hogy a felhasználók kevésbé valószínű, hogy az ALIWEB-ben keresnek, mint az egyik nagy bot alapú webhely. Ezt a Catch-22-t némileg ellensúlyozta, hogy más adatbázisokat is beépített az ALIWEB keresésbe, de még mindig nem rendelkezik olyan keresőmotorok vonzerejével, mint a Yahoo! vagy Lycos.

Izgat

Az Excite -t, amelyet eredetileg Architext -nek hívtak, hat Stanford -i egyetemi hallgató indította el 1993 februárjában. Az ötletük az volt, hogy a szókapcsolatok statisztikai elemzését használják a hatékonyabb keresés biztosítása érdekében az interneten található nagy mennyiségű információ révén. Projektjüket 1993 közepére teljes mértékben finanszírozták. Miután a finanszírozás biztosított. kiadták keresőszoftverük egy verzióját, amelyet a webmesterek használhatnak saját webhelyükön. Abban az időben a szoftvert Architextnek hívták, de most Excite for Web Servers néven fut.

Az Excite volt az első komoly kereskedelmi kereső, amely 1995 -ben indult. Stanfordban fejlesztették ki, és 6,5 milliárd dollárért vásárolta meg a @Home. 2001 -ben az Excite és a @Home csődbe ment, és az InfoSpace 10 millió dollárért megvásárolta az Excitét.

A webes keresés első elemeinek egy részét az Excite keresési naplóiban végeztük

Jehu!

1994 áprilisában két Stanford Egyetemi Ph.D. a jelöltek, David Filo és Jerry Yang néhány olyan oldalt hoztak létre, amelyek meglehetősen népszerűvé váltak. Yahoo! Hivatalos magyarázatuk a névválasztásra az volt, hogy yahoos párnak tartották magukat.

Ahogy a linkek száma nőtt, és oldalaik naponta több ezer találatot kaptak, a csapat módszereket talált az adatok jobb rendszerezésére. Az adatok visszakeresésének elősegítése érdekében a Yahoo! (www.yahoo.com) kereshető könyvtár lett. A keresési funkció egy egyszerű adatbázis -kereső volt. Mivel a Yahoo! a bejegyzéseket manuálisan adta meg és kategorizálta, Yahoo! nem igazán volt keresőmotornak minősítve. Ehelyett általában kereshető könyvtárnak tekintették. Jehu! azóta automatizálta a gyűjtési és osztályozási folyamat egyes aspektusait, elmosva a motor és a könyvtár közötti különbséget.

A Vándor csak URL -eket rögzített, ami megnehezítette azoknak a dolgoknak a megtalálását, amelyeket az URL -címük nem írt le kifejezetten. Mivel az URL -ek kezdetben meglehetősen titokzatosak, ez nem segített az átlagfelhasználón. Keresés a Yahoo! vagy a Galaxy sokkal hatékonyabb volt, mert további leíró információkat tartalmaztak az indexelt webhelyekről.

Lycos

A Carnegie Mellon Egyetemen 1994 júliusában Michael Mauldin, a CMU szabadságán, kifejlesztette a Lycos keresőmotort.

A webes keresőmotorok típusai

A webes keresőmotorok olyan webhelyek, amelyek gazdagítják a más webhelyeken tárolt tartalmak keresésének lehetőségét. Különbségek vannak a különböző keresőmotorok működésében, de mindegyik három alapvető feladatot lát el.

  1. Teljes vagy részleges tartalom keresése és kiválasztása a megadott kulcsszavak alapján.
  2. A tartalom indexének fenntartása és a talált helyre való hivatkozás
  3. Lehetővé teszi a felhasználók számára, hogy az indexben található szavakat vagy szóösszetételeket keressék.

A folyamat akkor kezdődik, amikor a felhasználó a megadott felületen keresztül beír egy lekérdezési utasítást a rendszerbe.

típus Példa Leírás
Hagyományos könyvtárkatalógus Keresés kulcsszó, cím, szerző stb.
Szöveg alapú Google, Bing, Yahoo! Keresés kulcsszavak alapján. Korlátozott keresés természetes nyelvű lekérdezésekkel.
Hang alapú Google, Bing, Yahoo! Keresés kulcsszavak alapján. Korlátozott keresés természetes nyelvű lekérdezésekkel.
Multimédiás keresés QBIC, WebSeek, SaFe Keresés vizuális megjelenés szerint (formák, színek, stb.)
Q/A Stack Exchange , NSIR Keresés (korlátozott) természetes nyelven
Klaszterező rendszerek Vivisimo, Clusty
Kutatási rendszerek Lemur, Nutch

Alapvetően háromféle keresőmotor létezik: azok, amelyeket robotok hajtanak (más néven feltérképező robotok ; hangyák vagy pókok), és azok, amelyeket emberi beküldés hajt; és azok, amelyek a kettő hibridjei.

Feltérképező keresőmotorok azok, amelyek automatizált szoftverügynököket (ún. Bejárókat) használnak, amelyek meglátogatnak egy webhelyet, elolvassák a tényleges webhelyen található információkat, elolvassák a webhely metacímkéit, és követik azokat a linkeket is, amelyekkel a webhely kapcsolódik az összes linkelt indexeléshez Weblapok is. A robot minden információt visszaad egy központi letétkezelőnek, ahol az adatokat indexelik. A robot rendszeresen visszatér a webhelyekre, hogy ellenőrizze a megváltozott információkat. Ennek gyakoriságát a keresőmotor rendszergazdái határozzák meg.

Az ember által működtetett keresőmotorok az emberekre támaszkodnak, hogy később információkat indexeljenek és katalogizáljanak. Csak az elküldött információk kerülnek az indexbe.

Mindkét esetben, amikor lekérdezi a keresőmotort az információk kereséséhez, valójában a keresőmotor által létrehozott indexen keresztül keres - valójában nem a weben keres. Ezek az indexek óriási adatbázisok az információkhoz, amelyeket összegyűjtenek, tárolnak és utána keresnek. Ez megmagyarázza, miért néha a keresés egy kereskedelmi keresőmotoron, például a Yahoo! vagy a Google, olyan eredményeket ad vissza, amelyek valójában halott linkek. Mivel a keresési eredmények az indexen alapulnak, és ha az index nem frissült azóta, hogy egy weboldal érvénytelenné vált, a keresőmotor az oldalt aktív linkként kezeli, annak ellenére, hogy már nem az. Ez így is marad az index frissítéséig.

Akkor miért ugyanaz a keresés különböző keresőmotorokban eltérő eredményeket hoz? A kérdésre adott válasz egy része az, hogy nem minden index lesz teljesen egyforma. Attól függ, mit találnak a pókok, vagy mit adtak be az emberek. De még fontosabb, hogy nem minden keresőmotor ugyanazt az algoritmust használja az indexek közötti kereséshez. Az algoritmus az, amit a keresőmotorok használnak annak meghatározására , hogy az indexben szereplő információk mennyire relevánsak a felhasználó által keresett tartalommal.

A keresőmotor algoritmusának egyik eleme a kulcsszavak gyakorisága és helye egy weboldalon. A magasabb gyakorisággal rendelkezőket általában relevánsabbnak tartják. De a keresőtechnológia egyre kifinomultabb, amikor megpróbálja visszatartani az úgynevezett kulcsszótömörítést vagy spamdexelést.

Egy másik gyakori elem, amelyet az algoritmusok elemznek, az, hogy az oldalak hogyan linkelnek a web más oldalaira. Az oldalak egymáshoz való kapcsolódásának elemzésével egy motor meg tudja határozni, hogy miről szól az oldal (ha a linkelt oldalak kulcsszavai hasonlóak az eredeti oldalon található kulcsszavakhoz), és azt, hogy az oldal „fontosnak” tekinthető -e, és megérdemli -e lendület a rangsorban. Ahogy a technológia egyre kifinomultabb, hogy figyelmen kívül hagyja a kulcsszavak kitöltését, úgy érthetőbbé válik azoknak a webmestereknek is, akik mesterséges linkeket építenek webhelyeikre a mesterséges rangsor létrehozása érdekében.

A modern webes keresőmotorok rendkívül bonyolult szoftverrendszerek, amelyek az évek során kifejlődött technológiát alkalmazzák. A keresőmotor-szoftverek számos alkategóriája létezik, amelyek külön-külön alkalmazhatók a konkrét „böngészési” igényekre. Ide tartoznak a webes keresőmotorok (pl. Google ), adatbázis- vagy strukturáltadat -keresőmotorok (pl. Dieselpoint ), valamint vegyes keresőmotorok vagy vállalati keresés. Az elterjedtebb keresőmotorok, mint például a Google és a Yahoo! , több százezer számítógépet használnak billió weboldal feldolgozására, hogy meglehetősen jól megcélzott eredményeket kapjanak. A nagy mennyiségű lekérdezés és szövegfeldolgozás miatt a szoftvernek nagyon szétszórt környezetben kell működnie, nagyfokú túlfolyással.

A keresőmotorok másik kategóriája a tudományos keresőmotorok. Ezek olyan keresőmotorok, amelyek tudományos irodalmat keresnek. A legismertebb példa a GoogleScholar. A kutatók a keresőmotor -technológia fejlesztésén dolgoznak azáltal, hogy a motorok megértik a cikkek tartalmi elemét, például elméleti konstrukciók vagy kulcsfontosságú kutatási eredmények kinyerése.

Keresőmotor -kategóriák

Internetes keresőmotorok

A kifejezetten weboldalak, dokumentumok és képek keresésére tervezett keresőmotorokat azért fejlesztették ki, hogy megkönnyítsék a keresést a strukturálatlan erőforrások nagy, ködös tömbjén keresztül. Úgy tervezték őket, hogy többlépcsős folyamatot kövessenek: feltérképezik az oldalak és dokumentumok végtelen készletét, hogy leolvassák a figurális habot a tartalmukról, indexeljék a habot/divatszavakat egyfajta félig strukturált formában (adatbázis vagy valami hasonló), és végül , megoldja a felhasználói bejegyzéseket/lekérdezéseket, hogy többnyire releváns találatokat és linkeket jelenítsen meg a leltárból származó sovány dokumentumokhoz vagy oldalakhoz.

Feltérképezés

Teljesen szöveges keresés esetén a weboldalak osztályozásának első lépése egy olyan „index -elem” megtalálása, amely kifejezetten kapcsolódhat a „keresési kifejezéshez”. A múltban a keresőmotorok az URL-ek kis listájával, úgynevezett kezdő listaként kezdték, lekérték a tartalmat, és elemezték az oldalakon található hivatkozásokat a releváns információkért, amelyek később új linkeket biztosítottak. A folyamat erősen ciklikus volt, és addig folytatódott, amíg nem találtak elegendő oldalt a kereső számára. Manapság folyamatos feltérképezési módszert alkalmaznak, szemben a maglistán alapuló véletlen felfedezéssel. A feltérképezési módszer a fent említett felfedezési módszer kiterjesztése. Kivéve, hogy nincs vetőmaglista, mert a rendszer soha nem hagyja abba a féreghajtást.

A legtöbb keresőmotor kifinomult ütemezési algoritmusokat használ, hogy „eldöntse”, mikor kell újra meglátogatnia egy adott oldalt, és felhívja a figyelmet annak relevanciájára. Ezek az algoritmusok az állandó látogatási időköztől, a magasabb prioritású, gyakrabban változó oldalaktól az adaptív látogatási intervallumig terjednek, amelyek számos kritérium, például a változás gyakorisága, népszerűsége és a webhely általános minősége alapján állnak rendelkezésre. Az oldalt futtató webkiszolgáló sebessége, valamint az erőforrás -korlátozások, például a hardver mennyisége vagy a sávszélesség szintén szerepet játszanak.

Link térkép

Az internetes feltérképezés által felfedezett oldalakat gyakran terjesztik, és egy másik számítógépbe töltik be, amely valódi térképet hoz létre a feltárt erőforrásokról. A csomós fürttömeg kicsit hasonlít egy grafikonra, amelyen a különböző oldalakat kis csomópontokként ábrázolják, amelyeket az oldalak közötti linkek kapcsolnak össze. A többlet adatot több adatstruktúrában tárolják, amelyek lehetővé teszik az adatokhoz való gyors hozzáférést bizonyos algoritmusok segítségével, amelyek kiszámítják az internetes oldalak népszerűségi pontszámát az alapján, hogy hány link mutat egy bizonyos weboldalra, így az emberek bármilyen számhoz hozzáférhetnek a pszichózis diagnosztizálásával foglalkozó forrásokból. Egy másik példa lehet a Mohamed Morsiról szóló információkat tartalmazó weboldalak elérhetősége/rangja a Kairóban található legjobb látnivalókkal szemben, miután egyszerűen beírta az „Egyiptom” kifejezést. Az egyik ilyen algoritmus, a PageRank , amelyet a Google alapítói, Larry Page és Sergey Brin javasoltak, jól ismert, és nagy figyelmet keltett, mert kiemeli a webes keresések ismétlődő sokaságát olyan diákok jóvoltából, akik nem tudják, hogyan kell helyesen kutatni a témákat a Google -on. Az ötlet, hogy hivatkozási elemzést végezzen a népszerűségi rangsor kiszámításához, régebbi, mint a PageRank. Ugyanazon elképzelés más változatai is használatban vannak - az osztályos iskolások ugyanilyen számításokat végeznek a kickball csapatok kiválasztásakor. De komolyan, ezeket az ötleteket három fő kategóriába lehet sorolni: az egyes oldalak rangja és a webhely tartalmának jellege. A keresőmotorok gyakran különbséget tesznek a belső linkek és a külső linkek között, mert a webmesterek és úrnők nem idegenek a szégyentelen önreklámtól. A linktérkép adatstruktúrák jellemzően a hivatkozásokba ágyazott horgonyszöveget is tárolják, mivel a horgonyszöveg gyakran „nagyon jó minőségű” összefoglalót nyújthat egy weboldal tartalmáról.

Adatbázis keresőmotorok

A szöveges tartalom adatbázisokban való keresése néhány különleges kihívást jelent, amelyekből számos speciális keresőmotor virágzik. Az adatbázisok lassúak lehetnek bonyolult lekérdezések megoldásakor (több logikai vagy karakterlánc -egyező argumentummal). Az adatbázisok olyan pszeudo-logikus lekérdezéseket tesznek lehetővé, amelyeket a teljes szöveges keresés nem használ. Az adatbázishoz nincs szükség feltérképezésre, mivel az adatok már strukturáltak. A gyorsabb keresés érdekében azonban gyakran szükség van az adatok takarékosabb formában történő indexelésére.

Vegyes keresőmotorok

Néha a keresett adatok adatbázis tartalmat és weboldalakat vagy dokumentumokat is tartalmaznak. A keresőtechnika úgy lett kifejlesztve, hogy mindkét követelménycsoportnak megfeleljen. A legtöbb vegyes keresőmotor nagy internetes keresőmotor, például a Google. Strukturált és strukturálatlan adatforrásokon keresztül is keresnek . Vegyük például a „labda” szót. Legegyszerűbben fogalmazva, csak a Wikipédián több mint 40 variációt ad vissza. Bálra gondolt, mint a társasági összejövetelen/táncban? Egy focilabda? A láb golyója? Az oldalakat és a dokumentumokat külön indexben feltérképezik és indexelik. Az adatbázisokat különböző forrásokból is indexelik. A keresési eredmények ezután generálódnak a felhasználók számára, ha párhuzamosan lekérdezik ezeket a több indexet, és összevonják az eredményeket a „szabályok” szerint.

Lásd még

Hivatkozások