2002. április 1., hétfő

Keresõk (2002)

A keresõ szolgáltatások helyzete jelentõsen átrendezõdött az utóbbi öt évben. Valóban nagy és aktuális adatbázissal gyakorlatilag két keresõ rendelkezik: a Yahoo és a Google, valamint van egy meghatározó katalógus, a DMOZ, amelynek adatbázisa szinte minden jelentõs keresõben megjelenik. A piac e három vezetõ szereplõje eladja szolgáltatásait, illetve ezek bizonyos részeit és találati listáját más keresõk számára, így ha nem is ezeket használjuk, mégis e három vezetõ oldal találatait látjuk magunk elõtt (részben vagy egészben) más hasonló oldalakon is.

Nehéz dolguk van azoknak a keresõknek, amelyek lépést tudtak tartani a fejlõdéssel. A Google adatbázisa évente kétmilliárd új weblappal bõvül. Népszerûsége és az adatbázis mérete miatt (több, mint 8 milliárd oldal) jelentõs géppark mûködteti a keresõt. A keresési szempontokat folyamatosan változtató szolgáltatások, a bõvülõ weblap állomány ellenére is, egyre relevánsabb oldalakat adnak fel találati listájuk oldalain. Ezzel szemben a weboldal tulajdonosok sokszor nem a relevancia szerint akarnak megjelenni, hanem a tartalom módosításával vagy egyéb trükkökkel próbálnak az elsõk közé kerülni, nem csak megelõzve ezzel a konkurens oldalakat, hanem figyelmen kívül hagyva más hasonló témájú oldalak színvonalát és jelentõségét, becsapva ezzel a keresõt és a látogatót is. Mivel eleve kevés fejlõdõképes keresõ maradt, a bekerülés a Google és a Yahoo adatbázisába többet ér, mint az összes többi együttvéve. A Google 8 milliárd leindexelt oldala jónak mondható, hiszen túlzásokba nem esõ kutatások szerint 15-30 milliárd mûködõ webhely van jelenleg. Mindehhez képest a DMOZ katalógus 5 millió linkje kevésnek tûnik, de mennyiségi szempontból a katalógustól nem várhatunk annyit, mint egy keresõtõl.

Melyik keresõt használjuk?

A keresés során fontos lenne feltenni azt a kérdést, melyik szolgáltatást használjuk. Jelenleg azonban a Google annyira egyeduralkodó és olyan nagy méretû leindexelt adatbázissal rendelkezik, hogy az alternatívák helyett – ha nem vertikális keresést akarunk végezni –, kézenfekvõ, hogy minden esetben a Google-t választjuk elsõ lépésben. Ritka az olyan szolgáltatás, amely a Google-ból hiányzik, és egy konkurens keresõben a hiányzó lehetõséget jobban ki lehet használni. Katalógusok tekintetében a magyar nyelvû oldalak elérése nem túl szerencsés, mert kevés (és sokszor már nem mûködõ) oldalt tartalmaz mind a Yahoo, mind a DMOZ, így ezek helyett a szépen fejlõdõ startlap.hu ajánlható. Mindamellett lényeges, hogy a keresési eredményt elsõsorban a kulcsszavak megválasztásával befolyásoljuk, ne csak a keresõ kiválasztásával.
Vertikális (egyetlen témakörre szûkíthetõ) keresésnél érdemes az adott téma portálját, katalógusát, keresõjét megtalálni, ehhez használhatjuk a Google-t is a megfelelõ kulcsszavakkal (pl.: electronic* search engine). A vertikális keresõkön olyan weboldalakat és adatokat is megtalálhatunk, amelyeket a Google-ben sem találunk hagyományos keresés során, többek között azért, mert az adat nem dokumentumszerûen, hanem adatbázisszerûen áll rendelkezésre. Ugyanitt témaspecifikus közösségeket (fórumokat, hírleveleket, levelezõ listákat) is találhatunk az esetek nagy részében. Feladat lehet a keresés során, hogy a feldolgozandó téma vertikális portálját (keresõjét) használjuk. A példa kedvéért az amerikai népességrõl szóló statisztikai adatokat a http://www.prb.org/template.cfm?Section=Search címen található „vertikális keresõvel" találhatjuk meg. Amennyiben a keresett téma „adatbázisszerûen" rendszerezhetõ, szinte biztos, hogy rengeteg „keresõ-t" találunk, amelyek, ellentétben a horizontális társaival, más adatokat tartalmaznak. Ilyen téma lehet például alkatrészek, áruházak, dokumentációk adatbázisai. Jó példa az elektronikai alkatrészek keresõje: http://www.radiolocman.com/comp/search-en.html, de létezik elektronikai témájú kiadványok keresõje (adatbázisa) is: http://www.lib.iup.edu/databases/title.html. Nem ritka, hogy a vertikális keresõk segítségével további szûkítéseket tudunk végezni az adott témában. Példa: az elektronikával foglalkozó keresõk gyûjteményében (katalógusában) http://www.1choiceelectronics.com/electronic-components-application-sheet-search-engines.html egy, a témához kapcsolódó törvények keresõjét (adatbázisát) találhatjuk: http://www.wipo.int/clea/docs_new/en/sg/sg009en.html. Amennyiben a hagyományos keresés során zsákutcába tévedünk, érdemes a fent leírt szisztémát más területeken is alkalmazni.

Tulajdonosi viszonyok, vásárolt adatbázisok

Vizsgáljuk meg a mai keresõk tulajdonosi viszonyait, illetve azt, hogy adatbázisuk vagy annak egy része valójában honnan származik.
A jól ismert DMOZ katalógus szolgáltat gyakorlatilag a Yahoo holdudvarán kívülesõ összes keresõnek: Google, iwon, HotBot, AOL, Netscape, Teoma, Lycos. A DMOZ tehát az egyik és majdnem egyetlen olyan központi szolgáltató, amely directory listát (katalógust) nyújt sok más keresõbe. A DMOZ ráadásul a listát korlátozás nélkül bocsátja partnerei rendelkezésére. A másik központi szolgáltató a Google, amely a fent felsoroltakon kívül még szolgáltat az AskJevees nevû keresõnek, amely ezen kívül még a Teoma keresõbõl veszi találati eredményeit (érdekesség kedvéért a Teoma az AskJevees tulajdona, az összefonódás köztük akkora, hogy a két keresõ eredménylistája gyakorlatilag megegyezik, sõt ha az egyik cím túlterhelt, automatikusan átirányít a másikra. Emellett az AskJevees még szolgáltat a HotBot, a Lycos, és az iwon számára is. Látható hogy ebben a körben van két nagyon jelentõs központi adatbázis a Google és a DMOZ tulajdonában. Õk gyakorlatilag mindenkivel szolgáltatói kapcsolatban vannak. A Google, a DMOZ-zal ellentétben, viszont sok esetben nem adja át teljes adatbázisát a partner oldalaknak, azok gyakran csak egy szûrt listát, vagy a fizetett hirdetéseket jeleníthetik meg, kivétel az AOL és a Netscape keresõje. Ezen kívül szerepet kap még a Teoma/AskJevees páros. Ebben a csoportban a legtöbb szolgáltatást a HotBot vásárolja a többi katalógustól/keresõtõl.
A Yahoo köré épülõ keresõk: az MSN, az AltaVista, az AllTheWeb, illetve a Yahoo saját katalógusa. A Yahoo katalógusa szolgáltat az Altavista-nak, az Inktomi-nak, az AllTheWeb-nek. A legtöbb szolgáltatást az AltaVista veszi igénybe ebben a csoportban. Érdekesség, hogy a két csoport között nincs már további kapcsolat (gyakorlatilag egy keresõ vagy a Google/DMOZ párost használja, vagy a Yahoo hasonló szolgáltatásait). Bonyolítja a helyzetet, hogy a fenti csoportok nem csak használják a legnagyobbak adatbázisát, hanem saját gyûjtésû adatbázissal is rendelkeznek, amelyet saját szempontjaik alapján rendeznek a találati listában, kombinálva azt a partnerektõl vásárolt találati listával.
Ma megállapítható, hogy a látogató szempontjából legrelevánsabb listát a Google készíti, aminek egyetlen alternatívája rövidtávon a AskJevees/Teoma páros lehet, amennyiben adatbázisuk mérete használhatóvá nõ.
Visszatekintve a keresõk fejlõdésére, azt láthatjuk, hogy 1995 és 2003 között nagyjából kiegyenlített versenyt folyt a legnagyobbak között. A Google, az AllTheWeb, az Inktomi hármas ekkorra 3-3,5 milliárd weboldalt indexelt le, míg a valaha elsõ AltaVista ekkor mindössze 1 milliárd oldalnál tartott. 2002-ben elindult a Teoma, amely ma egyre népszerûbb, gyorsan fejlõdõ szolgáltatás. A keresõk által leindexelt oldalak száma 1999 és 2002 között megtízszerezõdött, 160 millióról 1,6 milliárdra nõtt. Ezzel szemben a használható keresõ szolgáltatások száma 2000 végén gyakorlatilag 1-re csökkent (Google) hiszen egymagában 1,5 milliárd weboldalt tett ekkor elérhetõvé. Jelenleg a Google 8 milliárd oldallal a legnagyobb, de egyben a legáttekinthetetlenebb, a weblapkészítõk által leginkább „manipulált" találati listával rendelkezik. Jövõbeli alternatívája a rendkívül gyorsan fejlõdõ, 1 milliárd oldallal rendelkezõ AskJevees/Teoma páros.

A keresés technikája

Az in­for­má­ció­szer­zés cél­já­ra internetes ke­re­sõ­ket kell hasz­nál­nunk. Ezek olyan spe­ci­á­lis webhelyek, ame­lyek mû­kö­dé­sé­ben a funk­ci­o­na­li­tás ön­ma­gá­ban fon­to­sabb, mint a sa­ját tar­ta­lom (http://www.twics.com/~takakuwa/search/). Az Internet leg­nép­sze­rûbb webhelyeirõl van szó. Szol­gál­ta­tás­vá­lasz­té­kuk má­ra
messze túl­nõt­te azt, ami­re a ke­re­sés­kor szük­ség van, de eb­ben a fe­je­zet­ben ez­zel nem fog­lal­ko­zunk. A ke­re­sõk az ál­ta­lunk meg­adott kulcs­sza­vak alap­ján kí­nál­nak egy ta­lá­la­ti lis­tát. Mi­vel a ta­lá­la­ti lis­ta szem­pont­jai ke­re­sõn­ként kü­lönb­özõek, ez a lis­ta szin­te so­sem egy­for­ma (http://searchenginewatch.com/).
A ke­re­sõk­re alap­ve­tõ­en azért van szük­ség, mert sem a komp­lett webhelyek, sem pe­dig a webhelyeken be­lü­li egye­di ol­da­lak kö­zött nincs pri­o­ri­tá­si sor­rend. Ha len­ne, ez len­ne a ha­gyo­má­nyos ér­te­lem­ben vett ol­dal­szám. En­nek el­le­né­re a webhelyeken be­lül már van struk­tú­ra, ezt lin­kek­kel va­ló­sít­ja meg a webmester, de sor­ren­di­ség nincs. A kü­lön­ál­ló webhelyek kö­zött még a struk­tu­rált­ság sem fe­dez­he­tõ fel, öt­let­sze­rû­en kap­cso­lód­nak egy­más­hoz, ugyan­csak lin­kek se­gít­sé­gé­vel. A ke­re­sõ emi­att meg­pró­bál az adott té­ma leg­el­sõ ol­da­la len­ni, a té­mát pe­dig az ál­ta­lunk be­gé­pelt kulcs­sza­vak ha­tá­roz­zák meg.
Egy-egy webhelynek min­den egyes ol­da­la po­ten­ci­á­lis be­já­rat. A ke­re­sõ nem a webhely nyi­tó­lap­ját ajánl­ja ne­künk, ha­nem azt a köz­ben­sõ ol­dalt, ami tar­tal­mi­lag leg­in­kább meg­fe­lel a ke­re­sett kulcs­szó­nak. Ezt el­dön­te­ni igen ne­héz fel­adat, és a ke­re­sõk az ol­da­la­kat más-más szem­pont­ok sze­rint tart­ják meg­fe­le­lõ­nek. Ép­pen ezért, ami­kor ke­re­sünk, ér­de­mes ugyan­azo­kat a szem­pon­to­kat több ke­re­sõ­be is be­ír­ni. Kü­lön­bö­zõ ered­mé­nye­ket fo­gunk kap­ni. A lá­to­ga­tó ol­da­lán az egyik leg­ne­he­zebb fel­adat a ke­re­sés és az ezt kö­ve­tõ sze­lek­ció. Az üz­le­ti élet­ben nem túl ha­té­kony a sok pró­bál­ko­zás vagy a hosszan ­tar­tó utó­la­gos rend­sze­re­zés. Ép­pen ezért a passzív szem­lé­lõ­nek is is­mer­nie kell a ke­re­sõk mû­kö­dé­sét és hasz­nál­ha­tó­sá­gát. Amennyi­ben az in­for­má­ció­szer­zés fon­tos­sá­gá­val egyet­ér­tünk, ve­gyük a fá­rad­sá­got, hogy meg­ta­nul­juk ha­té­ko­nyan hasz­nál­ni eze­ket a hasz­nos esz­kö­zö­ket.