Katalozi, indeksi i pretraga

12.
okt
kategorija: Internet, IT industrija komentari (0)

Blic, 12.10.2008.

Sa popriličnom sigurnošću mogu da pretpostavim da je kao početna stranica web brauzera na vašem računaru postavljen Google, Yahoo, Microsoft Live ili neki sličan pretraživač/portal. U stvari, najveća verovatnoća je da se upravo radi o jednom od tri nabrojana sajta, budući da su oni i najpopularniji. Web kao jedan od najvažnijih Internet servisa razvija se neverovatnom brzinom, tako da poslednje statistike govore da se u sajber prostoru nalazi oko 200 miliona web sajtova sa milijardama stranica, fotografija i drugih materijala. Brzo i precizno pronalaženje relevatnih informacija u toj nepojmljivo velikoj količini podataka ogroman je problem za svakog posetioca Interneta, pa je sasvim razumljivo zašto su pretraživači važan alat. Prosečan korisnik, međutim, malo zna o načinu na koji oni funkcionišu i problemima sa kojima se njihovi tvorci susreću.

Mašine za pretragu weba (eng. Web Search Engine) rade tako što najpre pošalju automatizovane programe (popularno nazvane crawler, spider ili robot) koji krstare Internetom i prikupljaju informacije i sadržaje svih stranica na koje naiđu. Zatim se ti sadržaji analiziraju i izdvajaju se ključni pojmovi koji se na odgovarajući način indeksiraju radi brže pretrage. Indeksiranje i rangiranje stranica u odnosu na ključne pojmove je izuzetno kompleksna oblast koja obuhvata kobinaciju matematičkih algoritama, semantičku i leksičku analizu tekstova i programskog koda, pa čak i korekcije od strane stručnog osoblja. Poslednja faza u radu pretraživača je ono što mi kao korisnici vidimo – unos reči za pretragu i povratna informacija o stranicama koje su relevantne u odnosu na te pojmove. Naravno, radi postizanja boljih rezultata u upitima je moguće koristiti kombinacije reči, složene pojmove i logičke operacije sa rečima (i, ili, ne).

U poslednje je vreme sve više multimedijalnih sadržaja na webu, uključujući fotografije, audio i video zapise, PDF dokumente i kompletne animirane web prezentacije i programe (popularni Flash ili Silverlight, na primer). Pretraživanje podataka unutar ovakvih sadržaja izuzetno je teško, a ponekad i nemoguće. Problem sa slikama savladan je pre nekoliko godina, a u najavi su i rešenja za animacije i audio fajlove, pa će pretraga na Internetu postati još preciznija i potpunija. Pored najvećih opštih pretraživača za koje svi znamo, postoji i veliki broj specijalizovanih „mašina“ koje se bave indeksiranjem određenih vrsta sadržaja (fotografije, mape, cene proizvoda, blogovi i slično), specifičnih grana (industrija, medicina, pravo itd.) ili geografskih oblasti (najčešće pretraživači stranica po državama).

Gde god postoji problem velike količine raznorodnih podataka, javlja se i potreba za kvalitetnim pretraživanjem. Rast kapaciteta računarskih hard diskova doveo je do toga da na svakom pojedinačnom kompjuteru takođe imamo neizbrojivo mnogo fajlova i dokumenata. Zbog toga su u poslednjih nekoliko godina sve popularniji takozvani desktop pretraživači koji vam pomažu da se brzo snađete u kreativnom haosu sopstvenig računara. Naravno, Microsoft i Google su se među prvima uključili i u ovu oblast. Nemojte, međutim, da mislite kako su na tržištu pretraživača „karte podeljene“ i da se samo najveći bore za primat. Samo ove godine pokrenuto je desetak novih portala za pretraživanje, a ne treba zaboraviti da su pre deset godina, na sličan način, Google osmislila dvojica entuzijasta.

Tagovi: