Otsingumootor

Allikas: Vikipeedia

Otsingumootor ehk otsimootor on arvutiprogramm (tavaliselt otsinguprogrammide-andmebaaside süsteem), mille väljundi abil saab veebis infot kiiremini leida. Otsimootor otsib kindlate tunnustega andmeid veebist ja FTP-serveritest.[1] Päringu vastused esitatakse nimekirjana, mis võib koosneda viidetest veebilehtedele, piltidele, dokumentidele, videotele jt objektidele võrgus. Mõned otsingumootorid kaevandavad andmeid võrku ühendatud andmebaasidest või avatud loenditest. Erinevalt veebiregistritest-portaalidest, mida hooldavad toimetajad, uuendavad otsingumootorid infot reaalajas, jooksutades veebiämblike abil algoritme.[2]

Ajalugu[muuda | redigeeri lähteteksti]

Ajaline järjestus
Aasta Nimi Praegune seis
1993 W3Catalog Suletud
Aliweb Suletud
JumpStation Suletud
1994 WebCrawler Aktiivne
Go.com Aktiivne, Yahoo Search
Lycos Aktiivne
1995 AltaVista Yahoo! poolt üle võetud
Daum Aktiivne
Magellan Suletud
Excite Aktiivne
SAPO Aktiivne
Yahoo! Aktiivne,
1996 Dogpile Aktiivne
Inktomi Yahoo! poolt üle võetud
HotBot Aktiivne (lycos.com)
Ask Jeeves Aktiivne (ask.com)
1997 Northern Light Aktiivne
Яндекс Aktiivne
1998 Google Aktiivne
MSN Search Aktiivne Bingina
1999 AlltheWeb Suletud (URL ümber suunatud Yahoo!-le)
GenieKnows Aktiivne, ümber nimetatud Yellowee.com-ks
Naver Aktiivne
Teoma Aktiivne
Vivisimo Suletud
2000 Baidu Aktiivne
Exalead Dassault Systèmesi poolt üle võetud
2002 Inktomi Yahoo! poolt üle võetud
2003 Info.com Aktiivne
2004 Yahoo! Search Aktiivne
A9.com Suletud
Sogou Aktiivne
2005 AOL Search Aktiivne
Ask.com Aktiivne
GoodSearch Aktiivne
SearchMe Suletud
2006 wikiseek Aktiivne
Quaero Aktiivne
Ask.com Aktiivne
Live Search Aktiivne Bingina
ChaCha Aktiivne
Guruji.com Aktiivne
2007 wikiseek Suletud
Sproose Suletud
Wikia Search Suletud
Blackle.com Aktiivne
2008 Powerset Microsofti poolt üle võetud
Picollator Suletud
Viewzi Suletud
Boogami Aktiivne
LeapFish Suletud
Forestle Aktiivne
VADLO Aktiivne
Duck Duck Go Aktiivne
2009 Bing Aktiivne
Yebol Aktiivne
Search2.net Aktiivne
Mugurdy Suletud
Goby Aktiivne
2010 Yandex Aktiivne
Cuil Suletud
Blekko Aktiivne
Yummly Aktiivne
Solusee Aktiivne
2011 Interred Aktiivne
2013 Aoohe Aktiivne

Veebi algusaegadel kasutati veebiserverite loetelu, mida toimetas Tim Berners-Lee ja majutas CERN-i serveris. 1992. aastast on alles ka üks ajalooline pilt[3] Kuna internetti tekkis järjest kiiremini uusi veebiservereid, ei suutnud see loetelu enam kasvuga sammu pidada. NCSA lehel teavitati uutest serveritest pealkirja "What's New!" (ingl. k. "Mida uut!")[4] all.

Esimene tööriist, mida kasutati internetis otsimiseks, oli Archie. Nimi tähendas "archive" (ingl.k. arhiiv) ilma "v"-ta. Selle lõid 1990. aastal Alan Emtage, Bill Heelan ja J. Peter Deutsch, arvutitehnika õpilased McGilli ülikoolist Montréalis. Programm laadis alla registri nimekirjad kõikidest failidest, mis asusid avalikes FTP võrgukohtades, luues failinimedega otsitava andmebaasi. Archie ei indekseerinud lehtede sisu, sest andmemahud olid piiratud, samas võis andmeid lihtsalt leida.

Gopheri loomine 1991. aastal Mark McCahilli poolt avas tee kahele uuele otsinguprogrammile: Veronica ja Jughead. Sarnaselt Archiega otsisid nad failinimesid ja pealkirju, mis olid salvestatud Gopheri indeksisüsteemidesse. Veronica võimaldas märksõnaotsingut enamikule Gopheri menüü pealkirjadele terves Gopheri nimekirjas. Jughead oli tööriist, mille abil võis leida menüü infot kindlatest Gopheri serveritest. Kuigi otsingumootori Archie nimi polnud viide Archie koomiksiseeriale[5], said Veronica ja Jughead nimed selle seeria tegelaste järgi ja viitasid niimoodi oma eelkäijale.

1993. aasta suvel ei olnud veebi jaoks ühtegi otsingumootorit, mitmeid spetsiaalseied katalooge hallati käsitsi. Oscar Nierstrasz Geneva Ülikoolist kirjutas seeria Perli skripte, mis perioodiliselt peegeldasid neid lehti ja taaskirjutasid nad standardsesse formaati, mis moodustas aluse W3Catalog-ile. See oli veebi esimene primitiivne otsingumootor ning lasti välja 2. septembril 1993.[6]

1993. aasta juunis lõi Matthew Gray arvatavasti esimese veebiroboti, Perli baasil loodud World Wide Web Wandereri ja kasutas seda Wandexi nimelise indeksi loomiseks. Wandereri eesmärgiks oli mõõta veebi suurust, mida see tegi kuni 1995. aastate lõpuni. Veebi teine otsingumootor ALiweb ilmus novembris 1993. Aliweb ei kasutanud veebirobotit, vaid sõltus veebilehtede adminide teavitustest iga lehe olemasolu kohta.

JumpStation (ingl. k. HüppeJaam) kasutas veebirobotit veebilehtede leidmiseks ja neist registri ehitamiseks ning kasutas veebiankeeti kasutajaliidesena oma päringu programmina. See oli seega esimene WWW ressursi avastamise vahend, milles olid liidetud kolm põhilist otsingumootori omadust (roomamine, indekseerimine ja otsimine). Kuna platvormil, millel see jooksis, olid piiratud ressursid, piirdus selle indekseerimine ja seega ka otsimine pealkirjadega lehtedega, mida ämblik oli külastanud.

Üks esimesi „täis-teksti“ ämbliku baasil toimivaid otsingumootoreid oli WebCrawler (ingl. k. VeebiÄmblik), mis tuli välja 1994. aastal. Erinevalt eelkäijatest lasi see oma kasutajatel otsida iga sõna igal veebilehel, mis on sellest ajast saadik muutunud standardiks kõigile otsingumootoritele. See oli ka üks esimesi otsingumootoreid, mis sai tuntuks laiema avalikkuse ees.

Peagi loodi veel mitmed otsingumootorid, mis konkureerisid omavahel populaarsuse pärast. Nende seas olid Magellan, Excite, Infoseek, Inktomi, Northern Light ja AltaVista. Yahoo! oli üks populaarseimaid viise inimesi huvitavate veebilehtede leidmiseks, kuid selle otsingufunktsioon toimis enda veebiregistril täis-tekst lehtede koopiate asemel. Info otsijad said vaadata ka registrit otsingusõnal põhineva otsingu asemel.

1996. aastal tahtis Netscape anda ühele otsingumootorile eksklusiivse lepingu, millega see muutuks kaasasolevaks otsingumootoriks Netscape'i brauseril. Huvi selle vastu oli nii suur, et Netscape tegi tehingu viie suurema otsingumootoriga. 5 miljoni dollari eest aastas olid Netscape'i otsingulehel ringluses viis otsimootorit: Yahoo!, Magellan, Lycos, Infoseek ja Excite.[7]

Otsingumootoreid peeti ka eredamateks tähtedeks 1990. aastate lõpu internetti investeerimise hulluses.[8] Mitmel firmal läks turule sisenemine suurepäraselt, nad said avalikel pakkumistel rekordilisi tulusid. Mõned võtsid maha oma avalikud otsingumootorid ja turustasid ainult ettevõtetele mõeldud versioone nagu Northern Light.

2000. aasta paiku tõusis tippu Google'i otsingumootor. Firma saavutas paremaid tulemusi innovatsiooniga PageRank. See korduv algoritm hindab veebilehti PageRank-numbri alusel. Eeldatakse, et headele ja nõutud lehtedele lingitakse teistelt veebisaitidelt rohkem kui teistele. Google säilitas oma otsingumootoris ka minimalistliku kasutajaliidese, vastandina mitmetele konkurentidele, kelle otsingumootor oli veebiportaali sisse ehitatud.[viide?]

2000. aastal hakkas Yahoo! kasutama otsingutulemuste saamiseks Google'it. Yahoo! hankis endale Inktomi 2002. ja Overture'i 2003. aastal. 2004 tuli ta välja oma otsingumootoriga, milles olid ühendatud Yahoo!'le kuuluvate rakenduste tehnologiad.[viide?]

Microsoft lasi MSN Searchi välja 1998. aasta sügisel, kasutades Inktomi otsingutulemusi. 1999. aasta alguses hakkas leht näitama loetelusid Looksmartist, mis olid kokku segatud tulemustega Inktomist.[viide?] 2004 hakkas Microsoft oma otsingutehnoloogiale üle minema.[viide?] Microsofti taasmärgistatud otsingumootor Bing avati kasutajatele 1. juunil 2009.[viide?] 29. juulil lõpetasid Yahoo! ja Microsoft lepingu, mille kohaselt hakkab Yahoo! Search toimima Microsoft Bingi tehnoloogia baasil.[viide?]

Kuidas otsingumootor töötab[muuda | redigeeri lähteteksti]

Tavalise veebiämbliku kõrge-taseme arhitektuur (ingl. k.)

Otsingumootor toimib sellises järjekorras:

  1. Veebis „roomamine”
  2. Indekseerimine, st sorteerimine, analüüsimine, markeerimine jne
  3. Päringutele sobivate vastuste otsimine

Otsingumootorid toimivad salvestades infot mitmete veebilehtede kohta, mille nad otsivad välja html-ist endast. Need lehed leitakse veebiämbliku abil – see on automatiseeritud veebibrauser, mis järgib igat linki lehel. Erandeid saab teha robots.txt abil. Seejärel analüüsitakse iga lehe sisu, misjärel otsustatakse, kuidas seda indekseerida. Andmeid veebilehtede kohta hoitakse indeksi andmebaasides, et kasutada hilisemates päringutes, mis võib olla ka ühe sõna pikkune. Indeksi eesmärk on lubada info võimalikult kiiret leidmist. Mõned otsingumootorid, nt Google, salvestavad kas kõik või osa allika lehest ja ka infot veebilehtede kohta. Teised, nagu AltaVista, salvestavad iga sõna igalt lehelt, mis nad leiavad. Selliselt salvestatud leht omab tegelikku otsingumootori teksti, sest see oli see, mis tegelikult indekseeriti. Sellest on kasu, kui lehte on uuendatud ja otsingusõnu pole seal enam näha. Lehtede salvestamine võimaldab otsingu suurt täpsust, sest need võivad sisaldada andmeid, mida enam kusagil mujal ei leidu.

Kui kasutaja sisestab otsingumootorisse päringu, siis mootor uurib oma indekseid ja tagastab nimekirja parima sobivusega veebilehtedest vastavalt oma sisule, tavaliselt lühikese kokkuvõttega dokumendi pealkirjast ja mõnikord lõiguga tekstist. Indeks ehitatakse üles informatsioonist, mis salvestatakse koos andmetega vastavalt info indekseerimismeetodile. Kahjuks pole hetkel ühtegi avalikku otsingumootorit, mis lubaks faile otsida kuupäeva alusel. Enamik otsingumootoreid toetavad konnektorite JAH, VÕI ja EI kasutamist, et võimaldada täpsema päringu esitamist. Konnektorid lubavad kasutajal muuta ja laiendada otsingutingimusi. Mootorid otsivad sõnu või fraase täpselt nii, nagu need sisestati. Mõned otsingumootorid pakuvad arenenud võimalust, mis lubab kasutajal määrata võtmesõnade vahelist kaugust. On ka ideelisi otsinguid, kus uurimine sisaldab statistilise analüüsi kasutamist lehtedel, mis sisaldavad sõnu või fraase, mida otsitakse. Loomuliku keele päringud lubavad kasutajal sisestada küsimuse nõnda, nagu seda küsitaks teiselt inimeselt, üks selline sait on näiteks ask.com.

Otsingumootori tõhusus sõltub otsingutulemuste asjakohasusest. Kuigi teatud sõna või fraasi sisaldavaid lehekülgi on miljoneid, on mõned neist asjakohasemad, populaarsemad või usaldusväärsemad kui teised. Enamik otsingumootoreid kasutab meetmeid tulemuste järjestamiseks, et tuua „parimad“ tulemused ettepoole. See, kuidas mootorid otsustavad, millised vasted on parimad ja millises järjekorras neid näidata, sõltub mootorist endast. Meetodid muutuvad aja jooksul samamoodi, nagu muutub interneti kasutamine ja tekivad uued tehnikad. Põhiliselt on olemas kahte tüüpi otsingumootoreid: üks on süsteem kindlaksmääratud ja hierarhiliselt järjestatud otsingusõnadega, mida on laialdaselt programmeeritud. Teine süsteem loob tagurpidi indeksi, analüüsides leitavat teksti ning toetub tugevamalt arvutile, mis teeb ära suurema osa tööst.

Enamik otsingumootoreid on äriprojektid, mis teenivad tulu reklaami müügiga. Reklaamiandjad maksavad, et enda lehekülge otsingutulemuste seas kõrgemale tõsta. Otsingumootorid, mis tulemusi raha eest ei järjesta, teenivad, näidates oma tavatulemuste kõrval otsingutulemustega seotud reklaame. Otsingumootor teenib raha iga kord, kui keegi avab ühe sellise reklaami.

Turuosa[muuda | redigeeri lähteteksti]

Google'i otsingumootori ülemaailmne populaarsus jõudis tippu aprillis 2010, kui saadi kätte 86,3%-line turuosa.[9] Otsingumootorid nagu Yahoo!, Bing jt on populaarsemad Ameerikas kui Euroopas. Hitwise'i kohaselt oli oktoobris 2011 Ameerikas Google'i turuosa 65,38%, Bingil ja Yahool 28,62% ja ülejäänud 66 otsingumootorit jäid 6% sisse. Kuigi juulis mõõdetud otsingute õnnestumismääras, kus kasutaja oli veebilehte külastanud, oli Yahool ja Bingil üle 80% tulemustest, kui Google'i määr oli alla 68%.[10] Hiina Rahvavabariigis oli 2009. aasta juulis 61,6% turust Baidu käes.[11]

Otsingumootorite kallutatus[muuda | redigeeri lähteteksti]

Kuigi otsingumootorid on programmeeritud reastama veebilehti populaarsuse ja asjakohasuse järgi, on kogemustel põhinevatest uurimustöödest näha, et neis leidub poliitilisi, majanduslikke ja sotsiaalseid eelarvamusi[12][13]. Nende eelarvamuste põhjuseks võivad olla majanduslikud, ärilised (nt firmad, mis reklaamivad end otsingumootorite abil võivad muutuda populaarsemaks loomulikes otsingutulemustes) ja poliitilised (nt otsingu tulemuste kustutamine, et olla vastavuses kohalike seadustega) protsessid[14]. Üheks näiteks, kus otsingutulemusi üritatakse mõjutada poliitilistel, sotsiaalsetel või ärilistel põhjustel, on "Google Bombing"[15].

Veebiämblik[muuda | redigeeri lähteteksti]

Veebiämblik on robotprogramm, mis otsib veebis kindla ja korrapärase meetodiga uusi veebidokumente ja lisab leitud tulemused erinevatesse andmebaasidesse. Nimetuse on programm saanud selle järgi, et see ronib veebis ringi, nii nagu ämblik oma võrgul. Paljud otsingumootorite saidid kasutavad veebiämblikke, et tagada uusima info näitamine otsingutulemustes. Kiirete otsingutulemuste saamiseks kasutatakse veebiämblikke, mis teevad külastatud lehtedest koopia, mida saab hiljem töödelda. Ämblikke võib kasutada veebilehtedel automaatseteks hooldustöödeks nagu linkide kontrollimine või HTML-koodi kinnitamine. Lisaks võib neid kasutada ka veebilehtedelt kindla info leidmiseks, näiteks kogutakse e-posti aadresse spämmi saatmise eesmärgil.

Tööpõhimõte[muuda | redigeeri lähteteksti]

Veebiämblikel on alguses nimekiri URL-idest, mida nad peavad külastama. Iga kord, kui ta külastab ühte URL-i, tuvastab see kõik lehel olevad hüperlingid ja lisab need oma URL-ide nimekirja. Kõiki linke külastatakse kindlate reeglite järgi ja veebiämbliku käitumine oleneb nende reeglite kooskõlast:[16]

  • valikureegel, mis määrab, milliseid lehti alla laadida.
  • taaskülastusreegel, mis määrab, millal kontrollida lehtedes toimunud muudatusi.
  • viisakusreegel, mis määrab, kuidas vältida lehtede ülelaadimist.
  • paralleelsusreegel, mis määrab, kuidas kooskõlastada ämblikevahelist tööd.

Ämblike näiteid[muuda | redigeeri lähteteksti]

Nimekiri avalikest veebiämblikest:

  • Yahoo! Slurp Yahoo Searchi ämblik.
  • Bingbot Microsoft Bingi veebiämblik, mis asendas Msnboti.
  • FAST Crawler[17] on jagatud ämblik, mida kasutab Fast Search & Transfer.
  • Googlebot[18] Google'i ämblik, viite kirjeldus on ämbliku vanemast versioonist, mis oli kirjutadud C++ ja Pythoniga.
  • PolyBot[19] on jagatud ämblik kirjutatud C++ ja Pythoniga, mis koosneb "ämbliku haldurist", ühest või rohkemast "tõmbajast" ja ühest või rohkemast "DNSi lahendajast".
  • RBSE[20] oli esimene avaldatud veebiämblik. See põhines kahel programmil: esimene programm, "spider" haldas järjekorda suhtelises andmebaasis ja teine programm "mite", oli modifitseeritud www ASCII brauser, mis laadis veebist lehti.
  • WebCrawlerit[21] kasutati, et luua esimene veebi alamhulga avalikult kasutatav täis-teksti indeks.
  • World Wide Web Worm[22] oli esimene ämblik, mida kasutati lihtsa dokumendi nimede ja URL-ide nimekirja loomiseks.
  • WebRACE[23] on Javas teostatud roomav ja salvestav moodul, mida kasutatakse osana üldisemast süsteemist eRACE.[24]

Vaata ka[muuda | redigeeri lähteteksti]

NETI

Otsingumootoritele optimeerimine

Viited[muuda | redigeeri lähteteksti]