Otsingumootor

Allikas: Vikipeedia

Otsingumootor ehk otsimootor on arvutiprogramm (tavaliselt otsinguprogrammide-andmebaaside süsteem), mille väljundi abil saab veebis infot kiiremini leida. Otsimootor otsib kindlate tunnustega andmeid veebist ja FTP-serveritest.[1] Päringu vastused esitatakse nimekirjana, mis võib koosneda viidetest veebilehtedele, piltidele, dokumentidele, videotele jt objektidele võrgus. Mõned otsingumootorid kaevandavad andmeid võrku ühendatud andmebaasidest või avatud loenditest. Erinevalt veebiregistritest–portaalidest, mida hooldavad toimetajad, uuendavad otsingumootorid infot reaalajas jooksutades veebiämblikutel algoritme.[2]

Ajalugu[muuda | redigeeri lähteteksti]

Ajaline järjestus
Aasta Nimi Praegune staatus
1993 W3Catalog Suletud
Aliweb Suletud
JumpStation Suletud
1994 WebCrawler Aktiivne
Go.com Aktiivne, Yahoo Search
Lycos Aktiivne
1995 AltaVista Yahoo! poolt üle võetud
Daum Aktiivne
Magellan Suletud
Excite Aktiivne
SAPO Aktiivne
Yahoo! Aktiivne,
1996 Dogpile Aktiivne
Inktomi Yahoo! poolt üle võetud
HotBot Aktiivne (lycos.com)
Ask Jeeves Aktiivne (ask.com)
1997 Northern Light Aktiivne
Яндекс Aktiivne
1998 Google Aktiivne
MSN Search Aktiivne Bingina
1999 AlltheWeb Suletud (URL ümbersuunatud Yahoo!-le)
GenieKnows Aktiivne, ümber nimetatud Yellowee.com-ks
Naver Aktiivne
Teoma Aktiivne
Vivisimo Suletud
2000 Baidu Aktiivne
Exalead Ülevõetud Dassault Systèmes poolt
2002 Inktomi Yahoo! poolt üle võetud
2003 Info.com Aktiivne
2004 Yahoo! Search Aktiivne
A9.com Suletud
Sogou Aktiivne
2005 AOL Search Aktiivne
Ask.com Aktiivne
GoodSearch Aktiivne
SearchMe Suletud
2006 wikiseek Aktiivne
Quaero Aktiivne
Ask.com Aktiivne
Live Search Aktiivne Bingina
ChaCha Aktiivne
Guruji.com Aktiivne
2007 wikiseek Suletud
Sproose Suletud
Wikia Search Suletud
Blackle.com Aktiivne
2008 Powerset Microsofti poolt üle võetud
Picollator Suletud
Viewzi Suletud
Boogami Aktiivne
LeapFish Suletud
Forestle Aktiivne
VADLO Aktiivne
Duck Duck Go Aktiivne
2009 Bing Aktiivne
Yebol Aktiivne
Search2.net Aktiivne
Mugurdy Suletud
Goby Aktiivne
2010 Yandex Aktiivne
Cuil Suletud
Blekko Aktiivne
Yummly Aktiivne
Solusee Aktiivne
2011 Interred Aktiivne
2013 Aoohe Aktiivne

Veebi algsaegadel kasutati veebiserverite loetelu, mida toimetas Tim Berners-Lee ja majutas CERN-i serveris. 1992 aastast on alles ka üks ajalooline pilt[3] Kuna internetti tekkis järjest kiiremini uusi veebiservereid, ei suutnud see loetelu enam kasvuga sammu pidada. NCSA lehel teavitati uutest serveritest pealkirja "What's New!" (ingl. k. "Mida uut!")[4] all.

Esimene tööriist, mida kasutati internetis otsimiseks, oli Archie. Nimi tähendas "archive" (ingl.k. arhiiv) ilma "v"-ta. Selle lõid 1990. aastal Alan Emtage, Bill Heelan ja J. Peter Deutsch, arvutitehnika õpilased McGill-i ülikoolist Montréalis. Programm laadis alla registri nimekirjad kõikidest failidest, mis asusid avalikes FTP võrgukohtades, luues failinimedega otsitava andmebaasi. Archie ei indekseerinud lehtede sisu, sest andmemahud olid piiratud, samas võis andmeid lihtsalt leida.

Gopheri loomine 1991 a. Mark McCahilli poolt avas tee kahele uuele otsinguprogrammile: Veronica ja Jughead. Sarnaselt Archie'le otsisid nad failinimesid ja pealkirju, mis olid salvestatud Gopheri indeksisüsteemidesse. Veronica võimaldas märksõnaotsingut enamikule Gopheri menüü pealkirjadele terves Gopheri nimekirjas. Jughead oli tööriist, mille abil võis leida menüü infot kindlatest Gopheri serveritest. Kuigi otsingumootori Archie nimi polnud viide Archie koomiksiseeriale[5], said Veronica ja Jughead nimed selle seeria tegelaste järgi ja viitasid niimoodi oma eelkäijale.

1993. aasta suvel ei olnud veebi jaoks ühtegi otsingumootorit, mitmeid spetsiaalseied katalooge hallati käsitsi. Oscar Nierstrasz Geneva Ülikoolist kirjutas seeria Perli skripte, mis perioodiliselt peegeldasid neid lehti ja taaskirjutasid nad standardsesse formaati, mis moodustas aluse W3Catalog-ile. See oli veebi esimene primitiivne otsingumootor ning lasti välja 2. septembril 1993 aastal.[6]

1993. aasta juunis lõi Matthew Gray arvatavasti esimese veebiroboti, Perli baasil loodud World Wide Web Wandereri ja kasutas seda Wandexi nimelise indeksi loomiseks. Wandereri eesmärgiks oli mõõta veebi suurust, mida see tegi kuni hiliste 95dateni. Veebi teine otsingumootor ALiweb ilmus 1993a novembris. Aliweb ei kasutanud veebirobotit, vaid sõltus hoopis veebilehtede adminide teavitustest iga lehe olemasolu kohta.

JumpStation (ingl. k. HüppeJaam) kasutas veebirobotit veebilehtede leidmiseks ja selle indeksi ehitamiseks ning kasutas veebiankeeti kasutajaliidesena oma päringu programmina. See oli seega esimene WWW ressursi avastamise vahend, milles olid liidetud kolm põhilist otsingumootori omadust (roomamine, indekseerimine ja otsimine). Kuna platvormil, millel see jooksis, olid piiratud ressursid, piirdus selle indekseerimine ja seega ka otsimine pealkirjadega lehtedega, mida ämblik oli külastanud.

Üks esimesi „täis-teksti“ ämbliku baasil toimivaid otsingumootoreid oli WebCrawler (ingl. k. VeebiÄmblik), mis tuli välja 1994 aastal. Erinevalt oma eelkäijatest lasi see oma kasutajatel otsida iga sõna igal veebilehel, mis on sellest ajast saadik muutunud standardiks kõigile otsingumootoritele. See oli ka üks esimesi otsingumootoreid, mis sai tuntuks laiema avalikkuse ees.

Peagi loodi veel mitmed otsingumootorid, mis konkureerisid omavahel populaarsuse pärast. Nende seas olid Magellan, Excite, Infoseek, Inktomi, Northern Light ja AltaVista. Yahoo! oli üks populaarseimaid viise inimestele huvi pakkuvate veebilehtede leidmiseks, kuid selle otsingufunktsioon toimis enda veebiregistril täis-tekst lehtede koopiate asemel. Info otsijad said vaadata ka registrit otsingusõnal baseeruva otsingu asemel.

1996. aastal tahtis Netscape anda ühele otsingumootorile eksklusiivse lepingu, millega see muutuks kaasasolevaks otsingumootoriks Netscape'i brauseril. Huvi selle vastu oli nõnda suur, et Netscape tegi tehingu viie suurema otsingumootoriga. 5 millioni dollari eest aastas olid Netscape'i otsingulehel ringluses erinevad mootorid. Need viis olid Yahoo!, Magellan, Lycos, Infoseek ja Excite.[7]

Otsingumootoreid peeti ka eredamateks tähtedeks 1990ndate lõpus aset leidnud internetti investeerimise hulluses.[8] Mitmete firmade turule sisenemine läks suurepäraselt, nad said avalikel pakkumistel rekordilisi tulusid. Mõned võtsid maha oma avalikud otsingumootorid ja turustasid ainult ettevõtetele mõeldud versioone nagu Northern Light.

2000. aasta paiku tõusis tippu Google'i otsingumootor. Firma saavutas paremaid tulemusi innovatsiooniga PageRank. See korduv algoritm hindab veebilehti PageRank-numbri alusel. Eeldatakse, et headele ja nõutud lehtedele lingitakse teistelt veebisaitidelt rohkem kui teistele. Google säilitas oma otsingumootoris ka minimalistliku kasutajaliidese, vastandina mitmetele konkurentidele, kelle otsingumootor oli veebiportaali sisse ehitatud.[viide?]

2000 aastal hakkas Yahoo! kasutama otsingutulemuste saamiseks Google'it. Yahoo! hankis endale Inktomi 2002. ja Overture 2003. aastal. 2004 tuli ta välja omaenda otsingumootoriga, milles olid ühendatud Yahoo!'le kuuluvate rakenduste tehnologiad.[viide?]

Microsoft lasi MSN Search-i välja 1998. aasta sügisel, kasutades Inktomi otsingutulemusi. 1999. aasta alguses hakkas leht näitama loetelusid Looksmartist, mis olid kokku segatud tulemustega Inktomist.[viide?] 2004 alustas Microsoft üleminekut enda otsingutehnoloogiale.[viide?] Microsofti taasmärgistatud otsingumootor Bing avati 1. juunil 2009. aasta kasutamiseks.[viide?] 29. juulil lõpetasid Yahoo! ja Microsoft lepingu, mille kohaselt hakkab Yahoo! Search toimima Microsoft Bing tehnoloogia baasil.[viide?]

Kuidas otsingumootor toimib[muuda | redigeeri lähteteksti]

Tavalise veebiämbliku kõrge-taseme arhitektuur (ingl. k.)

Otsingumootor toimib sellises järjekorras:

  1. Veebis „roomamine”
  2. Indekseerimine, st sorteerimine, analüüsimine, markeerimine jne
  3. Päringutele sobivate vastuste otsimine

Otsingumootorid toimivad salvestades infot mitmete veebilehtede kohta, mille nad otsivad välja html-ist endast. Need lehed leitakse veebiämbliku abil – see on automatiseeritud veebibrauser, mis järgib igat linki lehel. Erandeid saab teha robots.txt abil. Seejärel analüüsitakse iga lehe sisu, misjärel otsustatakse, kuidas seda indekseerida. Andmeid veebilehtede kohta hoitakse indeksi andmebaasides, et kasutada hilisemates päringutes, mis võib olla ka ühe sõna pikkune. Indeksi eesmärk on lubada info võimalikult kiiret leidmist. Mõned otsingumootorid, nt Google, salvestavad kas kõik või osa allika lehest ja ka infot veebilehtede kohta. Teised, nagu AltaVista, salvestavad iga sõna igalt lehelt, mis nad leiavad. Selliselt salvestatud leht omab tegelikku otsingumootori teksti, sest see oli see, mis tegelikult indekseeriti. Sellest on kasu, kui lehte on uuendatud ja otsingusõnu pole seal enam näha. Lehtede salvestamine võimaldab otsingu suurt täpsust, sest need võivad sisaldada andmeid, mida enam kusagil mujal ei leidu.

Kui kasutaja sisestab otsingumootorisse päringu, siis mootor uurib oma indekseid ja tagastab nimekirja parima sobivusega veebilehtedest vastavalt oma sisule, tavaliselt lühikese kokkuvõttega dokumendi pealkirjast ja mõnikord lõiguga tekstist. Indeks ehitatakse üles informatsioonist, mis salvestatakse koos andmetega vastavalt info indekseerimismeetodile. Kahjuks pole hetkel ühtegi avalikku otsingumootorit, mis lubaks faile otsida kuupäeva alusel. Enamik otsingumootoreid toetavad konnektorite JAH, VÕI ja EI kasutamist, et võimaldada täpsema päringu esitamist. Konnektorid lubavad kasutajal muuta ja laiendada otsingutingimusi. Mootorid otsivad sõnu või fraase täpselt nii, nagu need sisestati. Mõned otsingumootorid pakuvad arenenud võimalust, mis lubab kasutajal määrata võtmesõnade vahelist kaugust. On ka ideelisi otsinguid, kus uurimine sisaldab statistilise analüüsi kasutamist lehtedel, mis sisaldavad sõnu või fraase, mida otsitakse. Loomuliku keele päringud lubavad kasutajal sisestada küsimuse nõnda, nagu seda küsitaks teiselt inimeselt, üks selline sait on näiteks ask.com.

Otsingumootori tõhusus sõltub otsingutulemuste asjakohasusest. Kuigi teatud sõna või fraasi sisaldavaid lehekülgi on miljoneid, on mõned neist asjakohasemad, populaarsemad või usaldusväärsemad kui teised. Enamik otsingumootoreid kasutab meetmeid tulemuste järjestamiseks, et tuua „parimad“ tulemused ettepoole. See, kuidas mootorid otsustavad, millised vasted on parimad ja millises järjekorras neid näidata, sõltub mootorist endast. Meetodid muutuvad aja jooksul samamoodi, nagu muutub interneti kasutamine ja tekivad uued tehnikad. Põhiliselt on olemas kahte tüüpi otsingumootoreid: üks on süsteem kindlaksmääratud ja hierarhiliselt järjestatud otsingusõnadega, mida on laialdaselt programmeeritud. Teine süsteem loob tagurpidi indeksi, analüüsides leitavat teksti ning toetub tugevamalt arvutile, mis teeb ära suurema osa tööst.

Enamik otsingumootoreid on äriprojektid, mis teenivad tulu reklaami müügiga. Reklaamiandjad maksavad, et enda lehekülge otsingutulemuste seas kõrgemale tõsta. Otsingumootorid, mis tulemusi raha eest ei järjesta, teenivad, näidates oma tavatulemuste kõrval otsingutulemustega seotud reklaame. Otsingumootor teenib raha iga kord, kui keegi avab ühe sellise reklaami.

Turuosa[muuda | redigeeri lähteteksti]

Google'i ülemaailmne turuosa jõudis tippu 2010. aasta aprillis 86.3% juures.[9] Otsingumootorid nagu Yahoo!, Bing jt on populaarsemad Ameerikas kui Euroopas. Hitwise'i kohaselt oli 2011 oktoobris Ameerikas Google'i turuosa 65.38%, Bingil ja Yahool 28.62% ja ülejäänud 66 otsingumootorit jäid 6% sisse. Kuigi juulis mõõdetud otsingute õnnestumismääras, kus kasutaja oli veebilehte külastanud, oli Yahool ja Bingil üle 80 protsendi tulemustest, kui Google'i määr oli alla 68 protsendi.[10] 2009 juulis Hiina Rahvavabariigis oli 61.6% turuosast Baidu käes.[11]

Otsingumootorite kallutatus[muuda | redigeeri lähteteksti]

Kuigi otsingumootorid on programmeeritud reastama veebilehti nende populaarsuse ja asjakohasuse alusel, siis kogemustel põhinevatest uurimustöödest on näha, et neis leidub erinevaid poliitilisi, majanduslikke ja sotsiaalseid eelarvamusi[12][13]. Need eelarvamuste põhjuseks võivad olla majanduslikud, ärilised (nt. firmad, mis reklaamivad end otsingumootorite abil võivad muutuda populaarsemateks loomulikes otsingu tulemustes) ja poliitilised (nt. otsingu tulemuste kustutamine, et olla vastavuses kohalike seadustega) protsessid[14]. Üheks näiteks, kus otsingutulemusi üritatakse mõjutada poliitilistel, sotsiaalsetel või ärilistel põhjustel, on "Google Bombing"[15].

Veebiämblik[muuda | redigeeri lähteteksti]

Veebiämblik on robotprogramm, mis otsib veebis kindla ja korrapärase meetodidga uusi veebidokumente ja lisab leitud tulemused erinevatesse andmebaasidesse. Oma nimetuse on programm saanud selle järgi, et see ronib veebis ringi, nii nagu ämblik oma võrgul. Paljud otsingumootorite saidid kasutavad veebiämblikke, et tagada uusima info näitamine otsingutulemustes. Kiirete otsingutulemuste saamiseks kasutatakse veebiämblikke, mis teevad külastatud lehtedest koopia, mida saab hiljem töödelda. Ämblikke võib kasutada veebilehtedel automaatseteks hooldustöödeks nagu linkide kontrollimine või HTML-koodi kinnitamine. Lisaks võib neid kasutada ka veebilehtedelt kindla info leidmiseks, näiteks e-mailide kogumine spämmi saatmise eesmärgil.

Tööpõhimõte[muuda | redigeeri lähteteksti]

Veebiämblikel on alguses nimekiri URL-idest, mida ta peab külastama. Iga kord, kui ta külastab ühte URL-i, tuvastab see kõik lehel olevad hüperlingid ja lisab need oma URL-ide nimekirja. Kõiki linke külastatakse kindlate reeglite alusel ning veebiämbliku käitumine oleneb nende reeglite kooskõlast:[16]

  • valiku reegel, mis määrab, milliseid lehti alla laadida.
  • taaskülastamise reegel, mis määrab, millal kontrollida lehtedes toimunud muudatusi.
  • viisakuse reegel, mis määrab, kuidas vältida lehtede ülelaadimist.
  • paralleelsuse reegel, mis määrab, kuidas kooskõlastada ämblike vahelist tööd.

Näiteid ämblikest[muuda | redigeeri lähteteksti]

Nimekiri avalikest veebiämblikest:

  • Yahoo! Slurp Yahoo Searchi ämblik.
  • Bingbot Microsoft Bingi veebiämblik, mis asendas Msnboti.
  • FAST Crawler[17] on jagatud ämblik, mida kasutab Fast Search & Transfer.
  • Googlebot[18] Google'i ämblik, viite kirjeldus on ämbliku vanemast versioonist, mis oli kirjutadud C++ ja Pythoniga.
  • PolyBot[19] on jagatud ämblik kirjutatud C++ ja Pythoniga, mis koosneb "ämbliku haldurist", ühest või rohkemast "tõmbajast" ja ühest või rohkemast "DNSi lahendajast".
  • RBSE[20] oli esimene avaldatud veebiämblik. See põhines kahel programmil: esimene programm, "spider" haldas järjekorda suhtelises andmebaasis ja teine programm "mite", oli modifitseeritud www ASCII brauser, mis laadis veebist lehti.
  • WebCrawlerit[21] kasutati, et luua esimene veebi alamhulga avalikult kasutatav täis-teksti indeks.
  • World Wide Web Worm[22] oli esimene ämblik, mida kasutati lihtsa dokumendi nimede ja URL-ide nimekirja loomiseks.
  • WebRACE[23] on Javas teostatud roomav ja salvestav moodul, mida kasutatakse osana üldisemast süsteemist eRACE.[24]

Vaata ka[muuda | redigeeri lähteteksti]

NETI

Otsingumootoritele optimeerimine

Viited[muuda | redigeeri lähteteksti]