Kahendotsing

Allikas: Vikipeedia
Väärtuse 12 otsimise näide, kus nool näitab keskmist elementi ja iga sinine riba on üks alamvahemik, millest väärtust otsiti

Kahendotsing ehk binaarotsing on otsingualgoritm, mis võtab sisendiks sorteeritud järjendi ja otsitava väärtuse ning väljastab väärtuse asukoha järjendis või teatab, et seda väärtust järjendis ei leidu. Algoritmi alguses võetakse vahemikuks, millest väärtust otsitakse, terve järjend, ning igal sammul otsitakse väärtust edasi alamvahemikust, milles on algse vahemiku keskmisest elemendist kas kõik väiksemad või kõik suuremad elemendid. Alamvahemik valitakse selle järgi, kas otsitav väärtus on väiksem või suurem kui algse vahemiku keskmine element. Kui vahemiku keskmine element on võrdne otsitava väärtusega, siis see väärtus on leitud. Kui aga vahemik on tühi, siis otsitavat väärtust järjendis ei leidu. [1]

Kahendotsingu poolt ühe väärtuse leidmiseks sooritatav võrdluste arv on halvimal juhul , kus on järjendi elementide arv ning tähistab asümptootilist hinnangut. Otsingu käigus algoritmi kasutatava mälu hulk ei muutu. See on üldjuhul optimaalne väärtuse otsimiseks sorteeritud järjendist võrdluste abil, mis tuleneb võrdlemistega sorteerimise ajalise keerukuse alumisest piirist . [1][2]

On palju kahendotsinguga sarnaseid algoritme, näiteks eksponentsiaalne otsing, mille sisend võib olla piiramatu (dünaamiliselt genereeritud) suurusega. Kahendotsingupuud ja B-puud on samuti tihedalt seotud kahendotsinguga.

Algoritmi kirjeldus[muuda | muuda lähteteksti]

Olgu järjendi J mõne vahemiku esimese, keskmise ja viimase elemendi nullipõhised indeksid vastavalt e, k ja v ning otsitav väärtus o. Kahendotsingust võib olla lihtsam aru saada rekursiivsel kujul, kus alamvahemikust saab korduvalt algne vahemik:

   funktsioon kahendotsing(o, J, e, v):
       Kui e > v:
           J ei sisalda o
   
       k = alumine_täisosa((e + v) / 2)
       Kui o < J[k]:
           tagasta kahendotsing(o, J, e, k - 1)
       Kui o > J[k]:
           tagasta kahendotsing(o, J, k + 1, v)
       tagasta k

(Reaalarvu alumine täisosa on suurim täisarv, mis ei ole sellest reaalarvust suurem.) Algsest vahemikust [e, v] saab sõltuvalt väärtustest o ja J[k] kas [e, k-1] või [k+1, v]. Kui järjendi J elementide arv on n, siis tervest järjendist väärtuse otsimiseks kutsume funktsiooni vahemikuga [0, n-1]:

kahendotsing(o, J, 0, n-1). [1]

Tuleb märkida, et rekursiivne versioon kahendotsingust võib kasutada mälu, mitte optimaalse konstantse mälu hulga, kui funktsiooni pinumälu ei vabastata enne rekursiivset väljakutset (tail call optimization). Selle tõttu võib olla efektiivsem iteratiivne versioon: [1]

   funktsioon kahendotsing(o, J):
       e = 0
       v = n - 1
       Korda:
           Kui e > v:
               J ei sisalda o
       
           k = alumine_täisosa((e + v) / 2)
           Kui o < J[k]:
               v = k - 1
           Muidu kui J[k] < o:
               e = k + 1
           Muidu:
               tagasta k

Korrektsus[muuda | muuda lähteteksti]

Näitame, et kui otsitav väärtus leidub järjendis, siis see on alati vahemikus, kust kahendotsing otsib seda. Algses vahemikus on kõik järjendi elemendid, nii et kui otsitav väärtus leidub, siis see peab olema nende hulgas. Kui väärtus leidub vahemikus [e, v] keskmise elemendiga J[k] ja on suurem keskmisest elemendist, siis see peab olema suurem ka kõikidest elementidest vahemikus [e, k], sest järjend on sorteeritud ning elemendid vahemikus [e, k] on väiksemad keskmisest elemendist või võrdsed sellega. Analoogiliselt, kui otsitav väärtus on väiksem keskmisest elemendist, siis see peab olema väiksem ka kõikidest elementidest vahemikus [k, v], mis on omakorda keskmisest elemendist suuremad või sellega võrdsed. Järelikult uus vahemik, kus võib leiduda otsitava väärtus, on vastavalt kas [k+1, v] või [e, k-1], mis ongi vahemik, kus kahendotsing jätkub. Matemaatilise induktsiooni järgi otsib kahendotsing alati väärtust vahemikust, kus ta leidub, kui järjend sisaldab seda väärtust.

Lisaks näeme, et vahemikud [e, k-1] ja [k+1, v] mõlemad sisaldavad vähem elemente kui eelmine vahemik [e, v], mistõttu vahemik, kus kahendotsing toimub, läheb pidevalt väiksemaks ning muutub tühjaks lõpliku aja jooksul, kui väärtust ei leita enne seda. Järelikult lõpetab kahendotsing alati töö lõpliku aja jooksul. [1]

Keerukus[muuda | muuda lähteteksti]

Kahendotsing sooritab ühe väärtuse leidmiseks halvimal juhul võrdlust, kus tähistab alamtäisosa. [1]

on vähim võimalik võrdluste arv halvimal juhul algoritmi jaoks, mis otsib sorteeritud järjendist ühe väärtuse võrdluste abil. Kui oleks selline algoritm, mis kasutaks vähem kui võrdlust, siis selle abil saaks sorteerida elemendiga järjendit vähem kui võrdlusega halvimal juhul, mis on tegelikult võimatu. Selleks teeme uue järjendi , mis on alguses tühi, ning sisestame sellesse ühekaupa kõik järjendi elemendid nii, et see jääks sorteerituks. Kui järjendisse on juba sisestatud elementi, siis leiame hüpoteetilise otsingualgoritmi abil vähem kui võrdlusega koha, kuhu sisestada J[m], nii et järjend jääks sorteerituks – teatame ebaõnnestunud otsingu lõpus koha, kust väärtust viimasena otsiti. Kui oleme korranud seda indeksist kuni , siis on sorteeritud, sest igal sammul me säilitasime selle elementide järjekorda, ning sisaldab kõiki järjendi elemente, mistõttu oleme sorteerinud järjendit . Me kasutasime võrdlusi ainult sisestamise koha leidmiseks, mistõttu võrdluste arv on kokku vähem kui

sest logaritmide summa on korrutise logaritm ning Stirlingi valemi kohaselt. Tegelikult see on võimatu, mistõttu kahendotsing kasutab optimaalset võrdluste arvu halvimal juhul. [2]

Saame otsemini näidata optimaalsust vaadeldes otsingualgoritme, millel on võimalikku tulemust ning mis kasutavad nendeni jõudmiseks ainult kahe võimaliku tulemusega otsuseid. Kahendotsing on selline algoritm, sest see kasutab tulemuse valimiseks ainult võrdluseid, millel on kaks võimalikku tulemust – üks väärtus on teisest väiksem või mitte – ning kahendotsingul on võimalikku tulemust, sest tulemus on kas väärtuse indeks või et väärtus ei leidu. See tähendab, et iga otsingualgoritm on alguses ühes olekus ning peab lõpus olema sõltuvalt sisenditest ühes erinevast olekust. See vastab puule, mille tipud on algoritmi olekud ning lõigud on olekumuutused, mis võivad toimuda pärast mõnda otsust. Puu on tsükliteta, sest algoritm lõpetab iga sisendi puhul töö lõpliku aja jooksul. Puu on kahendpuu ehk igal tipul on kas 0 või 2 last, sest algoritm lõpetab töö või teeb järgmise tipuni jõudmiseks kahe võimaliku tulemusega otsust. Juurtipp on tipp, kus algoritm alustab töö. On olemas tee juurtipu ja iga lehe vahel, sest algoritmi alguses on võimalikud kõik tulemust. Algoritmi otsuste arv halvimal juhul on maksimaalne lõikude arv teel juurtipu ja mõne lehe vahel. Käesoleva lehega kahendpuu puhul lõikude arv teel on väikseim, kui puu on tasakaalus, ja on vähemalt . Järelikult otsuste arv ehk võrdlustega otsimise puhul vähim võrdluste arv halvimal juhul on vähemalt . [3]

Informatsiooniteoreetiliselt tähendab see, et algoritm saab iga otsusega ühe bitti informatsiooni juurde ning tulemus – kahendotsingu puhul indeks – sisaldab bitti informatsiooni, mistõttu tulemuse saamiseks on vaja vähemalt otsust. [3]

Võrdlus teiste algoritmidega[muuda | muuda lähteteksti]

Eksponentsiaalne otsing on sarnane kahendotsinguga, aga alustab otsimist vahemikust [0, 1] ja kahekordistab vahemiku viimase elemendi indeksit kuni vahemik sisaldab otsitavat väärtust või teatab, et järjend ei sisalda seda väärtust. Kui vahemik sisaldab väärtust, siis seda leitakse kahendotsinguga. Eksponentsiaalne otsing kasutab halvimal juhul rohkem võrdlusi kui kahendotsing, kuid võib olla efektiivsem, kui otsitav väärtus on tihti järjendi alguses.

Kahendotsingupuud ja B-puud kasutavad sarnaselt kahendotsinguga võrdlusi elementide välistamiseks, mis on kas kõik väiksemad või suuremad mõne tipu väärtusest. Kui puu on tasakaalus, siis sellesse väärtuse sisestamise ajalise keerukuse hinnang on halvimal juhul, mis on väiksem kui sorteeritud järjendisse sisestamise ajalise keerukuse hinnang halvimal juhul. Samas kui puu ei ole tasakaalus, siis see võib kasutada ühe väärtuse otsimisel kuni võrdlust halvimal juhul.

Erinevalt eelmistest andmestruktuuridest kasutavad paisktabelid võrdluste asemel paiskfunktsiooni ja põrgete tõrjet väärtuse otsimiseks. Paiskfunktsiooni sisenditeks on väärtused, mida sisestame paisktabelisse – need ei pea olema arvud, vaid võivad olla ka näiteks sõned – ja väljunditeks on indeksid paisktabelisisesesse järjendisse. Paisktabelist väärtuse leidmiseks kulub keskmiselt konstantne aeg ning ideaalse paiskamise korral kulub ka halvimal juhul konstantne aeg. See on võimalik, sest kui paisktabelis on elementi, siis paiskfunktsioon teeb sisuliselt võimaliku tulemusega otsust ühekorraga, erinevalt kahendotsingust, mis teeb iga võrdlusega ainult kahe võimaliku tulemusega otsust. Samas paisktabeli efektiivsus sõltub tugevalt paiskfunktsiooni valikust ning kui ideaalne paiskamine ei ole võimalik, siis ühe väärtuse otsimise ajalise keerukuse hinnang võib olla kuni halvimal juhul.

Viited[muuda | muuda lähteteksti]

  1. 1,0 1,1 1,2 1,3 1,4 1,5 Donald Knuth (1998). Sorting and Searching. The Art of Computer Programming. 3. Reading, MA: Addison-Wesley Professional. Lk 409-413.
  2. 2,0 2,1 Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein (2009). Introduction to algorithms. MIT Press. Lk 191-193.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  3. 3,0 3,1 Jeff Erickson (2014). "Lecture 28: Lower Bounds" (PDF). Originaali (PDF) arhiivikoopia seisuga 2017-12-09. Vaadatud 2018.01. {{netiviide}}: kontrolli kuupäeva väärtust: |Kasutatud= (juhend)

Välislingid[muuda | muuda lähteteksti]