Räsifunktsioon

Allikas: Vikipeedia

Räsifunktsioon (inglise hash function) on krüptograafias kasutatav ühesuunaline funktsioon tekstistringide kodeerimiseks[1].

Räsifunktsiooni kasutatakse assotsiatiivsete massiivide ülesehituseks, andmekogumite seeriates duplikaatide otsimiseks, unikaalsete identifikaatorite (andmekogumite jaoks) ülesehituseks, kontroll-liitmiseks kogemata või meelega pandud (säilimisel või ülekandmisel) vigade leidmise eesmärgil, ka kaitsesüsteemide paroolide säilitamiseks (sel juhul ligipääs sellele mälukohale, kus asuvad paroolid, ei lase taastada parooli ennast).

Üldjuhul ühemõttelist vastavust lähteandmete ning räsikoodi vahel pole seetõttu, et räsifunktsiooni tähenduste arv on väiksem, kui sisendmassiivi variantide arv; on olemas palju massiive erineva sisuga, mis annavad samu räsikoode - siis on tegemist nn. kollisioonidega. Kollisioonide tekkimise tõenäosus mängib suurt rolli räsifunktsioonide kvaliteedi hindamisel.

On olemas palju erinevate omadustega (arvutuse raskus, krüpteerimiskindlus jne) räsimisalgoritme. Ühe või teise räsifunktsiooni valik oleneb lahendatava ülesande eripärast.

Ajalugu[muuda | redigeeri lähteteksti]

Donald Knuth peab esimese räsimissüsteemi idee autoriks IBMi kaastöötajat Hans Peter Luhni, kes pakkus välja kodeerimise räsimise abil jaanuaris 1953. Arnold Dumey esitas oma 1956. aasta töös "Arvutid ja automatiseerimine" esimesena räsimise kontseptsiooni sellisena, nagu enamik programmeerijatest seda tänapäeval tunneb. Dumey nägi räsimises "sõnaraamatu probleemi" lahendust ning pakkus välja idee kasutada räsiaadressiks algarvuga jagamise jääki.

Esimeseks tõsiseks tööks, mis tegeles otsimisega suurtest failidest, oli W. Wesley Petersoni 1957. aasta artikkel, milles ta käsitles avalikku adresseerimist ning osutas tootlikkuse halvenemisele kustutamisel. Kuus aastat hiljem avaldati Werner Buchholzi töö, milles on läbi viidud räsifunktsioonide põhjalik uurimine. Mitme järgmise aasta jooksul kasutati räsimist küll laialdaselt, kuid ei avaldatud ühtegi olulist uurimust.

1967. aastal mainis räsimist kaasaegses tähenduses Herbert Hellerman oma raamatus "Numbriliste arvutisüsteemide põhimõtted". 1968. aastal avaldas Robert Morris räsimisest põhjaliku ülevaate ning seda tööd peetakse võtmepublikatsiooniks, mis viis räsimise mõiste teaduskeelde ning kinnistas seni vaid spetsialistide argoos kasutatud terminit "räsi".

1990. aastate alguseni kasutati venekeelses kirjanduses tänu Andrei Jeršovi töödele termini "räsimine" ekvivalendina sõna "järjestus", ning kollisioonide jaoks kasutati terminit "konflikt". Tänapäeval on jäänud vaid sõna "räsimine".

Räsifunktsioonide liigid[muuda | redigeeri lähteteksti]

Hea räsifunktsioon peab vastama kahele tingimusele:

  • olema kiiresti arvutatav;
  • minimeerima kollisioonide arvu.

Määratletuseks oletame, et võtmete arv on K, ja räsifunktsioonil h(K) on mitte rohkem kui M erinevaid tähendusi:

0<h(k)<M

Halva räsifunktsiooni näitena võib tuua funktsiooni M=1000, mis kümnekohalisele naturaalarvule K vastastab kolm numbri K kahekümnenda ruudu keskelt valitud arvu. Tundub, et räsikoodide tähendused peaksid ühtlaselt jaotuma «000» ja «999» vahel, kuid reaalsete andmete jaoks sobib selline meetod vaid juhul, kui võtmetel pole suurt nullide arvu vasakul ja paremal.[2]

On ka mitu lihtsamat ja kindlamat meetodit, mida kasutavad paljud räsifunktsioonid.

Jagamisele rajatud räsifunktsioonid[muuda | redigeeri lähteteksti]

Esimene meetod seisneb selles, et me kasutame räsina jagamise M-ga jääki, kus M on kõikide võimalike räside arv:

h(K) = K \mod M

Seejuures on ilmselge, et paaris-M puhul funktsiooni tähendus on ka paarisarvuline, paaris-K puhul, ning paaritu - paaritu puhul, mis võib viia failiandmete olulise nihutuseni. Samuti ei tasu kasutada M-na arvuti arvutamise aluse astet, kuna räsikood sõltub ainult K arvu mitmetest paremal asuvatest numbritest, mis viib suure kollisioonide arvuni. Praktikal tavaliselt valitakse hariliku (alg-) M - enamikul juhtudest selline valik on täitsa rahuldav.

Veel tasuks mainida räsimise meetodit, mis on rajatud mooduliga kaks jagamisele polünoomile. Antud meetodi puhul M peab samuti olema kahe aste, ning binaarvõtid (K=k_{n-1}k_{n-2}...k_{0}) on kujutatud polünoomidena. Sel juhul räsikoodina võetakse tegurite tähendusi polünoomist, mis on saadud nagu jääk K jagamisest eelnevalt valitud polünoomiga P astmes m:

K(x) \mod P(x) = h_{m-1}x^{m-1}+h_{1}x+h_{0}
 h(x)=h_{m-1}...h_{1}h_{0}

Õigesti valitud P(x) puhul selline viis tagab kollisioonide peaaegu sarnaste võtmete vahel puudumise.Mall:Snf

Räsimise multiplikaatne skeem[muuda | redigeeri lähteteksti]

Teine meetod seisneb mingi terve konstandi A, mis on vastastikult harilik w-ga, valimises, kus w on masinsõna abil esindatavate tähenduste arv (IBM PC arvutites see on 2^{32}). Siis võib võtta järgmist räsifunktsiooni:

h(k) = \left[ M \left\lfloor \frac{A}{w}*K \right\rfloor \right]

Sel juhul, kahendsüsteemiga arvutil M on kahe aste ning h(K) koosneb korrutise A*K parempoolsetest vanematest bittidest.

Nende kahe meetodite eeliste hulgas tasub mainida, et nad kasulikul viisil kasutavad seda, et reaalsed võtmed pole juhuslikud, näiteks juhul, kui võtmed kujutavad endast aritmeetilist progressiooni (näiteks nimede «NIMI1», «NIMI2», «NIMI3» järjestust). Multiplikaatne meetod näitab aritmeetilist progressiooni kui erinevate räsitähenduste lähtestatud aritmeetilist progressiooni, mis vähendab kollisioonide arvu võrreldes juhusliku olukorraga.

Selle meetodi üks variatsioonidest on Fibonacci arvu räsimine, mis põhineb kuldlõige omadustel. A arvuna võetakse lähedasemat \varphi^{-1}*w arvule algarvu, mis on vastastikult harilik w-ga.

Muutliku suurusega ridade räsimine[muuda | redigeeri lähteteksti]

Üleval mainitud meetodid on kasutatavad ka sel juhul, kui me peame tegelema võtmetega, mis koosnevad mitmetest sõnadest, või muutliku suurusega võtmetega. Näiteks võib kombineerida sõnad ühte w mooduliga liitmise või "välistav või" operatsiooni abil. Üks algoritmitest, mis töötab sel põhimõttel, on Pearsoni räsifunktsioon.

Mall:Pearsoni räsimine on Peter Pearsoni pakutud algoritm 8-bitiste registritega protsessorite jaoks, mille ülesandeks on suvalise suurusega rea jaoks räsikoodi kiire arvutus. Sisendile funktsioon saab sõna W, mis koosneb n sümbolitest, igaüks 1 baiti suurusega, ning tagastab tähenduse diapasoonis nullist kuni 255-ni. Seejuures räsikoodi tähendus sõltub sisendsõna iga sümbolist.

Algoritmi saab kirjeldada järgmise pseudokoodiga, mis saab sisendile rida W ning kasutab vaheste tabeli T

h := 0
for each c in W loop
  index := h xor c
  h := T[index]
end loop
return h

Algoritmi eeliste hulgas tasub märkida:

  • Arvutuse lihtsust;
  • Pole olemas selliseid sisendandmeid, mille jaoks kollisiooni tõenäosus on suurim;
  • Võimalikkus modifitseerida ideaalseks räsifunktsiooniks.

Võtmete K, mis koosnevad l sümbolitest (K=x_{1}x_{2}...x_{l}), räsimise alternatiivse viisina võib välja pakkuda arvutust

h(K)=(h_{1}(x_{1})+h_{2}(x_{2})+...+h_{l}(x_{l})) \mod M.

Ideaalne räsimine[muuda | redigeeri lähteteksti]

Ideaalseks räsifunktsiooniks (Mall:Lang-en) nimetatakse sellist funktsiooni, mis kujutab iga võtme S komplektist täisarvude hulka ilma kollisioonideta. Matemaatilistes terminites see on injektiivne kujutis.

Kirjeldus[muuda | redigeeri lähteteksti]

  1. Funktsiooni h(k)\colon U\to [m] nimetatakse ideaalseks räsifunktsiooniks S\subseteq U jaoks, kui ta on injektiivne S jaoks;
  2. Funktsiooni h(k)\colon U\to [m] nimetatakse minimaalseks ideaalseks räsifunktsiooniks S\subseteq U jaoks, kui ta on ideaalne räsifunktsioon ning m = n = |S|;
  3. k\ge 1, mis on täisarv, jaoks funktsiooni h(k)\colon U\to [m] nimetatakse k-ideaalseks räsifunktsiooniks (k-PHF) S\subseteq U jaoks, kui iga j\in [m] jaoks meil on |\{x\in S | h(x) = j\}|\le k.

Ideaalset räsimist kasutatakse nendel juhustel, kui me tahame omistada unikaalset identifikaatori võtmele, säilitamata mingitki infot võtme kohta. Üheks kõige ilmselgemaks ideaalse (võib pigem k-ideaalse) räsimise kasutamise näiteks on olukord, kui meil on käsutusel väike kiire mälu, kuhu me paneme selliste räsi võtmete tähendusi, mis on seotud suures, aga aeglases mälus säilitatavate andmetega. Seejuures ploki suurust võib valida selliseks, et vajatavad andmed, mis säilivad aeglases mälus, võivad olla saadud ühe päringuga. Sellist lähenemist kasutatakse, näiteks, aparaatruuterites. Samuti ideaalset räsimist kasutatakse algoritmide töö graafidel kiirendamiseks, neil juhustel, kui graafi kujundus ei mahu põhimälus.

Universaalne räsimine[muuda | redigeeri lähteteksti]

{{|Universaalne räsimine|Universaalseks räsimiseks|en|Universal hashing}} nimetatakse räsimist, mille puhul kasutatakse mitte üht konkreetset räsifunktsiooni, vaid toimub valik antud parvest juhusliku algoritmi järgi. Universaalse räsimise kasutamine tavaliselt tagab väikest kollisioonide arvu. Universaalset räsimist kasutatakse mitmel viisil, näiteks, räsitabelite realiseerimises ning krüptograafias.

Kirjeldus[muuda | redigeeri lähteteksti]

Oletame, et me tahame kujutada võtmed ruumist U arvudesse [m]. Sisendile algoritm saab teatud andmete hulka S\in U suurusega n, kusjuures ta on teadmata ebaselge. Reeglina räsimise eesmärgiks on kollisioonide minimaalse arvu saamine, mida on raske saavutada, kasutades mingit teatud räsifunktsiooni.

Sellise probleemi lahendusena võib valida funktsiooni juhuslikul viisil teatud hulgast (kogusest), mida nimetatakse universaalseks parveks H = \{ h : U \to [m] \}.

Kollisioonitõrje meetodid[muuda | redigeeri lähteteksti]

Nagu mainitud üleval, räsifunktsiooni kollisiooniks nimetatakse selliseid kaht andmete sisendplokki, mis annavad samasuguseid räsikoode.

Räsitabelites[muuda | redigeeri lähteteksti]

Enamus esimetest töödest, mis kirjeldasid räsimist, oli pühendatud kollisioonitõrje meetoditele räsitabelites, kuna räsifunktsioonid olid kasutatud otsimiseks suurtes failides. On olemas kaks meetodit, mida kasutatakse räsitabelites:

  1. Kettide meetod
  2. Avatud aadressi meetod

Esimene meetod seisneb M seotud nimestike toetuses, igaüks iga räsifunktsiooni tähendusele. Nimestikus säilivad võtmed, mis annavad sama räsikoode tähenduse. Üldjuhul, kui meil on N võtmeid ning M nimestikke, räsifunktsiooni keskmine suurus on \frac{N}{M} ning räsimine viib töö keskmise koguse vähenemiseni võrreldes järjestiku otsimisega ligikaudu M korda.

Teine meetod seisneb selles, et tabeli massiivis säilivad paarid võti-tähendus. Sellisel viisil me loobume täiesti linkidest ning lihtsalt vaatleme tabelikirjeid, kuni leiame otsitud võtme K või tühja positsiooni. Järjestust, milles vaadeldakse tabeli lahtreid, nimetatakse proovide järjestikuks.

Krüptograafiline sool[muuda | redigeeri lähteteksti]

On olemas mitu viisi kaitseks paroolide võltsimise eest, mis töötavad isegi siis, kui krüptoanalüütikule on teada antud räsifunktsiooni jaoks antud kollisioonide ehituse viisid. Üheks sellistest meetoditest on krüptograafilise soola (ehk juhuslike andmete rea) lisamine sisendandmetele (vahel "soola" lisatakse räsikoodile), mis oluliselt raskendab lõplike räsitabelite analüüsi. Antud meetodit, näiteks, kasutatakse paroolide säilitamiseks UNIX-taolistes operatsioonisüsteemides.

Räsifunktsioonide kasutus[muuda | redigeeri lähteteksti]

Räsifunktsioone laialt kasutatakse krüptograafias ning samuti paljudes andmestruktuurides - räsitabelites, Blumi filtrites ning Dekarti puudes.

Krüptograafilised räsifunktsioonid[muuda | redigeeri lähteteksti]

Mitmesuguste olevate räsifunktsioonide hulgas on kombekohane eristada krüptograafiliselt kindlaid, mida kasutatakse krüptograafias, kuna neile seatakse lisatingimusi. Selleks, et räsifunktsiooni H võiks pidada krüptograafiliselt kindlaks, ta peab vastama kolmele põhinõudmistele, milledel on rajatud enamik räsifunktsioone kasutusi krüptograafias:

  • Pööramatus: räsifunktsiooni m antud tähenduse jaoks peab olema arvutamise poolest võimatu leida andmeplokk X, mille jaoks H(X)=m.
  • Kindlus esimese liigi kollisioonide suhtes: antud teate M jaoks peab olema arvutamise poolest võimatu leida teist teadet N, mille jaoks H(N)=H(M).
  • Kindlus teise liigi kollisioonide suhtes: peab olema arvutamise poolest võimatu leida paari teateid ~ (M, M'), millel on sama räsi.

Antud nõuded pole sõltumatud:

  • Pöörduv funktsioon pole kindel esimese ja teise liigi kollisioonide suhtes.
  • Funktsioon, mis pole kindel esimese liigi kollisiooni suhtes, pole kindel ka teise liigi kollisiooni suhtes; vastupidine pole õige.

Tasub märkida, et pole tõestatud pöördumatute räsifunktsioonide olemasolu, mille jaoks räsifunktsiooni antud tähenduse mingisuguse prototüübi arvutamine on teoreetiliselt võimatu. Tavaliselt vastupidise tähenduse leidmine on vaid arvutamise poolest keeruline ülesanne.

"Sünnipäevade" atakk lubab leida kollisioone räsifunktsiooni jaoks keskmiselt tähenduste pikkusega n bitti ligikaudu 2^{n/2} räsifunktsiooni arvutustega. Seepärast n-bitine räsifunktsioon on peetud krüptokindlaks, kui tema jaoks kollisioonide leidmise arvutuslik keerulisus on lähedane 2^{n/2}-ni.

Kriptograafiliste räsifunktsioonide jaoks on tähtis ka, et argumendi väikseimagi muutumisega funktsiooni tähendus muutuks oluliselt (laviini efekt). Sealhulgas räsi tähendus ei pea andma info kadumist isegi argumendi omaette bittidest. See nõudmine on krüptokindluse tagatiseks sellistele räsimise algoritmidele, mis räsivad kasutaja parooli võtme saamiseks.

Räsimist tihti kasutatakse digitaalallkirja algoritmides, kus šifreeritakse mitte teadet, vaid selle räsikoodi, mis vähendab arvutamise aega ning suurendab krüptokindlust. Samuti enamikul juhtudest paroolide asemel hoitakse nende räsikoodide tähendusi.

Kontrollsummad[muuda | redigeeri lähteteksti]

Lihtsad, äärmiselt kiired ning kergesti täidetavad aparaadialgoritmid, mida kasutatakse kaitseks ettekavatsemata moonutustest, sealhulgas aparatuuri vigade eest. Matemaatika seisukohast on räsifunktsiooniks selline, mis arvutab sellist kontrollkoodi, mida kasutatakse vigade avastamiseks info edastamisel ning säilitamisel.

Arvutuse kiiruse poolest on kümnete ning sadade kordade kiiremad, kui krüptograafilised räsifunktsioonid, ning oluliselt lihtsamad aparaadi abil teostamise seisukohast.

Sellise kõrge kiiruse tasuks on krüptokindluse puudus - kerge võimalus sobitada teadet eelnevalt teadaolevaks summaks. Samuti on kontrollsummade järgulisus (tüüpiline arv:32 bitti) vähem, kui krüptograafiliste räside omad (tüüpilised arvud: 128, 160 ning 256 bitti), mis tähendab tahtmatute kollisioonide tekkimise võimalust.

Sellise algoritmi lihtsamaks näiteks on teate jagamine 32- või 16-bittisteks sõnadeks ning nende liitmine, mida kasutatakse näiteks TCP/IP-s.

Reeglina sellisele algoritmile esitatakse tüüpiliste aparaadiga sooritatavate vigade jälgimise nõudmiseid. Nõndanimetatud (nn.) tsükliliste üleliigsete koodide algoritmide parv vastab sellistele nõudmistele. Nende hulga võib arvata, näiteks, CRC32, mida kasutatakse Etherneti vahendites ning andmete pakkimise formaadis 2IP.

Kontrollsumma võib näiteks olla kantud üle sidekanali kaudu koos põhitekstiga. Vastuvõtuotsas kontrollsumma võib olla arvutatud üle ning seda võib võrrelda ülekantud (saadetud) tähendusega. Kui on avastatud erinevus, siis see tähendab, et edastamisel tekkisid moonutused ning tuleb veel kord proovida.

Räsimise olmeanaloogiks antud juhul võib olla vastuvõtt, kui ülesõidudel mälus hoitakse pagasi kohtade arvu. Siis kontrolliks pole vaja meelde tuletada igat reisikohvrit, vaid piisab nende ülelugemisest. Klappimine tähendab, et mitte ükski kohver pole kaotatud. Teisiti öeldes, pagasi kohtade arv on selle räsikood. Antud meetodit on lihtne täiendada kaitseks edastatava info võltsimise eest (MAC meetod). Sellisel juhul räsimist teostatakse krüptokindla funktsiooni abil teatele, mis on ühendatud salavõtmega, mida teavad ainult teate saatja ning vastuvõtja. Niimoodi krüptoanalüütik ei saa koodi taastada ülevõetud teate ning räsifunktsiooni tähenduse abil, see tähendab, ta ei saa teadet võltsida.

Geomeetriline räsimine[muuda | redigeeri lähteteksti]

Geomeetriline räsimine on laialt arvutigraafikas ning arvutusgeomeetrias kasutatav meetod lahendamiseks ülesandeid tasapinnal või kolmemõõtmelises ruumis, näiteks lähemate paaride leidmiseks punktide hulgas või sarnaste kujutiste otsimiseks. Räsifunktsioon antud meetodi kasutamisel saab sisendile mingisuguse meetrilise ruumi ning jagab seda, moodustades punktidest koosneva võrgu. Tabeliks antud juhul on massiiv kahe või enam indeksiga ning kannab nime võrgufail (Mall:Lang-en). Geomeetriline räsimine samuti on kasutatud telekommunikatsioonides töötamisel mitmemõõtmeliste signaalidega.

Andmete otsimise kiirendamine[muuda | redigeeri lähteteksti]

Räsitabeliks nimetatakse andmete struktuuri, mis lubab säilitada paare tüüpe (võti, räsikood) ning toetab elemendi otsimise, sisestamise ning eemaldamise operatsioone. Räsitabelite ülesanneks on otsimise kiirendamine, näiteks, tekstiväljade kirjutamisel andmebaasis võib olla arvutatud nende räsikood ning andmed võivad olla pandud jakku, mis ühtib sellise räsikoodiga. Siis andmete otsimisel tuleb kõigepealt arvutada teksti räsikoodi ning on kohe teada, kus (mis jaos) neid tuleb otsid, see tähendab, neid tuleb otsida mitte kogu baasis, vaid selle ühes jaos (see kiirendab otsingut märgatavalt).

Olmeanaloogiks sellisel juhul võib pidada alfabeetilise sõnade järjestust sõnaraamatus. Sõna esimene täht on selle räsikood, ning otsimisel me vaatame üle mitte terve sõnaraamatu, vaid vajalikku tähte.


Vaata ka[muuda | redigeeri lähteteksti]

Viited[muuda | redigeeri lähteteksti]