Soundex

Allikas: Vikipeedia
Artiklit tuleb tõlkida ja kohandada!


Soundex on ingliskeelse häälduse põhjal nimede indekseerimise foneetiline algoritm. Selle eesmärgiks on kodeerida häälduselt samasugused nimed sama koodiga.[1] Algoritmis arvestatakse peamiselt konsonante. Vokaale kodeeritakse vaid juhul, kui tegu on sõna esimese häälikuga. Soundex on üks populaarsemaid foneetilisi algoritme (osaliselt seetõttu, et seda kasutatakse tuntud andmebaasides nagu IBM Db2, PostgreSQL,[2] MySQL,[3] SQLite,[4] Ingres, MS SQL Server,[5] Oracle[6] ja SAP ASE[7]).

Ajalugu[muuda | muuda lähteteksti]

Soundexi leiutasid Robert C. Russell ja Margaret King Odell[8] ning nad patenteerisid selle 1918. aastal[9] ja 1922. aastal[10]. Selle variatsiooni, Ameerika Soundexi, kasutati 1930. aastatel Ameerika Ühendriikide rahvaloendustel aastatel 1890–1920.

Ameerika Soundex[muuda | muuda lähteteksti]

Ameerika Soundex kood nimele koosneb ühest tähest, millele järgneb kolm numbrit: täht viitab nime esitähele ning numbrit ülejäänud kaashäälikuid. Samas kohas hääldatavatel kaashäälikutel on sama number. Näiteks huulhäälikud nagu /b/, /f/, /p/ ja /v/ märgitakse numbriga 1.

Nime Soundexisse kodeerimise algoritm on järgmine:

  1. Jäta alles nime esitäht
  2. Kustuta ära kõik järgnevad tähed: a, e, i, o, u, y, h, w.
  3. Asenda kaashäälikud numbritega (v.a. nime esitäht):
    • b, f, p, v → 1
    • c, g, j, k, q, s, x, z → 2
    • d, t → 3
    • l → 4
    • m, n → 5
    • r → 6
  4. Kui kaks või enam tähte asuvad järjest ja on sama numbriga, jäta alles esimene täht. Kui kahe sama numbriga kodeeritava tähe vahel on 'h', 'w' või 'y', kodeeritakse need kolm tähte ühe numbriga. Kui aga kahe sama numbriga kodeeritava tähe vahel on täishäälikud, kodeeritakse mõlemad tähed eraldi. See reegel kehtib ka esitähe kohta.
  5. Kui sõna on nii lühike, et sellele ei saa kolme numbrit määrata, lisa lõppu nulle. Kui sõnale tuleb neli või enam numbrit, jäta alles esimesed kolm.
  6. If two or more letters with the same number are adjacent in the original name (before step 1), only retain the first letter; also two letters with the same number separated by 'h' , 'w' or 'y' are coded as a single number, whereas such letters separated by a vowel are coded twice. This rule also applies to the first letter.
  7. If there are too few letters in the word to assign three numbers, append zeros until there are three numbers. If there are four or more numbers, retain only the first three.

Selle algoritmiga on nii "Robert" kui ka "Rupert" kodeeritud kui "R163", samas "Rubin"-i kood on "R150". Nii "Ashcraft" kui ka "Ashcroft" on "A261". "Tymczak" kood on "T522", mitte "T520" (tähed 'z' ja 'k' nimes on kodeeritud eraldi, sest nende vahel on täishäälik "a"). "Pfister" on "P236", mitte "P123" (esimesed kaks tähte on sama numbriga ja seega kodeeritud kui 'P').

Variatsioonid[muuda | muuda lähteteksti]

Sarnane algoritm "Reverse Soundex" ehk pöördsoundex jätab tähena alles nime viimase tähe

NYSIIS algoritm (ingl New York State Identification and Intelligence System) loodi 1970. aastal Soundexi edaiarendusena.

Daitch–Mokotoff Soundexi (D–M Soundex) lõi 1985.aastal genealoog Gary Mokotoff ning seda arendas hiljem edasi geneaoloog Randy Daitch, kuna originaalne, Russelli versioon ei sobinud juudinimedele, millel olid saksa- või venepärased nimed (nt Moskowitz vs Moskovitz või Levine vs Lewin). D-M Soundexit kutsutakse mõnikord juudi soundexiks või ida-euroopa soundexiks[11], kuigi autorid selliseid nimesid ei soovita kasutada. D-M Soundex võib ühele nimele tagastada kuni 32 erinevad foneetilist kodeeringut. D-M Soundexi kodeeringud Russelli Soundexist keerulisemad, täies ulatuses numbrilised ja jäävad vahemikku 100000–999999.

Lawrence Philips leiutas 1990. aastal samamoodi Soudexi puudujääkide tõttu uue foneetilise algoritmi, millele pani nimeks Metaphone. 2000. aastal täiendas Philips oma algoritmi ja nimetas selle Double Metaphone'ks ehk topeltmetaphoneks.

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]

  1. "The Soundex Indexing System". National Archives and Records Administration. 30. mai 2007. Vaadatud 24. detsembril 2010.
  2. "PostgreSQL: Documentation: 9.1: fuzzystrmatch". postgresql.com. Vaadatud 3. novembril 2012.
  3. "MySQL :: MySQL 5.5 Reference Manual :: 12.5 String Functions - SOUNDEX". dev.mysql.com.
  4. "SQL As Understood By SQLite - Core Functions". sqlite.org. Vaadatud 27. jaanuaril 2017.
  5. "SOUNDEX (Transact-SQL)". msdn.microsoft.com. Vaadatud 3. novembril 2012.
  6. "SOUNDEX". docs.oracle.com. Vaadatud 20. oktoobril 2017.
  7. "soundex". SyBooks Online. Vaadatud 24. mail 2021.
  8. Odell, Margaret King (1956). "The profit in records management". Systems. New York. 20: 20.
  9. Mall:US patent reference (Archived)
  10. Mall:US patent reference (Archived)
  11. Mokotoff, Gary (8. september 2007). "Soundexing and Genealogy". Vaadatud 27. jaanuaril 2008.