Zipfi reegel
Zipfi reegel (ka Zipfi seadus, Zipfi needus[1], Zipfi kõver[2], Zipfi kurv[1]) on kõiki loomulikke keeli iseloomustav omadus, mille kohaselt koosneb tekst peamiselt väikesest hulgast sageli korduvatest sõnadest ja suurest hulgast väikse tekstisisese esinemissagedusega sõnadest ehk väike arv kõige sagedamini esinevatest sõnadest katab suure osa sõnavarast.[3][1]
Kirjeldus
[muuda | muuda lähteteksti]Reegel on seotud minimaalse pingutuse printsiibiga ehk kui inimene teeb korduvalt valikuid, otsustab ta mingi väikese hulga alternatiivide kasuks, aga suuremat hulka alternatiividest kasutab väga harva. See reegel teeb keele omandamise lihtsamaks.[4]
Kõige sagedasema sõna esinemissagedus on kaks korda nii kõrge kui sageduselt teisel sõnal jne – korpuse kõige sagedasem sõna esineb sada korda sagedamini kui sajandal kohal asuv sõna.[1]
Skaala on pidev, sageduste vähenemine jätkub kahaneva kiirusega ja skaala teises otsas on ülisagedased "grammatilised" sõnad, mida on üsna vähe, aga iga sellise korduvus väga suur (eesti keeles nt. ja, ei, või, et, kui jne). Vähemalt skaala põhiosas vastab leksika sagedusjaotus ligikaudu reeglile x2y = const., kus x on sõna kordumiste arv tekstilõigus ja y näitab, mitu sõna tekstilõigus seda korduvusastet ilmutab.[5]
Zipfi seadus on lingvistikas üks domineerivamaid jaotuslikke tunnuseid, mis tähendab näiteks seda, et tõhusaks keeleõppeks tasub arvestada sõnasagedusega –keeleõppijal tasub omandada esmajoones väike hulk keeles sagedamine esinevaid sõnu.[1]
Ajalugu
[muuda | muuda lähteteksti]Nähtust kirjeldas statistilise lingvistika üks rajajaid, George Kingsley Zipf oma raamatus "The Psycho-Biology of Language" 1935. aastal.[2][5] Samas ei ole ta pidanud end esimeseks seaduspära leidjaks ja sama reeglit on teised autorid varem täheldanud: 1913. aastal kirjeldas saksa füüsik Felix Auerbach proportsioonide suhet linnade suuruse ja elanikkonna arvukuse vahel. Zipfi reeglit on kirjeldanud ka Jean-Baptiste Estoup 1916. aastal, G. Dewey 1923. aastal,[6] ja E. Condon 1928. aastal[7].
Valdkonnad
[muuda | muuda lähteteksti]Reegel laieneb mitmetele teistelegi valdkondadele peale keele: näiteks majandus, geograafias, meedia, muusika, bioloogia ja mujal.[8][9][10]
- Zipfi reegli järgimine on tuvastatud küürvaalade suhtlushäälitsustes ning järeldatud, et see on nende suhtluskultuuris sääraselt arenenud, et uutel populatsiooniliikmetel oleks seda lihtsam õppida.[4]
Vaata ka
[muuda | muuda lähteteksti]Viited
[muuda | muuda lähteteksti]- ↑ 1,0 1,1 1,2 1,3 1,4 Kirt, Riin (2013). "Tasakaalus korpusel põhinevad sagedusloendid ja korpuse sõnavara ning „Eesti keele seletava sõnaraamatu" märksõnaloendi võrdlus". Magistritöö, Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Arvutilingvistika eriala. Vaadatud 11.02.2025.
- ↑ 2,0 2,1 "ETERA - e-terast tärkab mõte!". www.etera.ee. Vaadatud 11. veebruaril 2025.
- ↑ "Sissevaateid folkloori lühivormidesse: ptk. 5". www.folklore.ee. Vaadatud 11. veebruaril 2025.
- ↑ 4,0 4,1 Magazine, Smithsonian; Bassi, Margherita. "Humpback Whale Song Shares a Key Pattern With Human Language That Might Make It Easier for the Animals to Learn". Smithsonian Magazine (inglise). Vaadatud 11. veebruaril 2025.
- ↑ 5,0 5,1 "Sissevaateid folkloori lühivormidesse: ptk. 4". www.folklore.ee. Vaadatud 11. veebruaril 2025.
- ↑ Dewey, Godfrey (1923). Relative Frequency of English Speech Sounds. Harvard University Press – cit. via Internet Archive.
- ↑ Condon, E.U. (1928). "Statistics of vocabulary". Science. 67 (1733): 300. Bibcode:1928Sci....67..300C. DOI:10.1126/science.67.1733.300. PMID 17782935.
- ↑ Sandmo, Agnar (2015). The Principal Problem in Political Economy. Handbook of Income Distribution. Kd 2. Lk 3–65. DOI:10.1016/B978-0-444-59428-0.00002-3. ISBN 978-0-444-59430-3.
- ↑ Li, Wentian (2002). "Zipf's Law Everywhere". Glottometrics. Vaadatud 11.02.2025.
- ↑ Gabaix, Xavier (1999). "Zipf's Law for Cities: An Explanation". The Quarterly Journal of Economics. 114 (3): 739–767. ISSN 0033-5533.