Andmepunktide lähendamine

Allikas: Vikipeedia
Näide andmete lähendamise kohta: katsepunktideks (näidatud punasena) on hapnikuga seotud hemoglobiini osakaal hapniku eri kontsentratsioonidel ning mudelfunktsiooniks (näidatud mustana) on nn Hilli võrrand. Andmed pärinevad 1910. aastal avaldatud originaalpublikatsioonist (autoriks Archibald Hill).[1][2]

Andmepunktide lähendamine on andmeanalüüsi viis, mille puhul eksperimentaalsel või ennustusliku modelleerimise teel saadud andmete väärtused (punktid) kantakse graafikule ning leitakse eelnevalt defineeritud matemaatilise funktsiooni jaoks sellised parameetrid, et funktsioon läbiks punkte võimalikult väikese kõrvalekaldega. Andmepunktide lähendamiseks mudelfunktsioonidele võib kasutada näiteks lineaarset või mittelineaarset regressiooni ning lähendamise kvaliteeti hinnatakse näiteks prognoosijääkide ruutude summa või korrelatsioonikordaja väärtuse alusel. Mudelfunktsiooni valik eeldab teadmisi mõõdetava või modelleeritava protsessi füüsikalisest olemusest.[3][4][5]

Näide sellest, kuidas siinus-funktsiooni punkte (näidetud mustadena) on võimalik lokaalselt lähendada teiste funktsioonidega ning funktsiooni vabadusastmete lisamisel lähendamise kvaliteet paraneb. Graafiku x-teljel on nurk kraadides. Punane joon - sirge; roheline joon - ruutfunktsioon; oranž joon - kuupfunktsioon; sinine joon - neljandat järku polünoom.

Mudelfunktsiooni vabadusastmete arv (st parameetrite arv, mille väärtusi lähendamisel optimeeritakse) peab andmepunktide lähendamisel olema piiritletud. Suure vabadusastmete arvuga funktsioon lähendab etteantud andmepunkte praktiliselt alati paremini kui väiksema vabadusastmete arvuga funktsioon. Samas kaasneb vabadusastmete arvu suurenemisega ka üleparametriseerimise oht (st veel ühe andmepunkti lisamisel olemasolevale valimile ilmneb mudeli suutmatus prognoosida katsesüsteemi või modelleeritava süsteemi tegelikku käitumist).[6][7]

Andmepunktide lähendamise kaudu teostatakse andmeanalüüsi mitmetes loodus- ja tehnikateadustes, meditsiiniteadustes[8] ning ka sotsiaalteadustes (sh majandusteaduses[9]). Näiteks:

Analoogselt saab lähendada ka mitme muutuja varieerimisel saadud katsepunkte. Sel juhul tuleb punktid kanda mitte kahemõõtmelisele (st xy-tüüpi), vaid enamate mõõtmetega graafikule ning lähendamisel kasutatav võrrand kirjeldab sel juhul mitte joont, vaid pinda.[13][14]

Andmete lähendamiseks kasutatakse tänapäeval mitmeid statistilisi tarkvarasid (nt MATLAB) ja pakette (nt R või Pythoni keeles scikit-learn).[15][16]

Viited[muuda | muuda lähteteksti]

  1. "PROCEEDINGS OF THE PHYSIOLOGICAL SOCIETY: January 22, 1910". The Journal of Physiology (inglise). 40 (suppl). 1910. DOI:10.1113/jphysiol.1910.sp001386. ISSN 0022-3751.
  2. Finlay, David B.; Duffull, Stephen B.; Glass, Michelle (2020). "100 years of modelling ligand-receptor binding and response: A focus on GPCRs". British Journal of Pharmacology. 177 (7): 1472–1484. DOI:10.1111/bph.14988. ISSN 1476-5381. PMC 7060363. PMID 31975518.
  3. Käärik, Ene (2013). "E-kursuse "Andmeanalüüs II" materjalid" (PDF). Tartu Ülikool. Vaadatud 11.11.2023.
  4. Motulsky, H. J.; Ransnas, L. A. (1987). "Fitting curves to data using nonlinear regression: a practical and nonmathematical review". FASEB journal: official publication of the Federation of American Societies for Experimental Biology. 1 (5): 365–374. ISSN 0892-6638. PMID 3315805.
  5. "Evaluating Goodness of Fit - MATLAB & Simulink". www.mathworks.com. Vaadatud 11. novembril 2023.
  6. "How Neural Networks Escape Perils of Overparameterization". Harvard Brain Science Initiative (Ameerika inglise). Vaadatud 11. novembril 2023.
  7. Balawejder, Maciej (24. oktoober 2022). "Overfitting in Deep Learning: What Is It and How to Combat It?". Medium (inglise). Vaadatud 11. novembril 2023.
  8. Betti, Matthew I.; Heffernan, Jane M. (2021). "A simple model for fitting mild, severe, and known cases during an epidemic with an application to the current SARS-CoV-2 pandemic". Infectious Disease Modelling. 6: 313–323. DOI:10.1016/j.idm.2021.01.002. ISSN 2468-0427. PMC 7833529. PMID 33521406.
  9. "Comparative Statics". saylordotorg.github.io. Vaadatud 11. novembril 2023.
  10. "5.2: Methods of Determining Reaction Order". Chemistry LibreTexts (inglise). 24. november 2013. Vaadatud 11. novembril 2023.
  11. Johnson, Kenneth A. (2019). "New standards for collecting and fitting steady state kinetic data". Beilstein Journal of Organic Chemistry. 15: 16–29. DOI:10.3762/bjoc.15.2. ISSN 1860-5397. PMC 6334795. PMID 30680035.
  12. Lavogina, Darja; Lust, Helen; Tahk, Maris-Johanna; Laasfeld, Tõnis; Vellama, Hans; Nasirova, Naila; Vardja, Markus; Eskla, Kattri-Liis; Salumets, Andres; Rinken, Ago; Jaal, Jana (25. märts 2022). "Revisiting the Resazurin-Based Sensing of Cellular Viability: Widening the Application Horizon". Biosensors. 12 (4): 196. DOI:10.3390/bios12040196. ISSN 2079-6374. PMC 9032648. PMID 35448256.
  13. Kern, Steven E.; Xie, Guoming; White, Julia L.; Egan, Talmage D. (2004). "A response surface analysis of propofol-remifentanil pharmacodynamic interaction in volunteers". Anesthesiology. 100 (6): 1373–1381. DOI:10.1097/00000542-200406000-00007. ISSN 0003-3022. PMID 15166554.
  14. Oqielat, M. N. (1. aprill 2019). "Surface fitting methods for modelling leaf surface from scanned data". Journal of King Saud University - Science. 31 (2): 215–221. DOI:10.1016/j.jksus.2017.03.008. ISSN 1018-3647.
  15. "Nonlinear Data-Fitting - MATLAB & Simulink". www.mathworks.com. Vaadatud 11. novembril 2023.
  16. The Comprehensive R Archive Network. "Fitting the Michaelis-Menten Model". Vaadatud 11.11.2023.