Kasutaja:ATamme98/Laiendatud ASCII

Allikas: Vikipeedia
Laiendatud ASCII üks versioon Cygwin keskkonnas

Väljend laiendatud ASCII viitab 8-bitisele või suuremale märgikodeeringule, mis sisaldab lisaks standardse 7-bitise ASCII kõikidele tähemärkidele veel tähemärke. Väljendit laiendatud ASCII on kritiseeritud tema mitmetimõistetavuse pärast.[1][2][3] Selle all ei mõelda ASCII-koodi standardi muutust, mis sisaldaks rohkem kui 128 tähemärki. Eksisteerib erinevaid laiendatud ASCII vorme.

Motiiv[muuda | muuda lähteteksti]

ASCII loodi 1960ndatel telegraafside ja teletaipide jaoks, osalt ka varaste arvutite jaoks. Tolleaegsed teletaibid olid elektromehaanilised, ei omanud mikroprotsessorit ja vaid tööks vajaliku hulga elektromehaanilist mälu. Nad töötlesid ühe tähemärgi korraga, naastes peale seda koheselt vaikeolekusse. Selleaegsed teletaibid olid kirjutusmasinast tuletatud löökprinterid, mis suutsid printida ainult kindla valiku tähemärke. Siiski oli 7-bitine ASCII edusamm varasematest 5-ja 6-bitistest koodidest: üks olulisi muutusi oli väiketähtede kasutusvõimalus.

ASCII koosneb 95 prinditavast tähemärgist(94 glüüfi ja tühik). See sisaldab inglise tähestiku suur- ja väiketähti, numbreid ja 31 lausevahemärki ja sümbolit: kõik vajalik, et edasi anda ükskõik millist ingliskeelset informatsiooni. Prinditavate tähemärkide arv hoiti sihilikult väike, et teletaipide hinnad jääksid madalaks. Osad mudelid kasutasid veelgi väiksemat, 64 prinditava tähemärgiga varianti, jättes välja harvemini kasutatavad sümbolid.

7-bitiline ASCII kood sisaldab hädavaevu tavakasutuseks piisava hulga tähemärke. Üleüldiseks kasutuseks oleks vaja veel hulgaliselt sümboleid ja teistes tähestikes kasutatavaid tähti. Vaja oleks ka täiendavaid lausevahemärke, tühikuid, tehtemärke ja programmeerimiskeelte jaoks tarvilikke sümboleid.

Muudetud versioone ASCII koodist hakkas ilmuma koheselt, kus vähekasutatud sümbolid olid välja vahetatud nõutumate sümbolite ja tähtedega, näiteks Inglismaa teletaipides asendati "#" naelsterlingu sümboliga.

Suurema tähemärkide arvu kasutuselevõttu takistas suutmatus kokku leppida selles, milline see universaalne "laiendatud ASCII" olema peaks. Abiks polnud ka vajaliku riistvara puudumine. Selle asemel keskenduti olemasolevale ja üritati paremaks teha nii 64 kui 95 tähemärgiga varianti.

Kui arvutitel ja lisaseadmetel muutusid standardseks 8-bitised baidid, muutus äkitselt reaalseks võimalus kasutusele võtta suurema tähemärkide arvuga variandid. Arvutite tarkvara toetas nüüdsest 256 tähemärgiga variante, seda olematu lisakuluga nii programmeerimisel kui andmete ladustamisel. 8-bitine tähemärkide hulk sisaldas 256 tähemärki ehk kõik 7-bitise ASCII tähemärgid ja lisaks veel 128 tähemärki.

Tootjad lõid erinevaid versioone 8-bitisest tähemärkide hulgast. 128 uut tähemärki oli arvestatav lisa, kuid jätkuvalt ebapiisav, et sisaldada kasvõi kõikide Euroopa keelte erinevaid tähemärke. Valmisid erinevad variandid 8-bitise tähemärkide hulgaga ASCII koodidest, nii erasektori jaoks kui erinevate riikide jaoks.

Hulk erinevaid variante tähendas, et ühest kodeeringust teise ümberarvestamine oli keeruline ja vigade tekkimine oli lihtne. Ümberarvestamiseks oli vaja kaardistada mõlema variandi tähemärgid. Kui algses variandis oli mingi teatud tähemärk olemas, aga teises variandis, kuhu ümberarvestamine toimus, seda polnud, polnud selle konkreetse tähemärgi ümberarvestamine võimalik.

Erasektori variandid[muuda | muuda lähteteksti]

Erinevad muudetud ja laiendatud versioonid ASCII-st ilmusid nii suurarvutitele kui väiksematele mudelitele, eriti ülikoolides.

Hewlett-Packard lisas paljud Euroopa riikide tähestikes olevad tähed olemasolevale laiendatud 7-bitisele hulgale. Valmis HP Roman Extension, mida kasutati nende printerites ja tööjaamades. See arenes hiljem edasi laialdaselt kasutatavaks 8-bitiseks tähemärkide hulgaks HP Roman-8 ja HP Roman-9.

Ka Atari, Commodore ja Apple lõid omaenda muudatustega variandid.

IBM tutvustas 8-bitist laiendatud ASCII koodi oma algsel personaalarvutil, pakkudes hiljem ka erinevate keelte jaoks kohandatud variante. Nad kutsusid sellised variante kooditabeliteks. Suurema tähemärkide hulgaga variandid tegid võimalikuks mitmekeelsete dokumentide loomise.

Digital Equipment Corporation lõi hargmaise tähemärkide hulga, mis sisaldas küll vähem tähemärke, kuid rohkem tähtede ja eristavate märkide kombinatsioone. See sai hiljem aluseks teistele tähemärkide hulkadele, näiteks Lotus International Character Set(LICS), ECMA-94 ja ISO 8859-1.

Mitmebaidilised märgikodeeringud[muuda | muuda lähteteksti]

Laiendatud ASCII all tuntakse ka märgikodeeringuid, mis saavad hakkama rohkem kui 256 tähemärgiga, kuid sisaldavad jätkuvalt kõiki ASCII tähemärke.

Kasutus teistes arvutikeeltes[muuda | muuda lähteteksti]

Programmeerimiskeeltes ja arvutikeeltes on oluline laiendatud ASCII ühtsete põhimõtete jälgimine. See lubab erinevatest kodeeringutest teistesse teksti ümber arvestada, ilma et tekiks suuri vigasid. Laiendatud ASCII põhimõtted on:

  • kõik ASCII baidid peavad tähendama igas laiendatud ASCII variandis samu asju
  • baite, mis pole ASCII baidid, võidakse kasutada vaba teksti edasi andmiseks, aga mitte teatud variandile omaste kindla tähendusega märksõnade edasi andmiseks.

Viited[muuda | muuda lähteteksti]

  1. Benjamin Riefenstahl (26. veebruar 2001). "Re: Cygwin Termcap information involving extended ascii charicters". cygwin.
  2. S. Wolicki (23. märts 2012). "Thread: Print Extended ASCII Codes in sql*plus".
  3. Mark J. Reed (28. märts 2004). "vim: how to type extended-ascii?".