FASTA formaat

FASTA formaat
Failinimelaiendid	.fasta, .fas, .fa, .fna, .ffn, .faa, .mpfa, .frn
Arendajad	David J. Lipman ; William R. Pearson
Avaldatud	1985
Valdkond	Bioinformaatika
Laiendatud versioon	FASTQ formaat
veebileht	www.ncbi.nlm.nih.gov/BLAST/fasta.shtml

Bioinformaatikas on FASTA tekstipõhine formaat, milles nukleotiidide või aminohapete järjestused esitatakse nendele vastavate ühetäheliste koodide järjestusena. FASTA formaadis järjestus algab ühe kirjeldava koodireaga millele järgnevad read järjestuseandmetega. ^[1] FASTA formaat võimaldab lisada järjestusele täpsustavaid identifikaatoreid. ^[2]

FASTA formaat loodi David J. Lipman ja William R. Pearson’i arendatud FASTA tarkvarapaketi raames, mida kirjeldati esimest korda 1985. aastal.^[3] Sellel põhjusel nimetatakse FASTA formaati alternatiivselt ka Pearson’i formaadiks.

Kirjelduse rida[muuda | muuda lähteteksti]

Kirjelduse rida on FASTA formaadis alati esimene ja seda eristab järjestuseandmetest “suurem-kui” (>) märk rea ees ^[2]. Sõna mis järgneb “>” sümbolile on järjestuse identifikaator. Kindlasti ei tohi olla pärast “>” sümbolit tühikut. Identifikaatorile võivad järgnevad täpsemad kirjeldused või kommentaarid järjestuse kohta, mille lisamine on valikuline. ^[4]

Näide järjestusest kirjeldava reaga ^[2]:

>P01013 GENE X PROTEIN (OVALBUMIN-RELATED)
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
FLFLIKHNPTNTIVYFGRYWSP

NCBI identifikaatorid[muuda | muuda lähteteksti]

Riiklik Biotehnoloogia Infokeskus (ingl k National Center for Biotechnology Information, NCBI) on defineerinud standardid nukleotiidide identifikaatoritele kirjelduse real, mis on unikaalsed ning järgivad spetsiifilisi vormistusnõudeid. Selline identifikaator võimaldab andmebaasist saadud järjestust märgistada viitega andmebaasi registri kohta. Identifikaator algab kahe- või kolmetähelise kombinatsiooniga, millele järgnevad üks või enam andmevälja, mis on algsest tähekombinatsioonist püstkriipsudega eraldatud. ^[5]

NCBI defineeritud identifikaatorid^[5]:

Tüüp	Formaat	Näited
kohalik (puudub andmebaasi viide)	`lcl\|integer` `lcl\|string`	`lcl\|123` `lcl\|hmm271`
GenInfo backbone seqid	`bbs\|integer`	`bbs\|123`
GenInfo backbone moltype	`bbm\|integer`	`bbm\|123`
GenInfo import ID	`gim\|integer`	`gim\|123`
GenBank	`gb\|accession\|locus`	`gb\|M73307\|AGMA13GT`
EMBL	`emb\|accession\|locus`	`emb\|CAM43271.1\|`
PIR	`pir\|accession\|name`	`pir\|\|G36364`
SWISS-PROT	`sp\|accession\|name`	`sp\|P01013\|OVAX_CHICK`
patent	`pat\|country\|patent\|sequence-number`	`pat\|US\|RE33188\|1`
grandieelne patent	`pgp\|country\|application-number\|sequence-number`	`pgp\|EP\|0238993\|7`
RefSeq	`ref\|accession\|name`	`ref\|NM_010450.1\|`
üldine andmebaasi viide (viide andmebaasile mis siit nimekirjast puudub)	`gnl\|database\|integer` `gnl\|database\|string`	`gnl\|taxon\|9606` `gnl\|PID\|e1632`
GenInfo integreeritud andmebaas	`gi\|integer`	`gi\|21434723`
DDBJ	`dbj\|accession\|locus`	`dbj\|BAC85684.1\|`
PRF	`prf\|accession\|name`	`prf\|\|0806162C`
PDB	`pdb\|entry\|chain`	`pdb\|1I4L\|D`
kolmanda osapoole GenBank	`tpg\|accession\|name`	`tpg\|BK003456\|`
kolmanda osapoole EMBL	`tpe\|accession\|name`	`tpe\|BN000123\|`
kolmanda osapoole DDBJ	`tpd\|accession\|name`	`tpd\|FAA00017\|`
TrEMBL	`tr\|accession\|name`	`tr\|Q90RT2\|Q90RT2_9HIV1`

Järjestuse andmed[muuda | muuda lähteteksti]

Kirjelduse reale järgnevad andmed järjestuse kohta. Soovitatavalt on järjestus esitatud kujul, kus on maksimaalselt 80 karakterit rea kohta. Järjestuses ei tohi olla karaktereid, mis standardiseeritud nõuetele ei vasta. Erinevate järjestuste andmeid võib ühes FASTA failis olla mitu, sel juhul peavad nad olema eraldatud uue kirjeldava rea ja “>” sümboliga. ^[2] ^[4]

Järjestused esitatakse standardse Rahvusvahelise Puhta ja Rakenduskeemia Liidu (inglise keelest akronüüm IUPAC) aminohappe ja nukleiinhappe koodivorminduses mõningate eranditega: väikesed tähed on aktsepteeritud, sidekriipsudega märgitakse teadmata pikkusega lünkasid järjestuses ning aminohapete puhul on U ja * aktsepteeritavad tähised. Enne järjestuse esitamist peab numbrid konverteerima kirjatähtedeks või need järjestusest eemaldama (näiteks võib märgistada N teadmata nukleotiidi kohal või X teadmata aminohappejäägi kohal). ^[2]

Failinimelaiendid[muuda | muuda lähteteksti]

FASTA failidel ei ole standardiseeritud failinimelaiendit. Mõned näited enimkasutatud nimelaienditest on “.fasta”, “.fna” või “.txt." ^[4]

FASTQ formaat[muuda | muuda lähteteksti]

FASTQ formaat on laiendus originaalsest FASTA formaadist mis sisaldab lisaks järjestusele ja selle kirjeldusele ka kvaliteediskoori. ^[6]

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]

↑ "FASTA format". zhanggroup.org. Vaadatud 8. jaanuaril 2024.
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 "Query Input and database selection — BlastTopics 0.1.1 documentation". blast.ncbi.nlm.nih.gov. Vaadatud 8. jaanuaril 2024.
↑ Lipman, David J.; Pearson, William R. (22. märts 1985). "Rapid and Sensitive Protein Similarity Searches". Science (inglise). 227 (4693): 1435–1441. DOI:10.1126/science.2983426. ISSN 0036-8075.
↑ ^4,0 ^4,1 ^4,2 "FASTA format". bioinformatics.intec.ugent.be. Originaali arhiivikoopia seisuga 8. jaanuar 2024. Vaadatud 8. jaanuaril 2024.
↑ ^5,0 ^5,1 "NCBI C++ Toolkit Book". ncbi.github.io. Vaadatud 8. jaanuaril 2024.
↑ "FastQ Format". NGS Analysis (Ameerika inglise). 7. detsember 2017. Vaadatud 27. jaanuaril 2024.

[1] "FASTA format". zhanggroup.org. Vaadatud 8. jaanuaril 2024.

[:0-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 "Query Input and database selection — BlastTopics 0.1.1 documentation". blast.ncbi.nlm.nih.gov. Vaadatud 8. jaanuaril 2024.

[3] Lipman, David J.; Pearson, William R. (22. märts 1985). "Rapid and Sensitive Protein Similarity Searches". Science (inglise). 227 (4693): 1435–1441. DOI:10.1126/science.2983426. ISSN 0036-8075.

[:1-4] 4,0 ^4,1 ^4,2 "FASTA format". bioinformatics.intec.ugent.be. Originaali arhiivikoopia seisuga 8. jaanuar 2024. Vaadatud 8. jaanuaril 2024.

[:3-5] 5,0 ^5,1 "NCBI C++ Toolkit Book". ncbi.github.io. Vaadatud 8. jaanuaril 2024.

[6] "FastQ Format". NGS Analysis (Ameerika inglise). 7. detsember 2017. Vaadatud 27. jaanuaril 2024.

[1]

[2]

[3]

[4]

[5]

[6]

Tüüp	Formaat	Näited
kohalik (puudub andmebaasi viide)	`lcl\|integer` `lcl\|string`	`lcl\|123` `lcl\|hmm271`
GenInfo backbone seqid	`bbs\|integer`	`bbs\|123`
GenInfo backbone moltype	`bbm\|integer`	`bbm\|123`
GenInfo import ID	`gim\|integer`	`gim\|123`
GenBank	`gb\|accession\|locus`	`gb\|M73307\|AGMA13GT`
EMBL	`emb\|accession\|locus`	`emb\|CAM43271.1\|`
PIR	`pir\|accession\|name`	`pir\|\|G36364`
SWISS-PROT	`sp\|accession\|name`	`sp\|P01013\|OVAX_CHICK`
patent	`pat\|country\|patent\|sequence-number`	`pat\|US\|RE33188\|1`
grandieelne patent	`pgp\|country\|application-number\|sequence-number`	`pgp\|EP\|0238993\|7`
RefSeq	`ref\|accession\|name`	`ref\|NM_010450.1\|`
üldine andmebaasi viide (viide andmebaasile mis siit nimekirjast puudub)	`gnl\|database\|integer` `gnl\|database\|string`	`gnl\|taxon\|9606` `gnl\|PID\|e1632`
GenInfo integreeritud andmebaas	`gi\|integer`	`gi\|21434723`
DDBJ	`dbj\|accession\|locus`	`dbj\|BAC85684.1\|`
PRF	`prf\|accession\|name`	`prf\|\|0806162C`
PDB	`pdb\|entry\|chain`	`pdb\|1I4L\|D`
kolmanda osapoole GenBank	`tpg\|accession\|name`	`tpg\|BK003456\|`
kolmanda osapoole EMBL	`tpe\|accession\|name`	`tpe\|BN000123\|`
kolmanda osapoole DDBJ	`tpd\|accession\|name`	`tpd\|FAA00017\|`
TrEMBL	`tr\|accession\|name`	`tr\|Q90RT2\|Q90RT2_9HIV1`