FASTQ formaat

Allikas: Vikipeedia

Bioinformaatikas on FASTQ formaat laiendus originaalsest FASTA formaadist, mis sisaldab lisainformatsiooni aminohapete või nukleotiidide järjestuse kohta. See on kõige tavalisem väljundformaat sekvenaatoritest. FASTQ formaat on sarnane FASTA formaadile, ent esinevad teatud erinevused süntaksis ja FASTQ formaadis on integreeritud ka kvaliteediskoor.[1] Kvaliteediskoor igale alusele saadakse PHRED tarkvara abil, mille ühik on logaritmiliselt seotud vea tõenäosusega. Et kvaliteediskoor oleks kergelt loetav ja töödeldav, kasutatakse PHRED puhul ASCII karaktereid. [2]

Iga järjestus peab sisaldama vähemalt 4 rida:

1- Järjestuse päis (kirjelduse rida), kus kasutatakse “>” asemel “@”

  • Kõik tähed “@” sümbolist kuni esimese tühikuni loetakse järjestuse identifikaatoriteks
  • Kõik tähed pärast esimest tühikut loetakse järjestuse lisakirjelduseks

2- Teine rida on järjestus

3- Kolmas rida algab tavaliselt “+” sümboliga ning võib uuesti sisaldada järjestuse identifikaatorit (kuid tavaliselt mitte)

4- Neljandal real on kvaliteediskoorid [1] 

Näide FASTQ formaadis järjestusest: [3]

@MM123:002:FC123AB:3:2208:3330:9840 2:Y:18:ATCACG
AGGATACTAGCATAGATACCCTAGATAGTCATAGATCATGATAGGGAGATCTA
+
IJJJJJJIIIIIJIIIIIFFEEEEEEDDDDDDCABBBBB@@00))))*(*&%!

Viited[muuda | muuda lähteteksti]

  1. 1,0 1,1 "FastQ Format". NGS Analysis (Ameerika inglise). 7. detsember 2017. Vaadatud 27. jaanuaril 2024.
  2. Cock, Peter J. A.; Fields, Christopher J.; Goto, Naohisa; Heuer, Michael L.; Rice, Peter M. (16. detsember 2009). "The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants". Nucleic Acids Research (inglise). 38 (6): 1767–1771. DOI:10.1093/nar/gkp1137. ISSN 0305-1048. PMC 2847217. PMID 20015970.{{ajakirjaviide}}: CS1 hooldus: PMC vormistus (link)
  3. "FASTQ File Format". Zymo Research International (inglise). 24. november 2021. Vaadatud 27. jaanuaril 2024.