FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。
该格式最初由维尔康姆基金会桑格研究所开发,旨在将FASTA格式序列及其质量数据整合在一起。而目前,FASTQ格式已经成为了保存高通量测序结果的事实标准。[1]
格式
FASTQ文件中,一个序列通常由四行组成:
- 第一行以@开头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)
- 第二行为序列信息
- 第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)
- 第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同
以下为一个包含单个序列的FASTQ文件示例:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
其中!为最低质量、~则为最高质量。以下字符从左到右代表从低到高的质量得分的:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
字符与对应的ASCII码如下:
最初桑格研究所的FASTQ格式允许序列与质量信息分成多行保存。但一般不推荐采用这种方式,因为第一、第三行开头的@与+符号同样也可能出现在质量信息中,可能会造成信息提取的困难。
参见
参考文献
- ^ Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137.
|
---|
| 数据库 | - 测序数据库:GenBank、European Nucleotide Archive(英语:European Nucleotide Archive)、日本DNA数据库(DDBJ)
- 辅助数据库:UniProt, database of protein sequences grouping together Swiss-Prot, TrEMBL 和 蛋白质信息资源(英语:Protein Information Resource)
- 其它数据库:蛋白質資料庫, Ensembl, 和InterPro(英语:InterPro)
- 专项基因组数据库:酵母基因组数据库(英语:Saccharomyces Genome Database)、FlyBase(英语:FlyBase)、VectorBase(英语:VectorBase)、PomBase、WormBase(英语:WormBase)、PHI-base(英语:PHI-base)、拟南芥信息资源(英语:The Arabidopsis Information Resource)与斑马鱼信息网(英语:Zebrafish Information Network)
|
---|
| 软件 | - BLAST
- Bowtie
- Clustal
- EMBOSS(英语:EMBOSS)
- HMMER(英语:HMMER)
- MUSCLE
- SAMtools(英语:SAMtools)
- TopHat(英语:TopHat (bioinformatics))
|
---|
| 其它 | - 服务器:ExPASy(英语:ExPASy)
- 本体论:基因本体
|
---|
| 机构 | |
---|
| 文件格式 | - FASTA格式
- FASTQ格式
- 斯德哥尔摩格式(英语:Stockholm format)
|
---|
| 有关议题 | |
---|
| - 分类
- 维基共享
|
|