本发明属于生物信息领域,涉及一种DNA测序数据的标准存储方式FASTQ格式文件无损压缩的方法。首先,将原FASTQ文件按序列进行提取,第三行丢弃。然后,将提取的序列按照行重新生成新的文件,分别为保存第一行的序列标志文件、保存第二行的序列数据文件和保存第四行的质量评分文件。其次,对第二步生成的三个文件分别利用进行压缩处理:对序列数据文件进行压缩、对质量评分文件进行压缩、将序列标志文件进行处理之后再进行压缩。最后,对第三步生成的压缩文件,用tar将其压缩为一个文件,并且删除中间过程文件。通过本发明方法可以对下一代测序技术产生的海量DNA测序数据进行经济性存储和快速传输。
声明:
“FASTQ格式文件无损压缩的方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)