基于新算法NAAKV的细菌病毒进化分析和真核生物编码区识别

随着高通量测序技术的快速发展,生物数据的规模得以提升。从这些生物学数据中挖掘出有用的信息不仅可以更好地揭示生命的本质,而且还能够为疾病的预防、诊断等提供重要的理论支持。本文从DNA序列和氨基酸序列的统计特征出发,分析了核苷酸和氨基酸间的关联,提出了一种全新的非序列比对算法——核苷酸-氨基酸k字符串向量(Nucleotide Amino Acid K-mer Vector,NAAKV),并把这个向量应用于细菌病Medication reconciliation毒的全基因组进化分析和真核生物编码区的识别。首先,将DNA序列转换为特定的氨基酸序列(Pseudo Amino Acid Sequence,PAAS)。其次,统计PAAS中k字符串的种类和频数,构造出相应的特征向量NAAKV。PAAS中的k字符串种类数远远低于标准氨PEG300化学结构基酸序列,由此降低了NAAKV的维度,提高了运算效率。经过验证,在5个数据集的基因分类上,NAAKV比MUSCLE、经典的k字符串法更准确高效,为物种的进化分析提供了有力支持。此外,将NAAKV与概率统计方法逻辑回归结合生成组合模型。选取HMR195和BG570两个真核生物基准数据集进行五折交叉验证,结果显示平均AUC值LY-188011研究购买分别为0.9813和0.987 4,明显优于传统的贝叶斯判别法和VOSSDFT等方法,证明本文提出的新算法NAAKV也可应用于真核生物编码区的预测。