亚博_研究发现基因组数据库的增长会影响物种的准确性

来源:来自网络 作者:亚博科技前沿资讯网 时间: 2019-03-12 15:07:23

亚博报导:

有许多办法可以切开和切开基因组数据以辨认一种细菌,或许至少找到它的近亲。但莱斯大学的一位计算机科学家标明,对基因组进行测序的快速技能现已充满着公共数据库而且以一种成见的办法,包括了许多关于某些物种的基因组数据,而对其他物种则不行。

研讨发现基因组数据库的增加会影响物种的精确性

Todd Treangen及其搭档测试了分类学分类办法,这些办法将方针细菌的基因组序列与大型数据库中记载的基因组序列进行匹配,以辨认物种。在此过程中,他们拟定了进步精确性和灵敏度的途径。

Treangen是本月宣布在Genome Biology上的一项研讨的资深作者,该研讨标明,在一个广泛运用的联邦数据库 -国家生物技能信息中心的RefSeq中,随时刻的改变怎么影响了宏基因组分类办法的精确性。

宏基因组学专家Treangen(环境样品遗传物质研讨)的首要重视点是坚持快速判定对大众健康构成威胁的细菌的才能。

大数据具有一起的优势,可以做到这一点 - 但它有许多。他说,现在,低成本,高通量的DNA鸟枪测序机从微生物调集中读取短DNA序列,每两到三年就会使RefSeq 的基因组数据翻倍。

我开始以为这些办法的数据总是更好, Treangen说,他本年从马里兰大学高档计算机研讨所参加赖斯。 你会期望没有赏罚,由于数据库的增加是好的。 但是,研讨人员发现,RefSeq中的细菌数据在分类层次的物种水平上具有巨大的影响,而且以惊人的速度增加。

关于将两种常用技能结合起来以断定其发现的研讨人员而言,这是一个问题。一种称为根据k聚体的分类,其经过精确匹配判定来自细菌样品中一切生物的短DNA序列。

大多数使问题在计算上可行的办法依赖于k-mers,它们与长度 k 彻底匹配,或许是数据库中包括的微生物的要害, 他说。 假如次序读取与数据库中的某些内容彻底匹配,那么直觉就是你可以以更高的精度阐明这是什么,而且更方便的计算办法。

他说,一种常用的根据k-mer分类的技能是最低一起先人(LCA)分配。LCA将样本与同享匹配的序列进行比较,假如需求,将它们分配到分类中的更高档别,例如属而不是物种。但他说,关于企图断定病原体的研讨人员来说,这可能不行详细。

事实上,该研讨发现了一种名为Bracken的根据k-mer的分类东西,该东西运用贝叶斯计算来揣度序列的最佳匹配,有助于缓解不平衡。即便如此,它仍难以在数据库中辨认与近亲相关的基因组,但不能完美匹配。

Treangen说,对特定病原体的资金足够的研讨是必要的,而且极大地协助了快速迸发检测和盯梢,但它终究倾向像RefSeq这样的公共数据库。

例如,对食源性病原体存在巨大成见, 他说。 社会期望对沙门氏菌有许多了解,这是天经地义的。美国食物和药物管理局,特别是GenomeTrakr,现已协助对数千种相关病原体进行测序,并将它们直接增加到参阅数据库中。

但是,他说,将参阅数据库倾向特定属和微生物宗族的办法会影响运用k-mer和LCA办法的快速分类学分类东西(如Kraken)的精确性和灵敏度。

Treangen说最近最好的假阳性判定实例是一项开始陈述纽约市地铁炭疽细菌依据的研讨。该研讨根据来自样本的测序基因组,后来进行了修订,以反映过错辨认序列为炭疽芽孢杆菌的错配。

尽管对公共卫生的重视是一个要害的优先事项,但Treangen说,需求可以应对数据库增加和噪声的新技能,以及增加序列基因组的广度,以便在该范畴持续改善。 例如,来自土壤和海洋的微生物严峻欠采样, 他说。 咱们需求持续排序以更好地填充公共数据库,这将终究有助于咱们从杂乱样本中精确分类微生物的才能。

郑重声明:本文版权归原作者一切,转载文章仅为传达更多信息之意图,如有侵权行为,请第一时刻联络咱们修正或删去,多谢。
 本站版权归属-我国基因网-一切,部分文章来源于互联网。如侵权行为请增加QQ:50#570#728进行删去。


亚博 基因生物

亚博|最新推荐