找回密码
 立即注册

QQ登录

只需一步,快速开始

北京生命科学研究院赵方庆课题组发布新的基因预测方法

2017-3-10 00:42| 发布者: 搜索2| 查看: 3553| 评论: 0

摘要: 当缺乏密切相关的参考基因组时,大多数的基因预测方法检测的是来自转录组组件的编码序列。这些方法的应用有限,因为高的转录本片段和广泛的组装错误,可能会导致多余的或错误的编码序列预测。11月17日在国际学术期刊 ...
当缺乏密切相关的参考基因组时,大多数的基因预测方法检测的是来自转录组组件的编码序列。这些方法的应用有限,因为高的转录本片段和广泛的组装错误,可能会导致多余的或错误的编码序列预测。

11月17日在国际学术期刊《Genome Biology》发表的一项研究中,来自中科院北京生命科学研究院的研究人员,提出了一种方法——inGAP-CDG,可以利用基于密码子的de Bruijn图表,构建来自未组装转录组的完整长度的和非冗余的编码序列,从而简化了组装过程。这项研究的通讯作者是中科院北京生命科学研究院的赵方庆研究员。对于有参考基因组的物种来说,通常是用基于同源性的方法来预测功能基因,这可能通过将靶序列对准到近缘种的原始基因,来识别基因。

然而,参考数据库只代表一小部分现有的物种,从而限制了这些方法的使用。因此,依赖于已知参考基因组的基因预测方法,限制了我们对于新物种的功能性理解。当缺乏相关的参考基因组时,利用组装基因组序列的从头预测方法,从本质上说是比较困难的——由于训练数据集的质量。另外,可以基于从头转录组组装来进行基因预测,这可大大降低数据集的大小,并增加获得的功能性信息。

然而,这些方法都受到从头转录组组装质量的限制。

因此,一种典型的转录组组装,可能会导致大量的片段碎片、冗余和含有错误的转录本。因此,来自组装转录本的同源基因数据集通常是不完整的、支离破碎的和冗余的,经常包含错误和异构体,从根本上歪曲了分子系统分析中对于直系同源的根本假设。为了克服这个困难,并增加转录组数据集的效用,该研究小组开发了inGAP-CDG,这种算法可执行来自未组装转录组的基因构建。

相比较以前的方法,inGAP-CDG可预测直接来自于未组装读数的开放阅读框(ORFs),利用一种监督式的支持向量机制(SVM),来过滤假阳性OPFs,并采用一种新型的基于密码子的de Bruijn图表,将纯化的OPFs组装成全长的CDSs。使用模拟的和真实的数据集,该研究小组证明,inGAP-CDG可显著提高基因识别的长度和精确度。inGAP-CDG是用C++实现的,并且源代码及完整文档是免费获取的:https://sourceforge.net/projects/ingap-cdg。


鲜花

握手

雷人

路过

鸡蛋

最新评论

QQ|关于我们|医维基|网站地图|Archiver|手机版|医疗之家 ( 沪ICP备2023001278号-1 )

GMT+8, 2025-6-6 20:42 , Processed in 0.268061 second(s), 18 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

返回顶部