文本内容:
面向系统进化的超级矩阵构树构建技术近年来,一些大型和密集的系统发育大树以下简称“大树”成功建立,分类元数从数千、数千和数十万个到数十万不等本文对特定生物的宏观效应和学术研究等方面的一些问题进行了探讨,如种子进化率、生态生物化学、生物多样性和生态系统过程1ree不正交模型原理上,有两种构建大树的方法,超级矩阵supermatrix和超级树supertree超级矩阵方法是“将众多分类元和特征装配成一个单一的巨大矩阵,进行同时分析”,因此又称“同时分析simultaneous-analysis”或“组合分析combined-analysis”或“全证据分析total-evidence approach”方法
2.1样本策略
2.
1.1基于大尺度进化模式的途径构树测序途径”超级矩阵构树的取样相对简单由于这种途径构树的目标是探索大尺度进化模式,分类元样倾向在某个分类阶元水平上的达到或接近完全取样
2.
1.2基于数据库的超级矩阵构树GenBank数据库中的序列一部分来自特定类群的系统发育学研究的测序,一部分来自其他生物学研究的测序,例如,基因表达与功能研究、基因组测序等在小规模矩阵构树中,取自GanBank的一部分序列一般通过在线方式抽提或者通过ftp方式将特定核酸数据库下载到本地计算机,依据文件中的字段或字段组合抽提如何高效、准确地从公共数据库中自动抽提具有系统发育研究价值的分子数据一直是超级矩阵构树方法的关键问题之一近年来,针对这一问题已经开发了多种数据分析管道或平台,如,PhyLoTA Browser
2.2序列比较
2.
2.1同源序列和重叠异质性由于插入、缺失、引物选择、内含子丢失和结构域重排等因素,数据库中的同源序列存在明显的长度和重叠异质性常用全局多序列比对程序如Clustal W要求比对序列间的差异仅仅由于替代或者小的插入和缺失引起,显著的序列的长度或重叠差异将影响比对的精确性
2.
2.2同源序列比对alinab在系统发育信息学途径的超级矩阵构建背景下,饱和替代经常发生,因此,是否具有“可比对性alignability”成为同源序列比对的另一关键问题
2.3提高计算机运算能力超级矩阵构树方法的另一个挑战是在合理的时间内完成构树计算解决这一难题的途径或是提高计算机的运算能力,例如,包含13533个分类元绿色植物rbcL超级矩阵的构树计算要求至少8GB的内存和8个CPU进行并行计算
2.4树木评级评估由于系统发育信息学途径的超级矩阵中包含大量丢失数据,将影响树信心的评估3局部多序列比对算法尽管超级矩阵构树方法已经向前迈出了巨大步伐,但还存在诸多困难和挑战,主要集中在三个方面1在后基因组时代,不断增长的序列数量呈现出序列大小和结构的复杂性,例如,真核生物中存在众多的多结构域,重复和重排的蛋白质序列,为了解码这些蛋白质的同源关系,要求开发新的多序列比对方法,特别是完善已有的局部多序列比对算法;此外,构建评价这些多序列比对程序的基准数据库也是一项重要和迫切的工作4基于“分割-解决”的超级矩阵配器理论上,随着分子数据的积累和计算能力的提高,矩阵的规模可能变得越来越大,但不可想象最终的矩阵能够包含地球上所有的物种,也难以想象这样的超级矩阵如何克服以上众多难题,因此,生命之树的装配只能采取“分割-解决”divide-and-conquer的策略,即,超级矩阵与超级树方法的相结合。