Nature重大成果：揭示125000个病毒基因组

玛瑙红 · 发表于 2016-8-19 11:37:27

在地球的内部、地球之上以及地球的周围，微生物的数量达到了10^30，估计超过了银河系中的星星。微生物已知在调控碳固定，维持全球氮、硫、磷和其他营养素的循环中起至关重要的作用，但目前大多数的微生物仍然是无法培养和未知的。美国能源部正以这一“微生物暗物质”作为目标，更好地了解地球微生物的多样性，收集来自自然的教训用于应对能源和环境的挑战。

然而要探索地球微生物的多样性，要求更多地了解较少研究的，微生物和感染它们的病毒，影响微生物调控全球循环能力的病毒之间的关系。尽管据估计病毒的数量至少比地球上的微生物细胞高出两个数量级，在序列数据库中相比约5万的细菌基因组，当前的测序DNA病毒基因组不超过2,200个。

在发表于8月17日《自然》（Nature）杂志上的一项研究中，美国能源部联合基因组研究院(DOE JGI)的研究人员利用来自世界各地最大规模采集的组装宏基因组数据集，揭示出了125,000个部分及完整的病毒基因组，其中大多数病毒感染微生物。这一研究努力将已知的病毒基因数量提高了16倍，为研究人员提供了独特的病毒序列信息资源。

论文的资深作者、DOE JGI原核生物超级计划负责人Nikos Kyrpides说：“这是第一次有人系统地查看所有的生境及如此大的数据汇编。揭示所有这些新病毒的关键在于我们开发出了敏感的计算方法。”

玛瑙红 · 发表于 2016-8-19 11:38:55

“揭开新病毒的一把钥匙”

第一作者、博士后研究人员David Paez-Espino解释，这涉及采用了一种非针对性的宏基因组学方法，参考了分离病毒和手动监管的病毒蛋白模型，他将其描述为是“迄今为止最大、最多样的数据集”。

研究小组分析了从DOE JGI综合微生物基因组与微生物组样品（Integrated Microbial Genomes with Microbiome Samples）数据管理和分析系统获得的，来自10个不同类型生境、世界各地3,042个样本的超过5万亿碱基（Tb）的序列。他们努力筛查大堆的数据集，生成了包含279万个蛋白的125,000多个病毒序列。

研究小组将病毒序列与多个生境中的多个样本进行了匹配。例如，他们发现一个病毒组存在于海洋过渡区95%的样本中——这一区域定位在海面下200-1,000米之间，在没有充足的阳光照射供微生物进行光合作用。

通过分析一个CRISPR-Cas系统，研究人员生成了一个包含350万间隔序列（spacer sequence）的数据库。然后利用这些间隔序列检测了病毒和噬菌体宏基因组，寻找这些片段有可能最初来自何处。利用这种方法，该研究小组还计算确定了近10,000种病毒的宿主。他们报告说：“大多数的这些联系都是从前未知的，包括在以往未发现病毒的16个原核生物类群中鉴别出了充当病毒宿主的生物。”

玛瑙红 · 发表于 2016-8-19 11:39:07

CRISPR-Cas蛋白的信标

DOE JGI功能基因组学研究组组长说，Kyrpides开展的鉴别新病毒序列的研究工作将帮助合成生物学研究组开发出一些可以在许多细菌宿主中起作用的新启动子。“我们正在不断地寻找将跨越许多不同的类群起作用的调控DNA元件，这将使得我们能够构建出可以在许多不同宿主中表达的基因和信号通路。”

Cheng还预计，Kyrpides研究小组生成的这一扩充的病毒间隔序列将使得研究人员能够寻找到称作为前间区序列邻近基序(PAMs)的其他遗传序列。在噬菌体中这些序列定位靠近间隔序列，可作为CRISPR-Cas的信标，触发如编辑或调控基因等行为。“人们正在寻找新的PAM序列和新的Cas9s，有了这一新信息，如果你可以在同一噬菌体上定位间隔序列，看看邻近序列中有什么共有的东西，那么你就可以识别出新的PAM序列。”

“我们认为发现许多大噬菌体，包括迄今为止报道的最长的噬菌体基因组，指出了常规的病毒组富集和测序策略的一些局限性，有可能让这些研究对具有不同寻常特征的一些新奇的病毒产生偏见，”研究的共同作者Natalia Ivanova说。

Kyrpides 说：“该研究最重要的一个方面就是没有将焦点放在单一生境上。转而我们检测了全球的病毒组，调查了病毒在所有生态系统中的流动。我们将病毒序列数量提高了50倍，鉴别出的99%的病毒家族都与以往测序的病毒没有密切关系。我们将充当病毒宿主的微生物类群数量增长了超过一倍，构建出了第一个全球病毒分布图。这提供了巨大数量的数据供未来的数年进行更详细的研究。”

Nature重大成果：揭示125000个病毒基因组

相关帖子