见证测序能力的重大改变

不见长安 · 发表于 2016-12-5 17:25:45

测序技术已大大超出了Carlos Bustamante、Stephen Kingsmore和John Mattick三位博士的预期。如果你在他们职业生涯刚开始时询问他们，是否有一天我们能在一天内测序人类全基因组，他们的反应分别是：“疯言疯语！”，绝对不可能”以及“做梦也不敢想”。

尽管测序创新的速度让他们惊讶，但每个人都迅速采用了新一代测序（NGS）和如今的群体测序，以便推进他们的科研和转化工作。作为遗传学和生物医学数据科学的教授和斯坦福计算机、进化和人类基因组学中心的创始主任，Bustamante博士正利用群体测序来了解古代和种族亚群中的遗传变异。Kingsmore博士最近新任Rady儿童医院基因组医疗研究所的总裁兼CEO，他正利用测序来开发儿童基因组医疗的证据基础。作为Garvan医学研究所的执行主任，Mattick博士正带头利用群体测序数据开展研究和临床应用。

iCommunity此次与Bustamante、Kingsmore和Mattick三位博士对话，聊聊他们的团队如何利用高通量的人类全基因组和群体测序来推进科研和转化研究，融合“组学”和表型数据的数据库的要求，以及将这一信息转化成对临床环境有用的格式所面临的挑战。

从左到右：Carlos Bustamante博士是遗传学和生物医学数据科学的教授，以及斯坦福计算机、进化和人类基因组学中心的创始主任；Stephen Kingsmore博士是Rady儿童医院基因组医疗研究所的总裁兼CEO；John Mattick博士是Garvan医学研究所的执行主任。

不见长安 · 发表于 2016-12-5 17:27:26

在您刚成为科学家时，测序技术是什么样的？

John Mattick (JM)：我对测序的第一印象是看见放射自显影图上的条带。这是分子生物学的早期。我们正在克隆和测序基因。我当时认为，我们是高手。我们只能从胶上读取几百个碱基，之后条带挨得太近无法区分。我们组装成1-2 kb长的序列，每条序列都能发一篇论文。现在回头看，这似乎太原始了。

Stephen Kingsmore (SK)：我的测序体验是从放射性的p32标记以及琼脂糖和聚丙烯酰胺凝胶开始的。一个了不起的测序反应是150个核苷酸，而那要花去大半天。

Carlos Bustamante (CB)：我成为科学家时，自动化测序正在开发中，因此我开展了一些手动测序，之后在第一代测序仪上进行大量的测序。我初次体验是在史密森学会实习时，他们刚刚建立了分子系统学实验室。那时，测序多名个体的几个基因可是大工程。

当工具改进时，您的测序方法如何改变？

CB：一开始，我们将每个片段的数据都看得很宝贵。当Celera开始进行早期的外显子组测序时，他们对20万个样品进行PCR，并测序39个人的2万个基因。我想，“这是一个数据集！我们一直在等待这个。”我们停下了手头的工作，花了4-5年的时间来研究这39个外显子组，并发表了8-9篇论文，以不同的方式分析数据。这种思维模式已经被颠覆了。如今，我们利用NGS不断地快速生成数据，然后担心它意味着什么。

不见长安 · 发表于 2016-12-5 17:28:25

当新一代测序（NGS）工具被引入时，您多快将其引入研究？

CB：NGS快速成为我们研究中的重要工具。我们是猕猴和猩猩基因组计划中的一部分，其中我们分析多态性数据。我们也是千人基因组计划最初的分析小组之一，设计美洲的采样，确定2x-4x测序的价值，以及变异频率的界限。

SK：NGS系统上市没多久，我们就开始使用了。那是激动人心的日子。我们将邮件收发室改为NGS实验室。关于人类基因组，人们知道得还不多，因此我们每项研究都在发现新东西。

JM：多年来，我一直是基因组学新技术的早期采用者。与Craig Venter一样，我是Molecular Dynamics的Megabase测序仪的早期客户之一。Garvan研究所是最早购买HiSeq X™ Ten系统的3家机构之一。

“获得精确变异信息的唯一的方式是获取数十万个基因组的准确变异信息，这样我们才能评估我们所看到的每个变异的频率。”

不见长安 · 发表于 2016-12-5 17:28:39

您早期的测序工作如何影响您目前研究的重点？

CB：在早期，我们研究感兴趣的基因中的多态性和变异。在我的博士论文中，我分析了当时最大的基因组数据集，它包括对多只果蝇测序的25个果蝇基因和对多株植物测序的15个拟南芥基因。我们查看氨基酸的差异以及有利和有害突变的积累。从那时起，我开始考虑创建人类序列的大型数据集，这样我们就能以同样的方式分析。

SK：在国家基因组资源中心的时候，我们利用早期NGS来测序植物和病原体的转录组，后来是基因组，并开始测序人类样品。我们中的一些人认识到，我们在科研环境中开展的研究不久将会影响医疗保健。在环顾全国之后，3个人去了堪萨斯城的儿童慈善医院，建立第一批儿科基因组学医疗中心，并开始进行转化研究。我目前在Rady儿童医院的基因组科学研究所，在这里我们将更进一步，关注基因组系统医疗在加利福尼亚州最大儿童医院中的大规模实施。

JM：高通量测序对认识人类基因组的转录复杂性有巨大影响。NGS加快了我们深入转录组的能力，让我们能够探索非编码转录本的奇妙世界，它在发育过程中以精确的方式从不同的细胞和组织的基因组中涌出。我认为人类基因组就像特别的.ZIP压缩文件。人类基因组的转录复杂性至少比基因组本身高了一个数量级，它能够以不同的方式解压缩，在不同的时间，在不同的细胞中呈现出不同的编码和非编码RNA的表达和剪接模式。没有高通量测序，我们将无法探索这个世界。

“在基因组学的新世界，每个学生、每个博士后、每个实验室和每个部门都需要有能力去处理大数据。”

不见长安 · 发表于 2016-12-5 17:29:12

您现在如何使用NGS？

CB：NGS已经为群体基因组学开辟了新道路。我记得曾在冷泉港会议上，我意识到千人基因组计划应包含混杂的基因组。人们质疑这一点，但我认为，若要分析和开展跨种族和多种族的研究，我们需要弄清楚如何理解混杂基因组。

我们参与临床基因组资源（ClinGen）联盟的一个原因是汇集临床基因检测数据，并削弱意义不明的变异（VUS）的比例，这在某些少数人种群体中更高，仅仅是因为没有太多序列可供分析。NGS让继续追踪这些GWAS hit变得廉价且轻松。我们发现的每个氨基酸改变都是确凿的证据。显然，如果我们真的想要开发让每个人都受益的基因组医疗，我们需要拓宽人类DNA研究中的种族代表。

SK：我们的重点在全基因组测序（WGS），因为这是终极的分子检测。WGS如今更快了，我们与Illumina合作，开发出一种方法，让我们能够在26小时内解码和分析整个人类基因组1。我们的目标是到明年年中，向我们新生儿和儿科重症监护室（NICU和PICU）中每个无法确诊的儿童提供快速NGS，并开展临床研究，以确定基因组医疗在儿科住院和门诊环境中的临床效用和成本效益。

不见长安 · 发表于 2016-12-5 17:29:31

HiSeq X系统让您实现了哪些研究？

CB：群体测序是我一直希望达到的顶峰 – 分析多个人类基因组。我们在开展大规模的群体测序研究，以它们作为基线来回答重要的群体遗传问题，并分析结果，为临床医学带来新方法。例如，我们综合利用大规模的基因分型和测序，在秘鲁开展一项子痫前期的研究，并研究一下高原适应，因为它与子痫前期相关联。

SK：利用HiSeq X系统，基因组变得便宜很多，因此我们能够测序更多的家系。目前有8000种已命名的遗传病，我们及其他人都强烈感觉到，NGS将改变我们鉴定遗传病的能力。我们希望利用HiSeq X和Illumina SeqLab设施，逐步开发证据基础来支持这一点。

“我们最大的挑战就在于如何分享群体测序数据。”

JM：Garvan研究所是最早将基因组学推向研究工作的中心的研究所之一，而不是作为传统分子生物学的延伸。随着基因组测序的巨大进步以及随之而来的成本下降，开展群体测序并将基因组学推向科研和临床的中心已经在经济上变得可行。

HiSeq X系统如何让转化和科研工作融合，这是非同寻常的。我们一直与全世界的研究人员合作。HiSeq X Ten系统的表现很出色。

除了研究单基因疾病，我们也在大型研究项目中使用群体测序，包括癌症、糖尿病、骨质疏松症、免疫学疾病、神经退行性和神经精神疾病，以及衰老。作为国际癌症基因组联盟（ICGC）的一部分，我们正开展癌症分层研究，并利用NGS阐释癌症基因组，评估家族癌症风险的遗传元素。我们对1型糖尿病的患者进行测序，以发现一生中状况良好的患者与后期患有严重并发症（如肾衰竭）的患者之间的遗传差异。在我们的衰老研究中，我们正利用群体测序来研究数千名个体，他们年事已高，但没有心血管疾病、癌症、认知能力衰退或神经退行性疾病的任何迹象。我们正在开发风险去除队列，它们可作为对照，用于罹患此病的患者的研究。利用HiSeq X Ten测序能力的其他项目包括研究患有心脏、线粒体和阿尔茨海默病的群体。

不见长安 · 发表于 2016-12-5 17:29:43

您在分享群体测序数据时有何挑战？

CB：我们最大的挑战就在于如何分享群体测序数据。NIH及其他机构如今命令研究人员分享他们的数据。不幸的是，这对临床数据而言是不正确的。大多数医院都没有真正的数据分享原则。我们也生活在一个互相连通的世界，这让患者对分享信息感到不自在。因此，国际基因组学健康联盟及其他机构开发前瞻性知情同意、隐私程序以及数据管理和透明度上的最佳实践将是很有价值的。

SK：当我们在Rady儿童医院测序基因组之前，父母必须签署知情同意书。知情过程的一部分是同意我们能够发表基因组。我们去除识别信息，这样就没有信息能够将基因组与儿童或父母相关联，然后信息就可以从美国国家生物技术信息中心（NCBI）的基因型和表型数据库（dbGaP）中获取，这是一个私人的数据库。研究人员只有在向NIH申请，并很好地解释他们为什么需要获取这个信息之后，才能得到数据。这似乎在隐私方面的担心和其他研究人员能够研究公开基因组的好处之间达到了良好的平衡。

不幸的是，并非所有医院都有一个适当的基因组共享知情同意过程。临床研究人员需要人类全基因组序列信息来确定基准。他们想看看变异在基因组中有多常见。唯一的方式是获取数十万个基因组的准确变异信息，这样我们才能评估我们所看到的每个变异的频率。

“随着基因组测序的巨大进步以及随之而来的成本下降，开展群体测序并将基因组学推向科研和临床的中心已经在经济上变得可行。”

不见长安 · 发表于 2016-12-5 17:29:54

将WGS、表观基因组、转录组及其他基因组和表型数据相整合，获得不同的基因组快照，有何价值？

CB：开展各种类型的组学分析，RNA-Seq、甲基化组测序等，具有重要的价值。我们仍不太理解人体的调控网络。我们如今在开展和整合组学数据吗？我想，这进行得很慢，部分原因是测序要比解释简单得多。

SK：泛组学无疑具有价值，其中我们正获取全基因组数据，并将它与深度表型组、表观遗传、基因表达、代谢组和蛋白质组的数据结合在一起。测序基因组并不是游戏的结束，而是一个伟大的开始。我们开始了解，我们需要什么才能带来精准医疗。例如，我们不知道我们在基因组中发现的大多数变异在功能上意味着什么。因此，我们不能自信评估，它们是否让人体产生改变。显然，我们需要更多类型的数据，能够大规模开展这种评估。

JM：临床研究和医疗的未来将围绕着大数据的整合。这不仅仅是个别的及合并的基因组数据集。这些将逐渐与转录组、表观基因组、蛋白质组，以及最重要的表型数据相融合，创建高度关联、富含信息的数据集。医疗正在快速向大数据迈进，而数万个、数十万个基因组序列的获得将使其加速。它即将改变一切。

不见长安 · 发表于 2016-12-5 17:30:07

生物信息学和数据库对挖掘群体测序的全部价值有多重要？

CB：从一开始，我们就很清楚需要将测序与分析工具相结合，才能理解所有数据。通过关联和分析表型及基因型信息，我们开始揭开在静态数据中看不到的模式。人们有一种乐观的态度，如果我们能够以更严格的方式测定表型和暴露，我们就能够收集到海量的数据，帮助我们发现遗传关联。

JM：我认为，生物信息学框架和数据库对整个工作很关键。它将基因组数据与正交数据集相整合，以提取宝贵的信息。我们确定的遗传模式将有助于了解个体在临床中的情况，并通过元数据的分析，了解就疾病模式、并存疾病而言的整个健康体系。

群体测序并不是一件轻松的事情。在过去1-2年，我们投资了1000万美元来建立计算管道。整个组装管道有一个不断扩大的60个人团队，开展测序、组装数据、检出变异和群体之间的差异，并将数据与表型数据相关联。

在基因组学的新世界，每个学生、每个博士后、每个实验室和每个部门都需要有能力去处理大数据。这终将不是专家的事。它对整个研究和医疗工作都很关键。这是一个数据驱动的世界，我们正冲向它。

SK：我们在最近的研究中认识到生物信息学的价值，这项研究比较了WGS和传统基因检测在确定危重新生儿的孟德尔疾病中的效果2。为了分析数据，我们开发了一些新的生物信息学工具。论文证明了基因组测序的实用性，但我们需要基因组学的临床价值的进一步证据。我们还需要一种简化的方法将结果告知医生，不仅关系到诊断，还关系到NGS数据如何提供治疗决策。

“泛组学无疑具有价值，其中我们正获取全基因组数据，并将它与深度表型组、表观遗传、基因表达、代谢组和蛋白质组的数据结合在一起。”

不见长安 · 发表于 2016-12-5 17:30:24

您需要哪种类型的数据库？

JM：我们需要全国水平的基因型/表型关联数据库，它们由卫生部门维护，可供认可的研究人员和医生查询。它们必须是全国的数据库，因为每个管辖区存在特有的法律及其他要求。它们需要以某种方式与一个全球数据库相关联，这样一个国家产生的数据可在其他地方使用，并以多维度的方式探索，以便推进我们对人类生物学和疾病的了解。

“我认为最广泛意义的群体规模测序将从儿童开始，可能是在出生时，以取代现在的Guthrie检查。”

创建这些数据库需要多长时间？

JM：我们不可能在一夜之间对全世界的每个人测序，但我相信，十年内我们将有大型的基因组数据库。基因组数据将逐渐成为病历的一个标准部分。在理想情况下，我们将在云端拥有充分审核、基于证据的基因型/表型关联数据库，它们将被维护，并不断更新全国资源。

最初的应用将是对有着严重遗传缺陷的个体进行测序，因为我们能够快速从半数病例中诊断出致病突变。癌症分层将是一个重要领域，让医生能够确定疾病的分子基础，从而更有效地治疗疾病。第三个领域将是检测药物副作用的遗传标志物，因为这对每个国家的医院体系是个巨大的负担。我们能够通过基因组信息预测和避免大部分的副作用。

我们正建议澳大利亚医疗系统对每个带有发育和/或智力障碍的人进行测序，作为一线治疗。我预计，这将在2-5年内变得常规。我认为最广泛意义的群体规模测序将从儿童开始，可能是在出生时，以取代现在的Guthrie检查。新一代的儿童将是基因组一代，在他们身上选择性地开展基因组测序和分析，之后随着技术和信息的价值改善，再逐步广泛应用。

见证测序能力的重大改变

相关帖子