当前位置:皇牌天下 > 科技中心 > 皇牌天下见证测序能力的重大改变

皇牌天下见证测序能力的重大改变

文章作者:科技中心 上传时间:2020-03-24

美国发布《从数据到发现:基因组到健康》白皮书

皇牌天下 1

2014年3月,美国国家数据科学联盟发布了《从数据到发现:基因组到健康》白皮书,以便于解决基因组学面临的重大挑战。该白皮书是通过聚集数据科学领域与基因组学领域的领袖人物,共同探讨当前基因组学的挑战,并集思广益,就最为恰当且技术先进的建议达成的共识。

测序技术已大大超出了Carlos Bustamante、Stephen Kingsmore和John Mattick三位博士的预期。如果你在他们职业生涯刚开始时询问他们,是否有一天我们能在一天内测序人类全基因组,他们的反应分别是:“疯言疯语!”,绝对不可能”以及“做梦也不敢想”。

基因组学能够为数据科学相关研究提供某些美好的承诺。但新发布的白皮书指出,基因组学领域还存在数据来源、收集和管理,界定表型,裁定基因组变异,生物统计学和生物信息学,数据共享和生物伦理与法律六大关键挑战。

尽管测序创新的速度让他们惊讶,但每个人都迅速采用了新一代测序和如今的群体测序,以便推进他们的科研和转化工作。作为遗传学和生物医学数据科学的教授和斯坦福计算机、进化和人类基因组学中心的创始主任,Bustamante博士正利用群体测序来了解古代和种族亚群中的遗传变异。Kingsmore博士最近新任Rady儿童医院基因组医疗研究所的总裁兼CEO,他正利用测序来开发儿童基因组医疗的证据基础。作为Garvan医学研究所的执行主任,Mattick博士正带头利用群体测序数据开展研究和临床应用。

数据来源、收集和管理是在不知晓数据将如何被重新利用的情况下维护数据来源,为大数据集的收集和管理提出重大挑战。而由于缺乏标准化的数据元素与协调的数据集,同时缺乏从大型数据集中获取表型数据的相关技术,也使得界定表型问题进一步复杂化。

iCommunity此次与Bustamante、Kingsmore和Mattick三位博士对话,聊聊他们的团队如何利用高通量的人类全基因组和群体测序来推进科研和转化研究,融合“组学”和表型数据的数据库的要求,以及将这一信息转化成对临床环境有用的格式所面临的挑战。

由于缺乏表型和变异体数据的标准,对变异的界定也十分模糊。另外,由于统计模型和软件不够充分,计算机处理能力不足,运行复杂模型时不可接受的时间延迟以及在促进数据集成与共享时,采用有限的联合分布式数据系统等,都造成了生物统计学和生物信息学上的重大挑战。

皇牌天下 2

不仅如此,在基因组学中,尚未解决的生物伦理问题也比比皆是,其中包括某些偶然发现,披露基因测试结果以及敏感人群的隐私问题。对于物理性质、知识产权与信息财产的法律区分以及基因组数据的隐私性和机密性的法律区分,仍然需要公开讨论。

从左到右:Carlos Bustamante博士是遗传学和生物医学数据科学的教授,以及斯坦福计算机、进化和人类基因组学中心的创始主任;Stephen Kingsmore博士是Rady儿童医院基因组医疗研究所的总裁兼CEO;John Mattick博士是Garvan医学研究所的执行主任。

为积极地应对这些挑战,白皮书中也制定出关键性建议,力求不断推动基因组学的发展。

在您刚成为科学家时,测序技术是什么样的?

第一,在基因组学研究领域,促进跨学科合作并协调相关工作,形成“联盟”并协调各个研究组的科研成果,不断推动相关标准的制定,促进跨学科合作。

John Mattick :我对测序的第一印象是看见放射自显影图上的条带。这是分子生物学的早期。我们正在克隆和测序基因。我当时认为,我们是高手。我们只能从胶上读取几百个碱基,之后条带挨得太近无法区分。我们组装成1-2 kb长的序列,每条序列都能发一篇论文。现在回头看,这似乎太原始了。

第二,推进分析方法和工具的相关标准和联合分布式数据系统的广泛采用,同时协调现有的数据集,综合分析,数据再利用以及进行科学发现。

Stephen Kingsmore :我的测序体验是从放射性的p32标记以及琼脂糖和聚丙烯酰胺凝胶开始的。一个了不起的测序反应是150个核苷酸,而那要花去大半天。

第三,不断促进数据共享,同时通过激励机制和全新的技术解决方案,实现数据共享的不同技术方法的成本效益分析,维护其隐私性、安全性与来源问题。

Carlos Bustamante :我成为科学家时,自动化测序正在开发中,因此我开展了一些手动测序,之后在第一代测序仪上进行大量的测序。我初次体验是在史密森学会实习时,他们刚刚建立了分子系统学实验室。那时,测序多名个体的几个基因可是大工程。

第四,开发自动化、易于使用的、利益相关者驱动的、开源的临床决策支持系统。临床决策支持系统可以通过一个简单、合成的方式展示基因数据,反映出全部利益相关者的观点,并整合类似wiki功能,同时使包括授权临床医生和其他利益相关者能够解释与应用基因组的相关研究结果,从而充分地实现个性化医疗的巨大潜力。

当工具改进时,您的测序方法如何改变?

第五,基于大数据的信息技术、数字存档与分析的培养教育和培训计划。针对广泛的专业、培训与职业发展,将基本的生物统计学概念纳入现有的培训项目中,能够显著增强科学家和临床医生有效地解释与应用基因组数据的能力。

CB:一开始,我们将每个片段的数据都看得很宝贵。当Celera开始进行早期的外显子组测序时,他们对20万个样品进行PCR,并测序39个人的2万个基因。我想,“这是一个数据集!我们一直在等待这个。”我们停下了手头的工作,花了4-5年的时间来研究这39个外显子组,并发表了8-9篇论文,以不同的方式分析数据。这种思维模式已经被颠覆了。如今,我们利用NGS不断地快速生成数据,然后担心它意味着什么。

第六,解决合理使用与滥用基因组数据之间的区别等生物伦理和法律政策问题。

当新一代测序工具被引入时,您多快将其引入研究?

《中国科学报》 (2014-04-08 第8版 生物)

CB:NGS快速成为我们研究中的重要工具。我们是猕猴和猩猩基因组计划中的一部分,其中我们分析多态性数据。我们也是千人基因组计划最初的分析小组之一,设计美洲的采样,确定2x-4x测序的价值,以及变异频率的界限。

SK:NGS系统上市没多久,我们就开始使用了。那是激动人心的日子。我们将邮件收发室改为NGS实验室。关于人类基因组,人们知道得还不多,因此我们每项研究都在发现新东西。

JM:多年来,我一直是基因组学新技术的早期采用者。与Craig Venter一样,我是Molecular Dynamics的Megabase测序仪的早期客户之一。Garvan研究所是最早购买HiSeq X Ten系统的3家机构之一。

“获得精确变异信息的唯一的方式是获取数十万个基因组的准确变异信息,这样我们才能评估我们所看到的每个变异的频率。”

您早期的测序工作如何影响您目前研究的重点?

CB:在早期,我们研究感兴趣的基因中的多态性和变异。在我的博士论文中,我分析了当时最大的基因组数据集,它包括对多只果蝇测序的25个果蝇基因和对多株植物测序的15个拟南芥基因。我们查看氨基酸的差异以及有利和有害突变的积累。从那时起,我开始考虑创建人类序列的大型数据集,这样我们就能以同样的方式分析。

SK:在国家基因组资源中心的时候,我们利用早期NGS来测序植物和病原体的转录组,后来是基因组,并开始测序人类样品。我们中的一些人认识到,我们在科研环境中开展的研究不久将会影响医疗保健。在环顾全国之后,3个人去了堪萨斯城的儿童慈善医院,建立第一批儿科基因组学医疗中心,并开始进行转化研究。我目前在Rady儿童医院的基因组科学研究所,在这里我们将更进一步,关注基因组系统医疗在加利福尼亚州最大儿童医院中的大规模实施。

JM:高通量测序对认识人类基因组的转录复杂性有巨大影响。NGS加快了我们深入转录组的能力,让我们能够探索非编码转录本的奇妙世界,它在发育过程中以精确的方式从不同的细胞和组织的基因组中涌出。我认为人类基因组就像特别的.ZIP压缩文件。人类基因组的转录复杂性至少比基因组本身高了一个数量级,它能够以不同的方式解压缩,在不同的时间,在不同的细胞中呈现出不同的编码和非编码RNA的表达和剪接模式。没有高通量测序,我们将无法探索这个世界。

“在基因组学的新世界,每个学生、每个博士后、每个实验室和每个部门都需要有能力去处理大数据。”

您现在如何使用NGS?

CB:NGS已经为群体基因组学开辟了新道路。我记得曾在冷泉港会议上,我意识到千人基因组计划应包含混杂的基因组。人们质疑这一点,但我认为,若要分析和开展跨种族和多种族的研究,我们需要弄清楚如何理解混杂基因组。

我们参与临床基因组资源联盟的一个原因是汇集临床基因检测数据,并削弱意义不明的变异的比例,这在某些少数人种群体中更高,仅仅是因为没有太多序列可供分析。NGS让继续追踪这些GWAS hit变得廉价且轻松。我们发现的每个氨基酸改变都是确凿的证据。显然,如果我们真的想要开发让每个人都受益的基因组医疗,我们需要拓宽人类DNA研究中的种族代表。

皇牌天下,SK:我们的重点在全基因组测序,因为这是终极的分子检测。WGS如今更快了,我们与Illumina合作,开发出一种方法,让我们能够在26小时内解码和分析整个人类基因组1。我们的目标是到明年年中,向我们新生儿和儿科重症监护室中每个无法确诊的儿童提供快速NGS,并开展临床研究,以确定基因组医疗在儿科住院和门诊环境中的临床效用和成本效益。

HiSeq X系统让您实现了哪些研究?

CB:群体测序是我一直希望达到的顶峰 – 分析多个人类基因组。我们在开展大规模的群体测序研究,以它们作为基线来回答重要的群体遗传问题,并分析结果,为临床医学带来新方法。例如,我们综合利用大规模的基因分型和测序,在秘鲁开展一项子痫前期的研究,并研究一下高原适应,因为它与子痫前期相关联。

SK:利用HiSeq X系统,基因组变得便宜很多,因此我们能够测序更多的家系。目前有8000种已命名的遗传病,我们及其他人都强烈感觉到,NGS将改变我们鉴定遗传病的能力。我们希望利用HiSeq X和Illumina SeqLab设施,逐步开发证据基础来支持这一点。

“我们最大的挑战就在于如何分享群体测序数据。”

JM:Garvan研究所是最早将基因组学推向研究工作的中心的研究所之一,而不是作为传统分子生物学的延伸。随着基因组测序的巨大进步以及随之而来的成本下降,开展群体测序并将基因组学推向科研和临床的中心已经在经济上变得可行。

HiSeq X系统如何让转化和科研工作融合,这是非同寻常的。我们一直与全世界的研究人员合作。HiSeq X Ten系统的表现很出色。

除了研究单基因疾病,我们也在大型研究项目中使用群体测序,包括癌症、糖尿病、骨质疏松症、免疫学疾病、神经退行性和神经精神疾病,以及衰老。作为国际癌症基因组联盟的一部分,我们正开展癌症分层研究,并利用NGS阐释癌症基因组,评估家族癌症风险的遗传元素。我们对1型糖尿病的患者进行测序,以发现一生中状况良好的患者与后期患有严重并发症的患者之间的遗传差异。在我们的衰老研究中,我们正利用群体测序来研究数千名个体,他们年事已高,但没有心血管疾病、癌症、认知能力衰退或神经退行性疾病的任何迹象。我们正在开发风险去除队列,它们可作为对照,用于罹患此病的患者的研究。利用HiSeq X Ten测序能力的其他项目包括研究患有心脏、线粒体和阿尔茨海默病的群体。

您在分享群体测序数据时有何挑战?

CB:我们最大的挑战就在于如何分享群体测序数据。NIH及其他机构如今命令研究人员分享他们的数据。不幸的是,这对临床数据而言是不正确的。大多数医院都没有真正的数据分享原则。我们也生活在一个互相连通的世界,这让患者对分享信息感到不自在。因此,国际基因组学健康联盟及其他机构开发前瞻性知情同意、隐私程序以及数据管理和透明度上的最佳实践将是很有价值的。

SK:当我们在Rady儿童医院测序基因组之前,父母必须签署知情同意书。知情过程的一部分是同意我们能够发表基因组。我们去除识别信息,这样就没有信息能够将基因组与儿童或父母相关联,然后信息就可以从美国国家生物技术信息中心的基因型和表型数据库中获取,这是一个私人的数据库。研究人员只有在向NIH申请,并很好地解释他们为什么需要获取这个信息之后,才能得到数据。这似乎在隐私方面的担心和其他研究人员能够研究公开基因组的好处之间达到了良好的平衡。

不幸的是,并非所有医院都有一个适当的基因组共享知情同意过程。临床研究人员需要人类全基因组序列信息来确定基准。他们想看看变异在基因组中有多常见。唯一的方式是获取数十万个基因组的准确变异信息,这样我们才能评估我们所看到的每个变异的频率。

“随着基因组测序的巨大进步以及随之而来的成本下降,开展群体测序并将基因组学推向科研和临床的中心已经在经济上变得可行。”

将WGS、表观基因组、转录组及其他基因组和表型数据相整合,获得不同的基因组快照,有何价值?

CB:开展各种类型的组学分析,RNA-Seq、甲基化组测序等,具有重要的价值。我们仍不太理解人体的调控网络。我们如今在开展和整合组学数据吗?我想,这进行得很慢,部分原因是测序要比解释简单得多。

SK:泛组学无疑具有价值,其中我们正获取全基因组数据,并将它与深度表型组、表观遗传、基因表达、代谢组和蛋白质组的数据结合在一起。测序基因组并不是游戏的结束,而是一个伟大的开始。我们开始了解,我们需要什么才能带来精准医疗。例如,我们不知道我们在基因组中发现的大多数变异在功能上意味着什么。因此,我们不能自信评估,它们是否让人体产生改变。显然,我们需要更多类型的数据,能够大规模开展这种评估。

JM:临床研究和医疗的未来将围绕着大数据的整合。这不仅仅是个别的及合并的基因组数据集。这些将逐渐与转录组、表观基因组、蛋白质组,以及最重要的表型数据相融合,创建高度关联、富含信息的数据集。医疗正在快速向大数据迈进,而数万个、数十万个基因组序列的获得将使其加速。它即将改变一切。

本文由皇牌天下发布于科技中心,转载请注明出处:皇牌天下见证测序能力的重大改变

关键词: 皇牌天下