治疗癌症的有效解药--基因数据

治疗癌症的有效解药--基因数据

编者按:

加强医疗卫生方面的数字基础建设,通过大量基因数据的支持和分析预测,越来越多的患者会受到更加人性化的检查和治疗,癌症不再那么可怕,也将有可治愈的一天。

原文:Mark Warren

翻译:耿珺

编辑:Yvette Niu

几年前,Eric Schadt遇到了一个患癌症的女人。那种极具攻击性的大肠癌迅速出现并转移到了她的肝脏。这个女人是一位密西西比出身的战争遗孀;她是两个女孩子的单身母亲;她只有来自丈夫死亡抚恤金的医疗保险:一个军事医院中疲于重负的肿瘤医生——医保阶梯中的最低级。

而这,与最尖端的医药截然相反。以处于第四阶段转移性癌症的状态走入这所机构,就如同走入那个还未绘制人类基因组地图的旧世界。那个以为大肠癌只有一种病因,而非上百万种原因造成的一种独特变种的年代;那个治疗方案是同一袋子药物,无论你是在海泉、密西西比、或者延巴克图的年代;那也是一个没有大数据、机器学习、或者希望的年代。

Schadt不是一个癌症专科医师,他甚至不是一位医师。他只是一个数学家和一个分子与计算生物学的专家,而且他从未治疗过任何病人。但是通过他在西奈的新研究所,Schadt可以针对这个女人的癌症生成太亿节的数据,而这是传统医疗环境的上千倍,希望能以此找到新的方法来对抗她的癌症。快结束的时候,Schadt坐在她的病床旁,心烦意乱。他们的关系变得更加亲密了,但此时这个从来没有诊断过病人的科学家,正注视着科学的野心与失败的含义。这个女人于去年去世了。

坐在西奈山的桌子旁,Schadt直率又坦然。他今年51岁,到哪里都穿着短袖的Polo衫和大短裤,即使是在正式活动或是纽约的冬天。这让他有着一种不容置疑的、真正古怪的气质,或者说像一个高中橄榄球教练。对于任何一个医疗研究人员而言,发表论文或者研究出新药时更容易成名,人为因素对成果的影响在此时会被消除。然而生活在你的研究成果之下,并且亲眼看着一个人在你面前慢慢地死去,“那是比我所有经历过的都要深的一种谦卑,” Schadt说道。

“我们正处于这个呈指数增长的弧线上,你的思想自然地向未来计划,然后你会想:我们将会解它,”他说,“最终,我们将会知道这些细胞都在做什么、这些扰动都在做什么。而这谦卑的部分,就是当我们在这个增长曲线上时,不断地被这逐渐显现出的复杂性所震惊。”

但问题在于得到这上艾字节的基因数据。因为你不可能随便走到人们面前(上百万那么多)然后讲,“请给我你的数据。”你必须先说服他们你只会用它来做好事儿,而且这数据不会落到不该得到它的人的手里(我们的确珍爱自己的隐私)。你必须使他们确信这些收集数据的医疗中心和基因公司,相比为自身利益而私藏它,他们应该分享这数据,以便整个研究界可以得到规模经济效益。这是Schadt和其他许多人相信这些对于理解疾病成因、设计新治疗手段都是必要的。

现下而言,那么大量的信息根本不可获得。不过从科技巨头到新型生物医药公司都在争着解决如此规模的问题。而Schadt也想参与其中。

如果人类生物的复杂性可以与动画片类比的话,那么一百年前我们大概了解了这复杂性的一个像素那么多。只有一个像素,你根本不知道这故事是什么。但是当我们有了更多的像素,几百或者几千,或者换而言之,我们有所有像素中的百分之一,那么模式和主题就开始显现了。这是一个故事的开始。

这就是使Schadt为默克公司做了十年药物研发后(默克公司中用于治疗心脏病、糖尿病和肥胖症等疾病的一半代谢药物,一度都是来源于Schadt的研究),于2011年建立Icahn Institute 的原因。面对基于疾病的单基因模型的大量假想和药物研发,他开始相信基因并不单独作用于疾病穿透我们天生的防御系统,而是通过一个巨大的网络达成的,而我们只能通过那个幽深的生物信息学的洞来了解这些网络。为了探究他的复杂模型,Schadt带着金融慈善家Carl Icahn的1.5亿美金来到了西奈山,并且在地下室建造了一个名叫Minerva的超级计算机,用于分析西奈山每年收集到的上千基因组。他雇了很多数量分析专家,包括最初创建了Facebook数据团队的Jeffrey Hammerbacher。 一位在医学院深受尊敬的肿瘤学家说,“突然间所有这些数学书呆子们开始瞎跑一气,对,就是那些看起来应该设计电子游戏的人。”

没用多久Schadt就意识到他需要一艘更大船。2014年,Icahn 学院与Sage Bionetwork成立了合资公司,试图治疗罕见的儿童疾病:——囊胞性纤维症、镰状细胞性贫血、家族黑蒙性痴呆等,一共170种。他们称其为“复原项目”(Resilience Project),研究人员开始寻找携带此类疾病DNA变体、但因某些接种而没有患病的人。在他们“复原个体”的搜寻过程中,Schadt和他的团队积累了60万人的基因数据库,于是这个史上最大的基因研究开始进行,它的数据来源十分广大(比较知名的有23andMe,北京基因研究中心,以及最负盛名的麻省理工和哈佛的Broad 学院)。

但是在这60万之中,研究人员在潜在复原个体的基因中只找到了170种疾病中的8种。研究对象的范围还是太小了。通过计算整个人口中诱发疾病突变的基因出现频率,Schadt和他的团队开始意识到,他们需要的研究对象的数量不是60万,而是超过一千万。相对“复原项目”的计算能力和看起来如此巨大的数据量,Schadt依然缺乏用于破解基因密码的大量高质量病患信息。

“我们还需要100个西奈山医院来达到我们想要的规模,可以认知患病者数据中的模式,而这些会指向诊断和治疗方法,” Schadt讲道,“在我来到这里的五年之中,我意识到这对医疗中心来讲是不可能的。他们彼此之间太过独立、太过注重竞争,而且他们没有被绑在一条船上,而这条船就像其他行业的一样会使这种进步成为可能。”由于主要的医疗中心垄断了其病人数据,且没有与他人在重大研究领域合作的经济动机,“瓦解将会发生在医疗成就之外。”

而这就是Schadt想要通过成立他自己的基因数据公司Sema4,来建造的东西。这个以纽约为基础的合资公司,将会专心收购并拓展那些专门从事基因测试(比如癌细胞载体筛选和无创产前测试)的公司,从而收集上百万个人数据组。在Sema4的搜索平台上,医生们可以快速接触到世界范围的基因组帮助他们诊断病患。制药公司也会付费来使用这个系统,从而获得临床试验人数的信息。对于科学家而言,他们现在的分析库也会通过更加强力的计算机和机器学习算法来扩张,以便最终得到足够的基因数据,来运作他们雄心勃勃的研究。

尽管很大一部分科技巨头开始合资于生命科学,而国立卫生研究院也正号召上百万的志愿者来建造自己的巨大的生物银行,Schadt相信Sema4和其他类似新兴公司才是最坚定地在获取最佳基因数据规模,比如Craig Venter的Human Longevity和Patrick Soon-Shiong的Nant-Health就是其中的领头公司。

这些公司将会与同行竞争,收集越来越多的高质量生物数据,而Sema4将会对全世界的学术医学中心和非营利研究人员免费开放自己的基因图书馆,从而使自己在行业中变得显眼。如果任何一家Sema4 的竞争对手需要从Schadt的人口数据的子设备中获取信息,他们只要付费访问Sema4的搜索平台就可以了。或者Sema4和其他公司可以合作,从而为像“复原项目”这样的大手笔来汇集成更大的数据组。

然而,Schadt谈到,数据的规模问题并不是所有公司汇总数据就可以解决的。“关键在于从病患那里取得数据。” 根据他在西奈山的经验,他看到近年来的突破在于赞同他想法的人增加了:让一个医生知道这些人在特定条件下的遗传素质,是一件利大于弊的事情。他说当他在2011年刚去西奈山的时候,医院每年只检查几千个基因样本。而今年,他们可以检查到15万,这些数据大多来自于纽约的病患,Schadt在Sema4讲道,“我们希望把它做到每年50万到一百万的样本。”

这样的增长将会在收购和拓展现有国内基因测试公司的情况下产生,这些公司现在彼此独立,但Sema4将会把它们组成一个基因信息的大型网络,并由统一的安保和授权管理。

Schadt承认,让一个人将自己的生物数据交给某个匿名企业并不是件简单的事。即使上亿国营和私营资金被用于现代化及保障现有数据网络,漏洞的存在依然是不可忽视的现实问题。在Sema4,病患会被详细告知,他们的数据会被加密、匿名、然后抹去身份信息(除了加密密钥)。即使有漏洞出现,个人身份被识别然后暴露的几率依然非常低。

而知情同意书的问题也将影响数据收集的质量和数量,这份文件让病人了解并认可他们将面对的事情、方法、原因以及经历这一行为的时间。“现在有很多公司表明他们可以接触到上百万的病患记录,”Schadt解释道,“但是在我们想做的事的立场而言,这些数据是没有意义的。它常常不准确、不完整,并且在系统间难以链接。

另外,那种数据并不常联系到DNA,或者DNA上生成的基因组数据。” 就拿“复原项目”来说,那不单单是数据库太小,也因为60万基因组是被众多许可管理的。如果有重大发现,而那些成百上千的参与者们并不能再次被联系或追踪到,那么站在实践研究的角度而言,这些数据将变得毫无用处。

如今,很多知情同意书被设计成尽可能快速且毫无内涵的形式,而不是做成让研究人员可以更便捷地得到高质量的数据,这种做法实际上让操作变得更困难。研究表明,当知情书上解释得越多,最后就会得到越好的信息,因为当患者们认可并赞同研究目的的时候,他们会非常愿意做后续测验及面试。(这也使科研人员能够长期跟踪他们的健康状况。)

在Sema4,Schadt运用了多阶段信息运作,包括强制的、必须通过的小测验,这样患者们会清楚地了解他们做出了什么许可。这虽然延长了患者的时间,但是Schadt相信,当越多患者了解,就会有越多人同意去分享他们的基因信息。

有了这个数字基础建设,Schadt预见了这样一个未来:越来越多的患者不仅愿意分享他们的基因组信息,还有他们的医疗及生活方式的信息,而这些信息都是被像血糖仪、血压跟踪器、吸入器等设备收集的。最终的希望是这些越来越精细、越来越人性化的测试可以全面到能够定期排列病患的微生物组、频繁检测他们的RNA、经常监控他们的血细胞,从而及时注意到任何问题的征兆。

像西奈山这样使用病患数据、在虚拟世界垄断的医疗中心将会很快被抹去,研究人员最终将取得未来医疗数据需要的大量基因数据。“如果信息可以被更广泛地获得、推动整个星球的注意力来推动疾病模型改进,我们是不是就可以为人类做得更好?”Schadt问道。“毋庸置疑。”这是像数学一样的医学,不是臆测,而每一种疾病,即使是第四阶段的癌症,也将有可治愈的一天。