GEN:大数据挖掘对癌症治疗的四大影响

2016-05-17 11:21 来源:生物探索 作者:
字体大小
- | +

GEN.jpg
大量的肿瘤 DNA 测序通道接近 20,000 基因组

2016 年 1 月在瑞士达沃斯召开的世界经济论坛上的一个 panel 讨论中,美国副总统 Joe Biden 当场要求临床医生和研究者举例表示人类在抗击癌症中突破的障碍。当几个重要话题浮现时,最重要的议题是「大数据」,具体而言,即「大数据」的收集、分析和应用。

研究者表示:「大数据」是有效的,这是因为有重大的信息可以从大数据集合里分析。越是大样本的体量,越能发现一些在小样本体量中难以发现的小问题。另一些研究者则表示:「大数据」岂止于大?而是越多越好。

来自美国 St. Jude 儿童研究中心的首席信息官、高级副总裁 Keith Perry 认为,「大数据」包含额外的三层意思:多个品种的数据类型、数据生成的速度和数据集成的程度。在他看来,目前的许多数据库之间无相互接口,因为它们是由单独的预防、研究和临床部门产生的,现在缺乏一个整合这些不同结构、集中信息的潜在平台。

另一位来自爱立信公司的 Narayan Desai 博士引用了其在 2015 年的新闻文章,基因组学将不得不解决的基本问题是数据是如何生成的。尽管目前的数据收集和分析能力有限,但应该利用好它,因为测序的可访问性,将导致访问信息出现爆炸性的增长,并在很大程度上较为分散,传统的信息挖掘将难以解决问题。

影响一:隐藏的弱点

最近,一些科学家建议:针对性和创造性的利用现有的数据可以指导临床实践。来自加州大学旧金山分校(UCSF)的 Nevann Krogan 教授表示:基因组学已经为癌症治疗带来了重大变革,其作用远超过以往的遗传学知识。尽管测序提供商认为我们投入的金钱越多,结果越清晰,事实上并不是如此。我们现在已经达到了提取有效信息的饱和点。

以癌症为例,目前针对各种各样的癌症已经出现了「海量」的数据。尽管数据暴增趋势在继续,但是 Krogan 教授认为,突破癌症治疗所需的数据已经达标。成堆的新数据只能显示癌症惊人的多样性,即使是一个单一的肿瘤也包含独特的成千上万的基因突变,这使得使研究人员找出哪些是驱动疾病的基因愈加困难。

Krogan 教授和同事于 2015 年 5 月 21 日在《Molecular Cell》上发表文章:除了积累更多的数据之外,研究者需要更加仔细地找出现有数据的关联,并成立了「肿瘤细胞地图项目」(CCMI),旨在系统地介绍癌症基因间的相互作用,以及它们如何导致了疾病与健康的状态,从而研究出癌细胞里的突变基因和蛋白的「路线图」。

影响二:肿瘤样本关联性分析

「肿瘤细胞地图项目」(CCMI)将加州大学圣迭戈分校(UCSD)的顶尖生物医学科学家和加州大学旧金山分校(UCSF)顶尖的细胞结构学家整合到一起,共同研究基因组学相关信息,瓶颈是如何解释肿瘤基因组信息。

加州大学圣地亚哥分校的 Ideker 教授表示:进行癌症 DNA 测序的样本已经接近 20000 例基因组,但仍然难以分析癌症基因组的基因网络,即「没有两个肿瘤患者在基因层面上看起来很相像。」因此,癌症基因组图谱(TCGA)项目, 国际癌症基因组协会(ICGC)已经开始系统地分析成千上万的肿瘤的多重信息,包括 mRNA 和 microRNA 表达、DNA 拷贝数和甲基化以及 DNA 序列。

现在强烈需要有一个可以整合和解释基因组规模分子信息的方法,以洞察驱动肿瘤恶化的过程;同时也迫切需要医疗机构的参与,以解决公司在分析肿瘤基因时因无法获得临床相关的数据而得出不当结论。

影响三:子网络分析

解决子网络分析需要综合信息方法,尤其是综合已知编码蛋白质的基因在表达蛋白质内部子网或通路作用间的数据库交互。这需要基因或蛋白质在各个子网络内形成的聚合表达式组成的巨大交互网络,而不是清单单个基因或蛋白质。

研究人员表示:这些子网可以识别不同种群患者之间的基因表达差异导致的不同临床行为。与传统的分析相比,虽然这种方法需要大量的生物信息学、统计学和蛋白结构知识,但这种子网分析能够解释基因表达差异下的分子通路,毕竟它使用的数据已经存在。

Ideker 博士和他的同伴生物信息学专家表示:对于大多数中度乳腺癌风险的患者,传统因素不是预测,大约 70 - 80% 的淋巴癌阴性患者在接受不必要的辅助化疗。当前的许多风险因素可能是次要表现而不是疾病的主要机制。一个新的挑战是如何确定新的与疾病更加直接相关的疾病,可以更准确地预测个体患者的风险转移。

影响四:预后的影响

研究人员最新调查证据支持基因网络分析可以提供预后信息。例如,加州大学圣迭戈分校(UCSD)的 Chang 博士和同事们在 2012 年的《血液》杂志发文:通过单克隆 B 细胞在血液中、骨髓、次级淋巴组织的集聚,采用基因网络分析并预测慢性淋巴细胞白血病(CLL)患者的特点。

具体地说,研究人员使用 subnetwork-based(子网络)基因表达分析概要文件区分组不同患者的慢性淋巴细胞白血病进展风险。 临床患者的慢性淋巴细胞白血病患者有很大的差异:有些病人无症状多年;有些患者则在被诊断后不久就出现较为严重的症状。

由于目前必须明确证据显示疾病进展或疾病相关的并发症,否则建议停止治疗,但标准疗法与显著的毒性有关,因此准确预测是至关重要的。目前已经有通过基因芯片检测的报告显示,替代标记物可作为慢性淋巴细胞白血病已知的预后因素,如 IGHV 突变状态。

预测子网的表达水平随着时间的推移而发生变化,但是在在之后的时间点表现出较强的相似性。大数据挖掘已经成为慢性淋巴细胞白血病患者等癌症的的治疗策略和潜在的观察途径。

 

查看信源地址

编辑: 陈静

版权声明

本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。