编者按:
DNA是破解“生命之谜”的钥匙,在基因科技中,基因测序用来发现问题,基因编辑用来解决问题。
仅仅是基因测序,目前在数据从获取、存储、分析上也面临着挑战,利用云计算+AI,基因测序将在科研、医疗等方面展现出非凡的能量。
导语
1953年,第一个DNA分子双螺旋结构模型诞生;1990年,被称为生命科学“登月计划”的人类基因组计划正式启动。
人类在破解“生命之谜”的路上不断探索,期待着有一天能够解读自己的生命图纸,排在最前列的问题就是疾病的攻克。但是攻克疾病谈何容易,且不论后续的精准医疗和精准预防服务,仅仅是基因测序,目前也面临成本昂贵的问题。
基因检测需要庞大的数据库和算力支撑,以及深度学习算法来完成精准比对和预测,依托人工智能,基因检测在科研、医疗、消费级产品等领域会迸发更神奇的力量。
01
“万能”的基因测序
“一口唾沫,基因数据全掌握”,不少人都尝试过已经成为“网红”的消费基因检测产品。除了了解自己,基因检测能做的事情还有很多。
1. 发现新冠病毒变株
2020年12月14日,我国监测到首例境外变种新冠毒株,使用的测序平台是华大智造自主研发的高通量测序仪——MGISEQ-200。
新冠病毒的不断变异是当前全球面对的一大挑战,国际知名医疗期刊《柳叶刀》发表社论,强调高效识别病毒序列是控制疫情的重要环节,各国测序水平的差异影响的不止是本国疫情的控制,更是对全球疫情控制与监测的挑战。
对病原全基因组序列进行深度测序,找到病毒突变位点,辨明病毒身份,找到病毒来源,可以有效提升疫情防控能力。
2. 预测肿瘤
2017年开始,华大基因就与阿里云合作,用人工智能成功预测40例孕期肿瘤。
基因测序技术运用在精准预防,比精准医疗对人类的贡献还要大。基因测序可以使疾病早期就被发现,大大提高患者生存率。例如家族性乳腺癌,在美国死亡率降低了80%,就是得益于精准预防。其实中国的肿瘤发病率占世界的22%,并不比发达国家高,但是死亡率却占到世界死亡率27%。
肿瘤早筛向来被认为是拦截癌症的重要手段,然而在过去受技术所限,肿瘤早筛在国内难以得到普及。随着越来越多的靶向药物进入国家医保,而靶向用药必须做基因检测,肿瘤基因检测的需求也随之大幅增长。
3. 预测孕期糖尿病
中国每年约有1260万人备孕,1800万孕产妇,在这其中,孕期糖尿是最不起眼,最不受人重视,而又极度危险的敌人,严重病例可以引发胚胎死亡。
阿里云同吉林省妇幼保健院、青梧桐健康基因合作,推出的基于人工智能算法的基因检测技术,可用于妊娠糖尿病风险筛查,预测准确率达到了83%。
这套算法能根据孕妇的临床数据和基因数据,预测发病概率,可比传统方法提前12-6周进行干预,将发病率降低65%。
02
云计算+AI:基因测序的加速器
2016年,华大基因在阿里云计算平台部署的服务产品BGI Online国内beta版本正式上线,希望能够在2020年以前,用24小时完成一个人全基因组测序和分析。
2020年年初,BGI Online平台创下新的世界纪录:仅用15分钟,即可完成一个高精度的个人全基因组测序全流程。此前,科学界普遍需要120个小时才能完成类似流程,此次加速解码意味着人类向精准医疗迈出了重要一步。
1. 天然的大数据
基因组学数据是“天然”的大数据,人一生的基因数据的管理和存储数据量相当庞大;同时,所有的人工智能前提都是大量的数据训练,放在基因检测领域,大量数据训练的前提则是有大量数据产生。
通过阿里云平台,可以降低数据分析门槛、简化用户操作,让数据获取更加便捷。
简洁易用的界面和高度安全的特性,使医生和研究者们可以把管理数据、硬件维护等繁杂的工作交给BGI Online和阿里云,从而更专注于他们要解决的科学和临床问题。
这也意味着,对于科研院所、医疗机构及中小型基因行业创业公司来说,只要拥有基因数据,不必自建和维护昂贵而复杂的计算、存储平台,通过BGI Online便可以解码神秘基因背后的奥秘。全球最大的基因组学研发机构华大基因打开了基因行业这扇神秘大门,让基因行业变得“触手可及”。
2. 开启云上算力
由于人类全基因组检测数据达到近10G,以国内某机构每天产生的数据量300T至600T计算,如此规模的数据量对存储系统的容量提出了极高的要求。
从数据量来看,DNA测序每年能够产生大约150PB的数据,如果将这些数据存储在DVD中,刻录出来的DVD高度能够达到2.5英里。
从计算量来看,在对百万人的基因数据进行遗传结构分析时,需要把每一个人与剩余的所有人进行遗传距离计算,这个计算量是巨大的,计算复杂度已经远远超出了传统计算条件下硬件设备所能承受的能力范围。
借助阿里云MaxCompute,可以在几小时内就可以把一个人与十万人中所有遗传距离进行计算,计算成本大幅降低至1000美金以内,大大提高了计算效率。
3. 深度学习算法
我们每个人的基因组只有千分之一的差异,形成了每个人的多样性,但是偶尔也有一些小的突变,带来一些遗传病。
大多数疾病由多个位点控制。位点与位点之间有着复杂的关联,不同位点的变异组合可能会形成不同的疾病亚型。
在浩如烟海的DNA序列中,比对识别出发生突变的基因位点,单单依靠人力,很难理清疾病与位点的对应关系。
例如孕期糖尿病的液体活检不复杂,复杂的是用人工智能技术做某一病种的基因比对,并进行准确的预测。人工智能通过数据预测孕妇是否能得糖尿病,比较患病和健康的数据。
在多个疾病的(大数据运算)测试中,机器能够深度学习并掌握人眼观察图像、识别差异的能力,快速提高诊疗工作效率。
03
基因测序市场未来可期
中国是全球第一人口大国,在基因测序领域拥有巨大的市场,消费级市场火爆,在研究和医疗领域也屡有成绩。
但是也不能忽视,基因数据库样本量、基因组数据解读的精准度上的不足是基因测序需要解决的瓶颈问题。
如果基因测序是生命的天气预报,那人工智能就是天气预报的超级汽车引擎,云计算则是基因测序的高速公路,以前两天跑完的路程现在一小时就能跑完。
基因检测需要庞大的数据库和计算力支撑,人工智能的快速迭代可以让预测的准确度越来越高,云计算和人工智能是基因检测必然的未来。
结语
1990年,整个人类基因组首次被测序,耗资27亿。30年后的今天,得益于测序技术和云计算技术的成熟,一次全基因组测序的成本降到了数百美元。
数据、算力、算法,大大降低了人类解码未知世界的门槛,让解锁“生命之谜”的期待越来越近。
来源:阿里云、《中国报道》
编辑:阿里云研究中心 张楠
(转载)