今年三月份,针对生物科学DNA领域,世界搜索巨头Google公司终于推出它的第一款产品Google Genomics(谷歌基因组)。
相较于Google研究的高大上的月球探测器项目,Google Genomics可能对人类有更重大的意义。从现在的配对数千组基因组,随着技术的发展未来能做到配对数百万对,Google Genomics计划无疑能推动下一个十年内医学的发展。但是我们的问题又来了,亚马逊、Google、IBM、微软,巨头们开始争论,究竟谁有资格保管这些重要的基因信息?
其实早在18个月前,Google已经着手在准备基因组计划,搭建了应用程序接口API,邀请领域内的科学家们将DNA数据转移到Google的服务器,使用相同的数据库技术索引备份人类的基因数据。
Google Genomics的软件工程师和前任Google+的平台工程师David Glazer说,“那些杰出的生物学家们借助Google的这项技术,从先前只能做到一次研究一对基因组,到现在可以使用海量的数据库资源,是数据库技术的突破创新让人类的生物研究迈出了坚实的一步。”
虽然说有部分科学家们仍在质疑,Google是否有足够的能力来正确处理复杂的基因数据。但是许多人已经看到了进步和变革。斯坦福大学生物信息学专家Atul Butte,在得知Google Genomics计划之后,他这样表示,“我终于能切实体会,当年旅行社看到Expedia横空出世时的感受了。”(小编注,Expedia是全球最大的在线旅游公司)
当生物实验室采取新的更快的实验设备来解码DNA信息,就会出现信息存储空间不足、信息爆炸的情况。举个例子说明,美国马萨诸塞州Broad Institute研究所表示,一组人类基因组信息翻译出来的数据大小有200TB,而他们实验室在10月份的工作量相当于每32分钟就会处理出一组基因组数据,所以需要的数据容量存储空间对于一家研究所来说,将是个天文数字。
虽然说如此海量的信息,一家实验室可能hold不住。但是这对于互联网巨头公司来说还算是九牛一毛。实际上Broad Institute每两个月产生的基因信息总量相当于YouTube的全体用户的一天上传总量。所以说出于生物科学的需求,需要有公司站出来担当基因信息数据存储读取的中心节点,而这通常都是一家商业网站。美国国家癌症中心上周发表声明说,将会斥资1900万美元将容量大小为2.6PB(1PB=1024^3MB)的癌症基因组图谱上传到云端。这些资料来自于数千名癌症患者,数据将会备份在Google Genomics和亚马逊数据中心。
西雅图系统生物学研究室的科学家Sheila Reynolds表示,“在之前,没有人有能力处理1PB那么多的海量信息,更不用说实验运算了”。项目的初衷是为了建造“癌症基因组云数据库”,让全世界的科学家们能够像使用搜索引擎那样,方便快捷的共享基因信息,进行虚拟的生物实验。
Google和亚马逊两个巨头公司耗费了一年的时间,争夺云端的基因资源。Google表示他们收取的价格更为低廉,只需要花费25美元/年,就可以存储一个独立自然人的原始基因组信息,大约为100GB大小。但是经过计算处理后的基因序列更加迷你,将会少于1GB,上传存储到云端的费用也更少,仅仅只需要0.25美分/年。
基因的云存储也滋生了一些新生代公司,例如Tute Genomics,,Seven Bridges和NextCode Health,他们的主要工作是为医院和科学家门搭建搜索基因数据的浏览器。Seven Bridges公司在亚马逊云存储中上传了1600名研究人员的基因信息,CEO Deniz Kural表示,“Google和亚马逊都是强大的后端,他们经常会说,‘来我们的云上建一个基因公司吧’。”
更为重要的一点意义是,这项技术的进步能够逐渐搭建起全球DNA互联网。Deniz Kural补充说明道,“在未来比如说有位肺癌病人,医生会将他的健康细胞和肿瘤细胞的基因组信息分别排序,在DNA互联网中检索其他几千万的基因信息。接着医生会告诉病人,‘通过检索配对得出,这款药物对你的癌症很有疗效’。”这对于治愈癌症是有着重大的意义的。
因为基因正在从小规模朝着“批量生产”的工厂化的方向转变。David Glazer说自己通过阅读遗传学相关书籍,参加由Broad Institute的领导人Eric Lander教授的网络课程Introduction to Biology,来学习丰富该领域内的知识。此外值得一提的是,Glazer也把自己的基因组信息上传到了云端。
Glazer虽然没有说明Google Genomics现在的具体规模和拥有的用户数量,但是至少能肯定的是,Google云端现在存储着来自公共项目的3500个基因组信息。并且Google Genomics与Google自家的健康领域公司,比如说今年开办的研究延长人类寿命的Calico公司,两者并没有太大的联系和利益关系。
斯坦福大学最大的遗传学计算机组的负责人Somalee Datta说,现在在云端存储基因的成本降低了,亚马逊和Google的价格差不多是相同的,“我们认为价格还会持续走低,最后将会趋于平民化,让所有人都能接受。”
Datta同样表示,斯坦福大学的一些科学家们正在使用Google的一款数据库,BigQuery。它的最初用途是为了追踪用户的浏览行为,现在研究者正在努力改进,让数据库能够迅速处理大量的实验数据,在短时间内配对成百上千的基因组。Datta说,“有时候人们喜欢去做些超前的事情,但是需要强大的数据库的支撑。Google基因库为研究者们带来了海量的基因信息,所以这是解决新问题的最佳手段。”(张小马,雷锋网报道)
200字以内,仅用于支线交流,主线讨论请采用回复功能。