一公斤大肠杆菌可以干什么?搞定全世界!

一公斤大肠杆菌可以干什么?搞定全世界!
2016年09月30日 15:10 筹码

万物皆数据。在数据爆炸的年代,以光、磁和闪存为核心的存储技术已经逼近极限,难以承载海量的数据。生物学家率先想到的DNA存储技术,为这个难题找到了一个『极富创意』的解决方案。

鉴于这部分内容的专业性较强,筹码君先用一张图给生物小白们扫一下盲:

 

DNA,又称脱氧核糖核酸,是一种可组成遗传指令的生物大分子,引导生物发育与生命机能运作,其主要功能是信息储存。

有遗传效应的DNA片段称作基因,是控制生物形状的基本遗传单位。

脱氧核苷酸,是脱氧核糖核酸(DNA)的基本组成单位,一个脱氧核糖核苷酸分子由三个分子组成:一分子含氮碱基、一分子脱氧核糖、一分子磷酸。

脱氧核苷酸由四种碱基——腺嘌呤 (adenine,缩写为A),胸腺嘧啶(thymine,缩写为T),胞嘧啶(cytosine,缩写为C)和鸟嘌呤(guanine,缩写为G)——排列而成,它们不同的排列顺序决定了生物的多样性。四种碱基组成了生命体所有的遗传信息。

1

『生物硬盘』应对爆炸的数据

DNA——普通人眼里只跟『人类遗传』有关系的生物元素,竟然可以用作电子数据的存储介质,这个想法最先来自于欧洲生物信息研究所(European Bioinformatics Institute, 以下简称EBI)的科学家Nick Goldman。

Nick Goldman

2011年2月16日,Nick大叔和他的一些圈内朋友在聚会时,纷纷吐槽存储海量基因组序列等数据时遇到的难题:传统存储技术花费贵、局限多,大家开始天马行空地想,有没有更『科幻』的方法可以替代呢?职业病的他们开玩笑说:『什么能阻止咱们用DNA存储信息?』原本玩笑的一句话,却犹如『灵光一现』,大家突然意识到这可能是个重大突破。

想法虽好,如何实现才是关键问题。

科学家们都明白,DNA存储与传统的储存介质相比有着明显的缺点:

速度慢:在读取和写入数据速度方面,DNA存储慢的可怜,硅存储可是以微秒计算的,而将数据写入至DNA,就是将硬盘信息中的二进制数翻译成根据不同的碱基特性开发的『定制代码』,然后借助标准的DNA合成机器制造出相应的碱基序列,这个过程通常需要几个小时的时间,比硅存储的速度慢了1000万倍。读取数据的时候,还需要使用测序机恢复数据,通常要花费更长的时间。

准确率低:DNA的合成和测序过程中,每100个核苷酸就可能出现一个错误,这会让大规模的数据存储毫无可信性。

缺点很明显,但是与传统存储介质相比,DNA存储也存在着无可比拟的优点:

容量巨大:DNA存储密度超越了硅6个数量级,能量消耗低10个数量级,我们仅仅需要极其微弱的能量,可以将海量的数据纳入到一个肉眼看不见的小细胞的DNA中。这听起来极为科幻。

保存时间长:人工合成DNA非常『长寿』,恶劣环境下半衰期最少有500年。与之相比,现有的存储技术就显得较弱了,例如磁带的保存时间是10至30年,硬盘的保存时间是3至5年。此外,DNA也不需要经常维护。在读取时,DNA存储技术亦不会涉及兼容问题。

目前,对于访问量很低的长期档案,大多还依靠传统的磁带方式存储,便宜,但是读取速度慢,IBM和SONY在2014年曾经发布了一款最新的磁带,每英寸可以存储148GB,一盒磁带大概相当于3700张蓝光DVD。容量虽大,但读取的方式却很缓慢,管理成本也异常巨大。曾有测算,如果一个数据中心拥有1 EB(10亿GB)的数据,全部存储在磁带上,建立和维护这样一个中心需要大量的10亿美元级别的投入和大量的电力资源。

storageTek的超大型磁带库

『分子数据存储具有把这些成本降低三个数量级的潜力』,IAPRA的计算机科学家David Markowitz表示,『如果信息能够像大肠杆菌基因一样紧密排列,那么存储全世界的数据只需要大约1千克的DNA。』

目前闪存芯片(SSD硬盘)的价格依然非常昂贵,产量爬升非常困难,而且,如果到2040年,所有的信息都使用闪存芯片,则可能出现严重的供求缺口,需求比预期供应商大10至100倍——数据的增长速度快于存储容量的增长。磁带、硅片存储已经不能适应数据的爆炸式增长,『生物硬盘』的研发是一个解决方案。

Nature网站预估的各种存储介质的数据对比

2

生物硬盘的进展与困难

Nick与同事Birney带着这样的想法做了两年实验,终于在2013年成功运用DNA对五份档案进行了编码,其中包括马丁·路德·金『我有一个梦想』演讲的MP3文件,一张欧洲分子生物学实验室的JPG格式照片,一篇开创性论文『核酸的分子结构』的PDF文档,一首莎士比亚十四行诗的TXT文件和一份编码的描述文件,存储容量达到739KB。虽然这个过程中,他们丢失了两个由25个碱基组成的DNA序列,但结果还是让Nick增强了信心:DNA可以是一个便宜又长期的数据存储库,只需要很少的电量就能发挥储存功能。

与此同时,各国研究机构开始备战生物硬盘。

来自美国哈佛大学威斯研究所的生物工程师和遗传学家George Church和Sriram Kosuri领导的团队也独立完成了DNA编码实验,合成了一个可存储96bit数据的DNA链。

欧洲生物信息研究所的团队凭借739KB的容量创造了当时DNA的最大存档纪录。

华盛顿大学的Luis Ceze和微软研究院的计算机科学家Karin Strauss随后在美国开始了研究,将欧洲生物信息研究所的数据编码密度提高了一倍,而且更可靠。

英国政府、IARPA(高级情报研究计划署,专注情报领域开发高风险的前沿科技的政府项目组)和全球最领先的半导体研究组织SRC(半导体研究公司)资助Nick与Birney继续推进生物硬盘技术。

随着研究的深入,科学家们发现需要考虑的问题也随之增多:

成本高:据Nick Goldman透露,在DNA中进行编码时,每MB的数据成本为1.24万美元,而读取成本则在220美元左右。

稳定性差:DNA容易受到外界因素或自身变化的影响,致使数据不稳定。细胞会死亡,会分裂、变异、复制和死亡,这回造成数据的变化和丢失。DNA作为遗传信息的载体,并不是以孤立的个体形式存在的,需要组蛋白的支撑,而基因的表达也少不了其他蛋白的参与。因此,DNA会很容易受到外界因素的影响,导致其受到各种物理、化学等形式的『损伤』。这意味着,DNA存储技术需要合适的生物环境的支持才能够正常运转。

3

充满前景的未来

任何新的科技在最初实验阶段总是会遇到各种各样的问题,但总归无法阻挡的是『生物硬盘』的发展趋势。众多科技大公司也开始投资并加入研发,用科技的力量推动『DNA硬盘』的研发。

2016年4 月,微软和华盛顿大学的研究团队成功地将4个图片文件的数据编码为人工合成DNA片段的核苷酸序列。更重要的是,他们能实现逆过程——从更大的DNA池中取回正确的核苷酸序列,重建图像,而且没有丢失1个字节的信息。随后不久,微软研究院宣布从加州旧金山的DNA合成初创企业Twist Bioscience 预订了100万条DNA序列。

2016年7月,微软宣布,已经利用DNA存储技术完成了约200MB数据的保存,其中包括《战争与和平》,以及99部经典文学作品。DNA存储技术正在以神速进步着。

DNA存储到底会带来怎样的变化?两个来自生物科学家的预估数据:

700TB的数据可以储存进1克DNA。

一个鞋盒那么大的DNA就足以保存100个大型数据中心的数据。

DNA存储技术为可预见的爆炸性数据增长提出了可行的解决方案。一旦克服了成本、安全性等问题,商业化投入使用,生物科技领域乃至整个社会都会出现巨变:

只要资金允许和计算能力允许,每一个企业都可以存储全人类的数据。对于数据的处理和挖掘能力,将决定企业成败。

云存储迎来崭新的机会和挑战,传统存储格局面临全行业改写。

解决了存储,也就部分解决了生物计算。生物科技逐步取代IT行业,引导社会进入下一个里程碑。

美股投资,看筹码,用SOGOTRADE:

「公司帝国」系列:

第一篇:永不复苏的私人部门

第二篇:400年前最震撼的创业

第三篇:来,炸66颗卫星给你看!

第四篇:投资苹果的七大经典大错误!

第五篇:公司帝国之太空战记

第六篇:第二代公司帝国操盘路径

「人工智能」系列:

第一篇:干掉人类的关键一步

第二篇:巴菲特的智能无人机推动立法了

第三篇:李彦宏背后的男人

第四篇:AI时代就业指南

第五篇:从教育到福利,AI正在对人类『釜底抽薪』

第六篇:AI时代,GPU是天网的神经元

「战争机器」系列:

第一篇:二战最后的政治遗产纠纷,即将见分晓

第二篇:地缘摩擦升级,跟美帝一起发战争财!

第三篇:拥有20枚核弹的朝鲜,并非亚洲唯一威胁

「美帝政治局」系列:

第一篇:美帝『政治局』人事变动,投资美股得懂政治了

第二篇:大选年,美国好企业都在找干爹

第三篇:在希拉里眼中,美帝群众都是肉鸡

第四篇:川普总统的建国大业

第五篇:以邻为壑,全球化终结?

第六篇:八一八老年王思聪的生意经

「石油的诅咒」系列

第一篇:石油星战三部曲

第二篇:石油的诅咒:即将废掉的巨龙

第三篇:俄罗斯必须死

「人物」系列

第一篇:能源大佬盖茨

「二战三宝」系列

第一篇:性感女神缔造的兄弟俩和万亿时代

第二篇:产业史:百事可乐CEO引发的移动革命

「货币」系列

第一篇:输给欲望与野心的地产泡沫

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部