经济学与化学
在伊利诺伊大学香槟分校的计算机科学家Olgica Milenkovic和她的同事们已经开发了一个随机访问方法,同样确保了他们可以重新写入编码数据。他们的方法将存储数据为长的DNA字符串,在其两端都有地址序列。研究人员用这些地址进行选择、放大并使用PCR或基因编辑技术CRISPR–Cas9重写字符串。
地址必须避免妨碍阅读的序列,同时彼此也要有足够的不同,以防止他们在出现错误的时候被混淆,并避免如由于他们的序列包含延伸识别和绑定到对方(采取了加强计算)导致的分子折叠问题。Milenkovic说道“开始时,我们使用计算机搜索,因为真的很难想出拥有所有这些属性的东西” 她的团队现在已经用数学公式取代了这个劳动—密集的过程,使他们能够更快速地设计一种编码方案。
Kosuri说:“DNA数据存储的其他挑战是合成分子的规模和速度”他承认由于这个理由,他对该想法并不乐观。在哈佛大学的早期实验中,他回忆道“我们有700kb。即使是增加1000倍也才700兆,这是一个CD”真正在全球数据归档问题发挥作用意味着至少存储PB级的信息。“这并不是不可能的,”Kosuri说,“但人们必须意识到改进的规模是上百万倍。”
Markowitz同意这不是一件容易的事。“占主导地位的生产方法是一个将近30岁的化学过程,添加到每个碱基它需要400秒以上的时间。”如果这是仍然使用的方法,他补充说:“数十亿的不同字符串必须以并行方式编写,速度才足够快。同时生产的电流最大值是数以万计的字符串。”
另一个重要因素是合成DNA的成本。它占了EBI实验费用12660美元的98%,测序只占了2%——由于人类基因组计划在2003年完成,成本降低了二百万倍。尽管这是先例,Kosuri不相信经济也可以同样带动合成DNA的进展。他说道“你可以很容易地想象出安排70亿人的市场,但不可能建立70亿人的基因组”。他承认,成本方面的一些改善可能是由于人类基因组计划(HGP—write在六月由Church和其他人提出的一个项目)造成的。如果有资助的话,该计划将旨于合成一个完整的人类基因组:23个含有32亿个核苷酸的染色体对。但即使HGP—write成功了,Kosuri说,“人类基因组只包含0.75 GB的信息,在面临合成实际数据存储的挑战方面就会显得相形见绌。”
Zhirnov说道:“综合成本可以低于如今的水平数量级是件好事”;“为什么成本高,这并没有根本的原因。” 今年四月,微软的研究做出了一个早期的举措,它可能有助于创造必要的需求,即从Twist Biosciences(加州,旧金山的一家DNA合成启动公司)订货了1000万字符串。Strauss和她的同事们说,他们一直在使用的字符串推动他们的随机存取存储方法到0.2GB。细节还未公布,但据报道,该档案包括了100多种语言中的人权宣言,100大古滕贝格项目图书和种子数据库。虽然该合成挑战相比于HGP-write所面临要小, 但Strauss 强调了在存储容量跳跃250倍的意义。
她说:“是时候锻炼一下我们处理大量DNA的肌肉,将DNA其推到更大的范围,并看看这个过程会在哪里被打断,实际上它在很多个地方都中断了——而我们正在学习一个伟大的想法解决它。”
Goldman很有信心,这是一件令人享受的事情。“我们的估计是,我们需要100000倍的改进使这项技术成型,我们认为这是非常可信的,虽然过去的表现并不能保证,但每一年或每两年就有新的读取技术将投入生产。在基因组学中六个数量级不是什么大问题。你只是需要稍等一下。”
|