生物计算
计算机科学术语
生物计算是指利用生物系统固有的信息处理机理而研究开发的一种新的计算模式。生物计算研究包括器件和系统两个方面。利用有机(或生物)材料在分子尺度内构成的有序体系、提供通过分子层次上的物理化学过程信息检测、处理、传输和存储的基本单元。称为分子器件。生物计算系统的结构和计算原理不同于传统的计算系统,它的结构一般是并行分布式的。信息存储往往是短时记忆和长时记忆的结合,是通过学习完成的。它的计算则表现为复杂的动态过程,不仅存在精确的时间同步,甚至要求在分维时间尺度上才能描述。
定义
生物计算是指以生物大分子作为“数据”的计算模型,主要分为3种类型:蛋白质计算、RNA计算和DNA计算,或指计算机科学和计算机工程的子领域,使用生物工程和生物学建造计算机,但是类似于生物信息学,这是一个跨学科的科学,使用计算机存储和处理生物数据。蛋白质计算模型的研究始于20世纪80年代中期,Conrad首先提出用蛋白质作为计算器件的生物计算模型。1995年,Birge发现细菌视紫红质蛋白分子具有良好的“二态性”,拟设计、制造一种蛋白质计算机。进而,Birge的同事,Syracuse大学的其他研究人员应用原型蛋白质制备出一种光电器件,它存贮信息的能力比电子计算机的存贮器高 300倍,这种器件含细菌视紫红质蛋白, 利用激光束进行信息写入和读取。该蛋白质计算模型均是利用蛋白质的二态性来研制模拟图灵机意义下的计算模型,应属于纳米计算机“家族”的一员。不同于蛋白质计算,RNA 计算与 DNA计算是利用生化反应,更确切地讲,是以核酸分子间的特异性杂交为机理的计算模型。由于RNA分子不仅在实验操作上没DNA 分子容易,而且在分子结构上也不如DNA 分子处理信息方便,故对 RNA 计算的研究相对较少,蛋白质计算与RNA计算少有进展,但DNA计算发展很快。
DNA计算与DNA计算机
DNA计算是一种以 DNA 分子与相关的生物酶等作为基本材料,以生化反应作为信息处理基本过程的一种计算模式。DNA计算模型首先由Adleman 博士于 1994 年提出,它的最大优点是充分利用了 DNA 分子具有大量存储的能力,以及生化反应的大量并行性。因而,以 DNA 计算模型为基础而产生的 DNA 计算机,必有大量的存储能力及惊人的运行速度。DNA计算机模型克服了电子计算机存储量小与运算速度慢这两个严重的不足,具有如下4个优点:
DNA 计算的每项突破性进展,必将给人类社会的发展带来不可估量的贡献。第一,DNA 计算机的研究在国防领域具有极为重要的意义。由于 DNA 计算的巨大并行性所导致的惊人速度,使得密码系统对于 DNA计算机而言已经失去意义。这就意味着,哪个国家在 DNA计算机的研制中首先取得成功,这个国家在军事信息领域必将占据领先地位;第二,DNA 计算机的研制对理论科学的研究具有无法估量的意义,特别是针对数学、运筹学与计算机科学。这是因为,在理论研究中,许许多多的困难问题在DNA计算机的面前可能显得非常简单,如著名数学家Erdös认为人类要解决 Ramsey 数 R(5,5)、R(6,6)是非常困难的。然而,若用 DNA 计算机,该问题将会很容易得到解决;第三,DNA 计算机必将极大地促使非线性科学、信息科学、生命科学等的飞速发展,进而推动诸如图像处理、雷达信号处理等巨大的发展;蛋白质优化结构的更深层认识乃至第二遗传密码的解决、天气预报更准确乃至整个气象科学的巨大发展等;也必将促使诸如量子科学、纳米科学等的巨大发展。
DNA 计算是以 DNA 分子作为信息处理的“数据”,相应的生物酶或生化操作作为信息处理“工具”的一种新型计算模型。基于DNA计算模型研制的 DNA 计算机,与电子计算机在硬件、原理等方面均不相同。DNA 计算模型的一般原理图,可简要地通过图1所示的框图来描述:输入的是DNA 片断和一些生物酶以及所需要的试剂等,然后通过可控的生化反应,输出的是 DNA 片断,这些DNA片断就是所需问题的解。一般用DNA计算模型求解步骤如下:
DNA 计算机的研究可分为两大方面:
(1)用于纳米机器人的研制。这方面的主要工作是充分利用DNA分子之间的特异性杂交开展的自组装技术。其研究成果重点应用于诸如疾病诊断治疗的自动化问题、癌细胞的消除等。如在 2004 年,以色列科学家在理论与实验上均证明了:DNA 计算机是进行疾病诊断治疗的新有力手段;
(2)用于信息处理的计算机研制。主要研究快速实用化的、至少在某些方面超越电子计算机的新型计算机。
生物信息学
生物信息学研究生物信息的采集、处理、存储、传布、分析和解释等各个方面,它通过综合数学、计算机科学与工程和生物学的工具与技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。它作为一个交叉学科领域而荟萃了数学、统计学、计算机科学和分子生物学的科学家,目标就是要发展和利用先进的计算技术解决生物学难题。这里所说的计算技术至少包括机器学习(machine learning)、模式识别(pattern recognition)、知识重现(knowledge representation)、数据库、组合学(combinatorics)、随机模型(stochastic modeling)、字符串和图形算法、语言学方法、机器人学(robotics)、局限条件下的最适推演(constraint satisfaction)和并行计算等。而生物学方面的研究对象覆盖了分子结构、基因组学、分子序列分析、进化和种系发生、代谢途径、调节网络等诸多方面。生物信息学也可以定义为对分子生物学中两类信息流的研究:
第一类信息流源于分子生物学的中心法则:DNA序列被转录为mRNA序列,后者被翻译为蛋白质序列。蛋白质序列继而折叠为具功能的三维结构。按照达尔文演化理论,这些功能被生物体的环境所选择,从而驱动群体中DNA序列的进化。因此,第一类的生物信息学应用关注于中心法则中任一阶段的信息传递,包括DNA序列中基因的组织与控制、确定DNA中的转录单位、从序列预测蛋白质结构以及分子功能分析。
第二类信息流是基于科学方法:提出关于生物学活动的假设,设计实验以验证这些假设,评估结果与假设的兼容性,然后根据实验数据对原假设作扩展或修正。第二类的生物信息学应用关注于这流程中的信息传递,包括产生假设、设计实验、通过数据库将实验结果组织起来、检验数据与模型的兼容性以及修正假设的各个系统。
2022年2月,百度计算生物研究登上Nature子刊:将3D结构引入分子表征,结果超越斯坦福MIT,已落地制药领域
系统结构
并行计算 
并行计算或称平行计算是相对于串行计算来说的。并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程。为执行并行计算,计算资源应包括一台配有多处理机(并行处理)的计算机、一个与网络相连的计算机专有编号,或者两者结合使用。并行计算的主要目的是快速解决大型且复杂的计算问题。
并行计算可以划分成时间并行和空间并行。时间并行即流水线技术,空间并行使用多个处理器执行并发计算,当前研究的主要是空间的并行问题。以程序和算法设计人员的角度看,并行计算又可分为数据并行和任务并行。数据并行把大的任务化解成若干个相同的子任务,处理起来比任务并行简单。
空间上的并行导致两类并行机的产生,按照Michael Flynn(费林分类法)的说法分为单指令流多数据流(SIMD)和多指令流多数据流(MIMD),而常用的串行机也称为单指令流单数据流(SISD)。MIMD类的机器又可分为常见的五类:并行向量处理机(PVP)、对称多处理机(SMP)、大规模并行处理机(MPP)、工作站机群(COW)、分布式共享存储处理机(DSM)。
分布式计算
分布式计算这个研究领域,主要研究分散系统(Distributed system)如何进行计算。分散系统是一组计算机,通过计算机网络相互链接与通信后形成的系统。把需要进行大量计算的工程数据分区成小块,由多台计算机分别计算,在上传运算结果后,将结果统一合并得出数据结论的科学。
常见的分布式计算项目通常使用世界各地上千万志愿者计算机的闲置计算能力,通过互联网进行数据传输。如分析计算蛋白质的内部结构和相关药物项目,该项目结构庞大,需要惊人的计算量,由一台电脑计算是不可能完成的。即使有了计算能力超强的超级电脑,但是一些科研机构的经费却又十分有限。
分布式计算比起其它算法具有以下几个优点:
1、稀有资源可以共享。
2、通过分布式计算可以在多台计算机上平衡计算负载。
3、可以把程序放在最适合运行它的计算机上。其中,共享稀有资源和平衡负载是计算机分布式计算的核心思想之一。
最新修订时间:2022-08-25 16:33
目录
概述
定义
参考资料