信息网格
网格计算模型的核心组件
信息网格是网格计算模型的核心组件。它使最终用户和应用程序可以获得对任何信息源的安全访问,不管它在什么地方。这种访问可以通过内部网、Internet、甚至在一个外部网(extranet)环境中的本地和分布式网络进行。信息网格提供了对异质文件、数据库和存储系统的访问,并且它支持共享数据以用于处理和大规模的协作。
名词解释
什么是信息?
信息现代定义。[2006年,医学信息(杂志),邓宇等].
信息是物质、能量、信息及其属性的标示。逆维纳信息定义
信息是确定性的增加。逆香农信息定义
信息是事物现象及其属性标识的集合。2002年
简介
Internet 在 20 世纪 90 年代初出现以来,IBM 一直积极地参与一种最新信息技术的市场开拓和培养,从而获得发展动力。这种新技术就是网格计算。IBM 将网格计算定义为在开放标准的支持下,通过异质资源的网络进行的分布式计算。虽然网格计算侧重于如何通过虚拟化技术作业调度负载平衡来优化 IT 基础设施,但还有另一个同等重要的组件:信息网格。
网格计算获得了越来越多的应用,问题开始改变了。虽然网格实现最初关注的可能是加快应用程序的处理时间,但是现在面临的是新的挑战 —— 在网格中移动数据。这些挑战是要保证可以容易地访问输入数据(如果有的话),并在将这些数据传输到分布式环境中的计算位置时不会产生网络带宽问题。
信息网格解决了以下难题:
由于以下原因产生的现有数据资源和资产的碎片:
异质环境。
未充分利用的计算和存储资源。
笨拙的数据访问和糟糕的集成。
数据安全和保护。
对分散型系统和资源的复杂管理。
IT 基础设施的高昂的总成本。
灵活和难于改变的系统。
信息网格解决了管理信息的问题,这些信息跨越异质硬件和软件资源,包括数据库、文件和存储设备。
信息挑战
分布式IT环境中的信息挑战
虽然对数据的考虑对于许多不同的环境都是有效的,但是分布式环境提出了独特的挑战。为了讨论对这些挑战的可能解决方案,我们要描述一个虚构的场景,并将重点放到如何用分布式环境中的数据和处理中心解决特定的问题。
下面就是这个场景:一个金融机构在地理位置上有分布在全球的分支机构。在洛杉矶办事处,财务顾问为本地客户的需要提供支持,并为每个本地客户档案创建和管理财务信息。信息是以文件和数据库格式维护的。
在纽约办事处有一个大型数据中心,在这里存储并处理 Standard & Poor 的历史数据。
在芝加哥有另一个大型数据中心,在这里存储和处理关于商品市场的信息。每一个地区的数据都是用存储区域网络(Storage Area Network)技术管理的。
在我们的场景中,一个财务顾问收到了她的客户的一个电话。为了解决客户的需要,这位顾问希望能够读取客户的财务档案的当前数据。她提交了一个作业(一个档案分析应用程序),这个作业发送到网格环境中运行。在这种情况下,这个作业被调度到在芝加哥地区执行,因为芝加哥的处理器的当前利用率要低于纽约。
在作业开始时,过程必须从洛杉矶地区获取本地客户数据。第一个 I/O 从文件系统中获取数据。第二个 I/O 获取在关系数据库中以表的形式管理的数据。
当作业从洛杉矶地区获取了它所需要的所有数据后,处理就在芝加哥地区继续进行。
我们现在遇到了计算中的一个常见问题:访问以不同格式存储的数据的需要。这是一个挑战出于好几个理由。应用程序必须执行多个 I/O 请求以获取数据,这种要求延缓了作业的执行。第二,构建和维护这种类型的应用程序 —— 如档案分析 —— 的程序员必须了解这些不同的格式,并且必须确定如何在它们的应用程序中将分散的数据结合到一起。
下一个问题 —— 数据资源利用 —— 源自混合多个厂商的不同存储和文件系统,这通常是由于公司合并和收购所产生的。管理员手工管理跨越这些不同的存储设备放置的数据成本是很高的。在许多情况下,当作业试图从这些设备获取数据时就会出现瓶颈。
第 3 个挑战:网络带宽
财务分析师的档案分析应用程序还需要处理在纽约地区管理的数据。不过,因为引用了大量数据,在芝加哥地区的处理会因为等待从纽约获取的数据而减慢。最后一个问题的发生是因为在纽约和芝加哥之间没有足够的网络带宽,不能满足传输由档案分析应用程序所要求的大量数据的传输需要。
挑战解决方案
对于我们的场景中展现的每一个挑战,信息网格都提供了解决方案,通常都通过结合其他的技术。
第1个挑战的解决方案
—— 访问以不同格式存储的数据
为了解决访问以不同格式存储的数据的挑战,信息网格支持对不同格式数据的虚拟访问。程序员只需要简化对以混合格式存储的数据(如多家厂商的关系数据库和无格式文件)的访问,以便用一个 SQL 指令访问这些数据类型。这种简化还减少了通过网络移动远程文件的需要。通过虚拟化,数据不需要传输到处理位置(例如,通过 FTP)。这种数据虚拟视图也称为对数据的联合(federated)访问,使数据看起来来自于同一种格式,即使数据是以混合的格式存储并且是分布式的。
第2个挑战的解决方案
—— 数据资源利用
为了解决糟糕的存储资源利用的问题,信息网格支持使用存储访问网络(Storage Access Network,SAN)技术。优化的解决方案包括 SAN 软件,它使系统管理员可以创建所有 SAN 存储设备的虚拟视图,使它们看来像是一个同质的集合。通常,客户安装了异质(多厂商)存储设备,每一家厂商的存储设备都有自己的管理控制台。因此,系统管理员很难高效地管理跨不同设备的数据放置,并保证数据平衡地装载到这些设备上。数据的非平衡分布使一些设备被过度使用,而另外一些设备未充分利用。这种不平衡的条件会在应用程序试图获取数据时导致瓶颈,并在处理数据时变慢。
信息网格支持虚拟化门户,它整合了所有 SAN 设备的视图。这个门户允许单个管理员看到数据装载到这些设备上的情况,并将数据从过度使用的设备上转移到未充分使用的设备上,同时不会干扰应用程序访问数据的方式。
类似地,异质文件系统的虚拟化可以帮助管理员管理复杂的 SAN 环境。为文件系统创建单一的名称空间可以帮助程序员和管理员更容易地找到并访问数据,因为他们不必再分别找出文件,并确定需要什么访问路径以引用这些数据。
SAN 环境中的其他考虑包括错误检测和数据弹性(resiliency)。重要的是在向应用程序提供正确数据的同时,数据仍然是受保护的和安全的。
第3个挑战的解决方案
为了解决必须跨网络移动大量数据以进行远程处理的问题,信息网格支持开发一种软件解决方案。这种解决方案应当将数据缓存到靠近分布式处理要发生的位置。理想的解决方案将包括全局命名、对一致的当前数据的安全广域访问,以及分布式数据访问(包括一个 POSIX/NFS 接口、访问控制和远程数据缓存)。
优化信息网格
一个优化的信息网格将实现前述的解决方案,因为它们解决了访问数据、管理异质文件和存储系统时会遇到的许多主要潜在问题,并消除了为远程处理提供数据的网络影响。这些解决方案将为信息网格中的分布式计算提供虚拟环境的最大优势。下面的两个选项显示了在前面讨论的档案分析场景中使用这些解决方案,并使档案分析应用程序支持网格计算的结果。
选项 1
在档案分析场景中,应用程序将运行得更有效,因为对数据的请求是通过一个关系表形式的 I/O 来满足的。异质数据源的虚拟化( 第 1 个解决方案)使单一 I/O 成为可能。作为输入访问并在芝加哥输出的数据也可以根据其他资源的可用性和需求分布到不同的存储资源上( 第 2 个解决方案)。同时,数据缓存在网络中。每次在事务引用洛杉矶的客户数据时,数据就会推送到网络缓存中,这样其他需要这些数据的应用程序就可以得到它们的本地副本( 第 3 个解决方案)。
选项 2
如果应用程序本身也支持网格,也就是说,如果应用程序的不同部分可以同时在不同的位置运行,那么这些解决方案可以更有效地运行。在选项 1 中,应用程序只是在芝加哥进行处理。网格使得应用程序可以支持并行处理,可以在芝加哥和纽约同时进行处理。由于数据是缓存在纽约的,支持网格的应用程序可以充分利用在企业中的所有可用的处理能力。我们现在可以将应用程序发送到这两个城市的数据中心运行,并在同一时刻引用同样的数据集。并行处理加快了应用程序的执行并将结果更快地交还给洛杉矶分支机构。
如果信息能够以虚拟方式进行管理和展示,企业将具有极大的灵活性,从而优化所有计算资产的利用。
参考资料
最新修订时间:2024-09-05 22:17
目录
概述
名词解释
简介
参考资料