基因地理工程是使用尖端的DB2 数据库在从成百上千个
志愿者身上采集到的
DNA 样本中寻找演变迁移规律的、历时五年耗资4000万美元在全世界
土著居民中收集十万个DNA样本而最终创建世界上最大的基因样本数据库的庞大研究计划或研究项目。
核心目标
从今天返回人类物种起源、追踪人类根源,并希望由此绘制出人类种族历史的
图谱。
虽然每个人的DNA 指纹是独一无二的,但是我们的DNA 中有一些被称作“
遗传标记(genetic marker)” 的部分,它们一代接一代原封不动地遗传下来,很少有
突变。基因地理工程项目重点研究两种遗传物质中的标记:一种是
线粒体DNA,由母亲传给孩子;另一种是Y 染色体,由父亲传给儿子。科学家正在使用先进的数据挖掘技术和算法来跟踪世界各地人体中的这些遗传标记,以便创建一棵 “
家族树”,从而跟踪人类的完整历史。
研究课题
我们是谁?
我们来自何方?我们从哪里来?
我们怎么来到这里的?
大多数科学家都同意,人类很可能是在50,000 年前始于
非洲的。然而对于第二个问题,回答就远没有那么肯定了。最初在中心位置的数千人,是如何发展成遍布全球的65 亿人的?
IBM的
科学家和
工程师正在与
国家地理学会(National Geographic Society)合作,探索这些基本问题的答案。
合作伙伴
“最伟大的历史书就藏在我们的DNA 当中”,项目带头人Spencer Wells 博士如是说。
在项目早期,国家地理学会的科学家就意识到,他们需要一个技术伙伴。在他们的科学家和核心参与小组的建议下,国家地理学会找到了IBM。
研究人员最初只是期望IBM为项目的技术性挑战提供解决方案。然而,当两个小组之间举行了几次会议之后,大家发现除了用于项目的硬件和软件之外,IBM 还可以做出远远超出预期的贡献。“在这个项目中,IBM 是真正的合作伙伴而不仅仅是一个赞助商,” 国家地理的项目主任Alex Moen 解释道。“他们在项目的每一个方面都有人参与,包括科学方面。”
实际上,Ajay Royyuru博士和他在IBM 生物计算中心(纽约约克镇T. J. Watson 研究中心的一部分)的小组正在帮忙创建使整个项目可行的算法和分析技术。“诚然,对于一家公司研究机构中的科学家,不应该每天都要求他们参与一个寻求跟踪数万年前人类迁移模式的项目,”Royyuru说道。“幸运的是,这家公司在巨大的挑战面前没有退缩,所以我们才得以抓住这难得的机遇。”
面临问题
虽然基因地理工程本身是一项独一无二的任务,但该项目的
IT小组所面临的问题与各地的系统设计人员面临的问题是类似的:即保证敏感数据的安全,建立标准,在数据库性能与灵活性之间取得平衡,以及处理巨大的工作负载。
远程安全性
住在地球最偏远地区的当地人特别值得注意,因为他们的遗传与其他人群是相互隔离的。为了获得这些重要的样本,野外研究人员已经完成了对老挝、乍得和俄罗斯的考察,并正在计划更多的旅行。
然而,与偏远地区的隔离人群打交道需要面临一些特有的安全方面的挑战。研究人员需要在荒芜地带仍可维持的移动计算电力,还需要在小偷猖獗或者对遗传信息有严格法律保护的地区能保护成员隐私的健壮的基础设施。
为了满足这些需求,由 11 名首席调查员带领的野外研究人员小组装备了强大的IBM ThinkPad 手提电脑,这些手提电脑使用生物鉴定扫描器来验证用户的身份。这些ThinkPad 配有定制的数据采集应用程序DB2 UDB Personal Edition V8,以及用于存储和传输采集到的数据的WebSphere 软件,此外还有用于与同伴协作的wiki 和IM 软件。为提高安全性,存储在科学家手提电脑中的所有敏感数据都经过加密。
IT小组还采取特殊的预防措施,确保科学研究不受黑客的攻击。在进入野外之前,研究人员为即将到来的考察预订一批预先生成的ID 号码,即GPID。由于每个ID 都与特定的考察和首席调查员相关联,因此任何人都不可能通过猜测GPID 将虚假数据输入到系统中。
在野外,研究人员为每个参与者分配一个GPID,并使用一个特别设计的应用程序记录表格化数据;即每个人的语言、种族、地点、身体特征等。
完成初始的数据采集之后,当记录还处在草稿模式下时,科学家可以在ThinkPad 上的DB2 数据库中更正数据错误和拼写错误。一旦记录被保存为提交模式,它们会通过一个
虚拟专用网(VPN)被自动传输到一个本地数据分析库(DAR)中。之后,本地数据又被传输到华盛顿的中央 DAR,这个项目的所有科学家可以在那里访问这些数据。
位于澳大利亚、巴西、中国、法国、印度、黎巴嫩、俄罗斯、南非、西班牙和美国的十个地区实验室对 DNA 进行提取和排序。样本保留在地区实验室,而结果则通过 VPN 被安全地传输到 DAR。
IBM 将中央 DAR 构建在运行基于Linux 的DB2 实例和WebSphere MQ 的
刀片服务器上。目前,DAR 有一万亿字节的存储空间,但是小组计划在年前增加更多的存储。“由于安全性的考虑,我们把[基因地理工程系统]构建得就像银行系统,” IBM 杰出工程师、IT 基础设施设计小组带头人Peter Rodriguez 解释道。每条记录都保存为一个事务,系统使用多阶段提交,以便在传输过程中发生意外时,科学家可以在本地恢复他们的数据。
标准自由度
除了解决安全性方面的挑战外,IBM 小组还必须解决做研究的科学家们独特的要求。“最大的一个挑战就是建立尚不存在的标准,同时满足已存在的标准,” Rodriguez 说道。
每个科学家都有做事的独门方法,他们都希望在记录数据时拥有很大的灵活性。例如,科学家只想要格式自由的字段,而不是为他们的条目预设的列表。由于他们可能遇到之前不认识的语言和种族,因此需要能够创建新的条目。
然而,从信息管理的角度来看,所有这些格式自由的数据都可能带来问题。拼写上的细微差别都可能使最终的数据分析毫无意义。
作为妥协,Rodriguez 和他的小组为数据采集软件设置了预定义的列表,但是也允许科学家创建格式自由的条目。“自由度对于科学家来说非常重要,” Rodriguez 笑道。“即使他们不用,我们也要确保他们有这个自由度。”不过,为了鼓励科学家使用预定义的列表,当科学家输入一两个字母之后,电子表格就会自动填充字段中剩下的部分。
灵活性与性能的较量
这个项目的另一个关键挑战在于DAR 数据库的设计。“在每一个信息管理场景中,都存在性能与灵活性之间的剧烈冲突,” Rodriguez 说道,“我们通过使用两个不同的数据库来解决这个问题,如果算上备份,实际上是四个数据库。”
主DB2 UDB for Linux 数据库包含Rodriguez 所说的 “神圣的财宝”:整个项目的主记录。为了取得最大的灵活性,表被设计成可以针对一个地方更改数据模型,而不会影响其他地方的数据。例如,在印度的研究人员可能想记录关于种姓的数据,但是那些信息对于在澳大利亚工作的研究人员来说毫无意义。主数据库接受用于印度记录的种姓数据,但是不为澳大利亚的参与者添加该字段。
不幸的是,以这种方式存储的数据具有异构性,当科学家分析数据时,性能要受到影响。由于这个原因,小组只使用主数据库来存储信息,绝不对它进行分析。为了便于分析,小组使用WebSphere MQ 来填充另一个DB2 数据库,即GenoSci,这个数据库执行查询非常快。
公众参与
除了对本土人的研究外,基因地理工程还从大众当中采集DNA。只需支付大约100 美元,任何人都可以从基因地理工程网站(见参考资料)购买一个参与工具包。在执行完一次无痛的面颊擦洗之后,再将完成的工具包发回基因地理工程。德克萨斯州休斯顿的Family Tree DNA 将处理这些工具包,然后将加了条形码编码的样本发送到
亚利桑那大学进行提取和排序。结果被送回Family Tree,后者对数据进行编码,并将其传送到DAR。
公众参与者可以跟踪他们样本的处理进度,并通过在Genographic 网站输入他们的GPID 查看分析结果。结果并没有提供典型的基因地理信息,例如个人的出身或种族关系。相反,它识别每个人的类群(具有相同遗传标记的一群人),并从60,000 年前开始迁出非洲的我们共同的祖先开始,粗略地描绘类群的迁移。
“在这里,您有机会成为实时发生的研究项目的参与者,” 国家地理学会的Moen 说道。“如果公众参与者继续在网站上查看他们的GPID,那么他们可能看到结果更加精确了。”
虽然国家地理学会没有向公众真正开放参与工具包的市场,但热情的响应还是势不可挡。“最初,我们计划五年期间卖出100,000 个公共参与工具包,” Moen 报告说,“但我们到第一年就卖出超过100,000 个参与工具包。” 幸运的是,小组已经能够扩大工具包的生产和处理,以满足需求。
迄今为止,大约有来自125 个国家的160,000 人购买了工具包,其中大约有140,000 人返回了他们的工具包。通过野外研究人员的齐心协力,还有上万个其他样本也被收集到。
这个项目 “使人们的眼睛突然一亮,” Rodriguez 总结到。“我们都是同一个家族的成员。它拉近了人们之间的距离。”
人类的足迹
60,000 年前,当人类第一次走出非洲时,他们留下的遗传足迹至今可见。将现代人体中遗传标记的出现和频率画出来,就可以弄清楚古人何时出现迁移,移到了什么地方。
200,000 年前
人类的开端:“1924 年,
南方古猿(Australopithecus)” 的发现受到了欢呼,因为它是猿和人类之间缺失的环节,因其种类中最著名的成员露西而闻名于世。
60,000 年前
亚当:“
亚当” 是世上每个男人共同的男性祖先。大约60,000 年前他居住在非洲,这意味着至少那时所有人都还住在非洲。
50,000 年前
撒哈拉之门:在气候发生变化的古代某个时期,“撒哈拉之门” 可能使人类能够走出非洲,随后又关闭起来。
40,000 年前
猛犸猎人:40,000年前,当人类向北移居到西伯利亚大草原时,他们可能是在追随最大的食物源——成群迁移的
猛犸。
30,000 年前
克鲁马努人:克鲁马努人——
欧洲最先出现的
现代人,留下了相当先进的用
石头、
骨头和
象牙做成的
工具。
20,000 年前
冰川时代:由于海平面比当前低300 英尺,为人类的迁移创造了条件。