平行检索和MapReduce等技术,让Google等公司在大数据处理领域脱颖而出。不过我们使用的传统数据处理系统,在处理大数据时捉襟见肘。且看Apache协议下的开源框架Hadoop,加上德国科学家的努力,能否带来新的可能。
不只科研机构需要处理大量数据,企业也需要。传统数据库管理系统经常不能胜任,而大数据的检索缺少合适的软件。萨尔布吕肯(德国西南部边境城市)的计算机专家创造了一种方法,可以快速有效检索大量数据。
“大数据”指数量庞大的电子信息,规模大而且复杂,传统技术很难处理。欧洲核子研究组织(CERN)之类的科研机构,Google和Facebook等大企业,都会需要处理大数据来做战略决策。《纽约时报》去年的一篇文章,写到大数据分析的成功案例:美国Target(目标)公司通过分析一个女孩的消费行为,知道她怀孕了,那时她爸还不知道。
需要分析的数据,会分散放在网络上的若干服务器中,一些服务器同时收到检索词,平行检索。传统数据管理系统找不到全部实例,要么是不能处理大数据,要么是让用户很难用。因此数据分析专家喜欢Apache Hadoop框架下并使用HDFS文件系统的开源工具,这些工具不需要专业知识。“只要熟悉Java,就能做不少事”,德国萨尔州大学信息系统教授Jens Dittrich说。不过他也坦言,Hadoop处理大数据受限制,比不上专门为平行处理设计的数据系统。
Dittrich和同事为了解决这个问题,开发了“Hadoop强力索引库”,缩写为HAIL(冰雹),使得数据以特殊方式存储在HDFS文件系统上,检索可以加快100倍。研究人员使用的方法,你在电话簿里就能找到:联系人名字可以用姓氏来排列,这种排列就产生我们所说的索引。研究人员对若干服务器上的数据做索引,和电话簿索引不太一样的是,他们的索引是基于若干不同标准,单次索引,多次存储。“使用的标准越多,快速找到数据的可能性越大”Dittrich解释说,“仍然用电话簿的例子,如果你有6个电话簿,分别按名字、街道、邮编、城市、手机号排列,你就能依据多个标准检索,更快找到联系人。”除此之外,Dittrich和研究团队做索引时并不需要额外费用,他们合理安排索引过程,这样就不需要额外的计算时间和延迟,甚至储存空间都只需要很少。
研究人员将在汉诺威3月5日的德国汉诺威国际信息及通信技术博览会上展示他们的成果。