新闻详情页

平行检索和MapReduce等技术，让Google等公司在大数据处理领域脱颖而出。不过我们使用的传统数据处理系统，在处理大数据时捉襟见肘。且看Apache协议下的开源框架Hadoop，加上德国科学家的努力，能否带来新的可能。

不只科研机构需要处理大量数据，企业也需要。传统数据库管理系统经常不能胜任，而大数据的检索缺少合适的软件。萨尔布吕肯（德国西南部边境城市）的计算机专家创造了一种方法，可以快速有效检索大量数据。

“大数据”指数量庞大的电子信息，规模大而且复杂，传统技术很难处理。欧洲核子研究组织（CERN）之类的科研机构，Google和Facebook等大企业，都会需要处理大数据来做战略决策。《纽约时报》去年的一篇文章，写到大数据分析的成功案例：美国Target（目标）公司通过分析一个女孩的消费行为，知道她怀孕了，那时她爸还不知道。

需要分析的数据，会分散放在网络上的若干服务器中，一些服务器同时收到检索词，平行检索。传统数据管理系统找不到全部实例，要么是不能处理大数据，要么是让用户很难用。因此数据分析专家喜欢Apache Hadoop框架下并使用HDFS文件系统的开源工具，这些工具不需要专业知识。“只要熟悉Java，就能做不少事”，德国萨尔州大学信息系统教授Jens Dittrich说。不过他也坦言，Hadoop处理大数据受限制，比不上专门为平行处理设计的数据系统。

Dittrich和同事为了解决这个问题，开发了“Hadoop强力索引库”，缩写为HAIL（冰雹），使得数据以特殊方式存储在HDFS文件系统上，检索可以加快100倍。研究人员使用的方法，你在电话簿里就能找到：联系人名字可以用姓氏来排列，这种排列就产生我们所说的索引。研究人员对若干服务器上的数据做索引，和电话簿索引不太一样的是，他们的索引是基于若干不同标准，单次索引，多次存储。“使用的标准越多，快速找到数据的可能性越大”Dittrich解释说，“仍然用电话簿的例子，如果你有6个电话簿，分别按名字、街道、邮编、城市、手机号排列，你就能依据多个标准检索，更快找到联系人。”除此之外，Dittrich和研究团队做索引时并不需要额外费用，他们合理安排索引过程，这样就不需要额外的计算时间和延迟，甚至储存空间都只需要很少。

研究人员将在汉诺威3月5日的德国汉诺威国际信息及通信技术博览会上展示他们的成果。

Python

大数据：快速有效地检索大量数据