打破雅虎纪录——微软60秒处理1401GB数据

 

Microsoft研究院近日打破了之前由Yahoo保持的数据整理速度记录。Microsoft研究院的9人小组成功在短短的60秒内完成了对1401GB的数据整理工作。他们的测试基于MinuteSort基准。MinuteSort是比较在一分钟内所排序的数据量大小。Microsoft采用了的一种新分布式计算系统(Flat Datacenter Storage)以加快数据处理。

打破雅虎纪录——微软60秒处理1401GB数据

值得一提的是Microsoft的系统使用了250台主机(1033块磁碟),而Yahoo之前创造纪录的系统则使用了1406台主机(5624块磁碟)。

Microsoft认为Flat Datacenter Storage可利用其技术优势帮助Bing提高性能,在未来Microsoft认为Flat Datacenter Storage可在机器学习领域有所作为。目前在大数据处理领域热门的处理技术显然是Hadoop和MapReduce,但现在看来,Microsoft的Flat Datacenter Storage技术则更加优越。(Terminator/编译)

详细测试结果

打破雅虎纪录——微软60秒处理1401GB数据

 

延伸阅读

MinuteSort是比较在一分钟内所排序的数据量大小,GraySort是比较在对大规模数据(至少100TB)进行排序时的排序速率(TBs/minute)。基准规则具体如下:●输入数据必须与数据生成器生成的数据完全匹配●任务开始的时候,输入数据不能在操作系统的文件缓存中●输入和输出数据都是没有经过压缩的●输出不能对输入进行重写●输出文件必须存放到磁盘上

●必须计算输入和输出数据的每个键/值对的CRC32,共128位校验和,当然,输入和输出必须对应相等

●输出如果分成多个输出文件,那么必须是完全有序的,也就是将这些输出文件连接以后必须是完全有序的输出

●开始和分布程序到集群上也要记入计算时间内

●任何抽样也要记入计算时间内

Yahoo的研究人员使用Hadoop排列1TB数据用时62秒,排列1PB数据用时16.25个小时。

文/csdn

分享:
最近更新
©2011-2014 云时代_YunSD.Net THEMES DESIGN YUNSD.NET 苏ICP备14002919号-1