Microsoft研究院近日打破了之前由Yahoo保持的数据整理速度记录。Microsoft研究院的9人小组成功在短短的60秒内完成了对1401GB的数据整理工作。他们的测试基于MinuteSort基准。MinuteSort是比较在一分钟内所排序的数据量大小。Microsoft采用了的一种新分布式计算系统(Flat Datacenter Storage)以加快数据处理。
值得一提的是Microsoft的系统使用了250台主机(1033块磁碟),而Yahoo之前创造纪录的系统则使用了1406台主机(5624块磁碟)。
Microsoft认为Flat Datacenter Storage可利用其技术优势帮助Bing提高性能,在未来Microsoft认为Flat Datacenter Storage可在机器学习领域有所作为。目前在大数据处理领域热门的处理技术显然是Hadoop和MapReduce,但现在看来,Microsoft的Flat Datacenter Storage技术则更加优越。(Terminator/编译)
详细测试结果
延伸阅读
MinuteSort是比较在一分钟内所排序的数据量大小,GraySort是比较在对大规模数据(至少100TB)进行排序时的排序速率(TBs/minute)。基准规则具体如下:●输入数据必须与数据生成器生成的数据完全匹配●任务开始的时候,输入数据不能在操作系统的文件缓存中●输入和输出数据都是没有经过压缩的●输出不能对输入进行重写●输出文件必须存放到磁盘上
●必须计算输入和输出数据的每个键/值对的CRC32,共128位校验和,当然,输入和输出必须对应相等 ●输出如果分成多个输出文件,那么必须是完全有序的,也就是将这些输出文件连接以后必须是完全有序的输出 ●开始和分布程序到集群上也要记入计算时间内 ●任何抽样也要记入计算时间内 Yahoo的研究人员使用Hadoop排列1TB数据用时62秒,排列1PB数据用时16.25个小时。 |
文/csdn