打破雅虎纪录——微软60秒处理1401GB数据

打破雅虎纪录——微软60秒处理1401GB数据

其他内容

 

Microsoft研究院近日打破了之前由Yahoo保持的数据整理速度记录。Microsoft研究院的9人小组成功在短短的60秒内完成了对1401GB的数据整理工作。他们的测试基于MinuteSort基准。MinuteSort是比较在一分钟内所排序的数据量大小。Microsoft采用了的一种新分布式计算系统(Flat Datacenter Storage)以加快数据处理。

打破雅虎纪录——微软60秒处理1401GB数据

值得一提的是Microsoft的系统使用了250台主机(1033块磁碟),而Yahoo之前创造纪录的系统则使用了1406台主机(5624块磁碟)。

Microsoft认为Flat Datacenter Storage可利用其技术优势帮助Bing提高性能,在未来Microsoft认为Flat Datacenter Storage可在机器学习领域有所作为。目前在大数据处理领域热门的处理技术显然是Hadoop和MapReduce,但现在看来,Microsoft的Flat Datacenter Storage技术则更加优越。(Terminator/编译)

详细测试结果

打破雅虎纪录——微软60秒处理1401GB数据

 

延伸阅读

MinuteSort是比较在一分钟内所排序的数据量大小,GraySort是比较在对大规模数据(至少100TB)进行排序时的排序速率(TBs/minute)。基准规则具体如下:●输入数据必须与数据生成器生成的数据完全匹配●任务开始的时候,输入数据不能在操作系统的文件缓存中●输入和输出数据都是没有经过压缩的●输出不能对输入进行重写●输出文件必须存放到磁盘上

●必须计算输入和输出数据的每个键/值对的CRC32,共128位校验和,当然,输入和输出必须对应相等

●输出如果分成多个输出文件,那么必须是完全有序的,也就是将这些输出文件连接以后必须是完全有序的输出

●开始和分布程序到集群上也要记入计算时间内

●任何抽样也要记入计算时间内

Yahoo的研究人员使用Hadoop排列1TB数据用时62秒,排列1PB数据用时16.25个小时。

文/csdn

SEE相关
[动图]实时感受CSS、HTML编译网站过程
据外媒报道,任何有过网站开发经验的
在Firefox浏览器中完美运行最新版Firefox OS系统
Mozilla目前正着手于Firefox OS系统的
新媒体受追捧 Mashable BI获新融资
大笔资金开始投向新媒体领域。Mashable
谷歌将开放云平台:欲破解自闭症遗传密码
12月10日消息,据国外媒体报道,过去15
量子计算机未来有望在人工智能领域发挥作用
大部分人都认为量子计算机是完全没有可
全新 iCloud 储存空间方案售价确定:1TB 每月138元
苹果终于确定了全新 iCloud 储存空间
随便SEE
微软云计算在不久的将来提供更优秀的个人医疗
屡获殊荣的弗吉尼亚理工大学的超级计算
超萌动物图片分享网站:Cutest Paw
如果你是一个喜欢小动物,猫之类的非人
json在线编辑器集合(国内篇)开发必备
json格式数据是我们做网站开发时候常用
[图]微软携手英国乐队The xx 打造全新音乐分享追踪网页
微软继上周宣布跟Atari公司合作推出大
Q+ Web发布新版:集成金山快盘与QQ网盘
腾讯Q+Web(http://web.qq.com/)继10
Pimp My Gun,在线组装各种枪械
  Pimp My Gun是一个非常有趣的在