我想具体了解一下MapR是否像Mahout一样有Kmeans聚类功能?
回答:
据我所知,MapR只是一个“更快”的Hadoop。它不包含任何算法。
所以你的作业应该是兼容的。
但是,为什么不自己实现呢?K-means算法非常简单。请看我的博客文章:http://codingwiththomas.blogspot.com/2011/05/k-means-clustering-with-mapreduce.html
然而,我已经使用BSP(批量同步并行)和Apache Hama实现了一个k-means聚类算法,其速度几乎是Mahout基准测试结果的十倍,相关书籍链接如下:http://www.manning.com/ingersoll/(相关JIRA链接:https://issues.apache.org/jira/browse/MAHOUT-588)。Apache Hama的k-means基准测试在这里:http://wiki.apache.org/hama/Benchmarks