Hadoop vs Mahout 和机器学习问题?

我在研究使用mahout进行数据科学和机器学习开发时,发现了hadoop,这让我感到困惑:

  1. hadoopmahout之间的关系是什么?
  2. 对于数据科学和机器学习方面,最好从哪里开始?

回答:

Hadoop 是一个基于分布式存储和分布式处理概念的框架,用于处理大数据。它有一个称为 Hadoop 分布式文件系统(HDFS)的分布式存储层和一个称为 MapReduce 的分布式处理层。Hadoop 的设计使得它可以在普通硬件上运行。Hadoop 是用 Java 编写的。

Mahout 是 Hadoop 生态系统中的一员,包含了各种机器学习算法的实现。Mahout 利用 Hadoop 的并行处理能力进行处理,使得最终用户可以轻松地在大数据集上使用这些算法。用户可以直接重用这些算法,或者进行一些定制,但无需过多担心算法的 MapReduce 实现的复杂性。

对于数据科学和机器学习方面,你应该学习算法的使用和细节。然后你可以专注于 Mahout。由于 Mahout 在分布式模式下的作业是 MapReduce 作业,你应该学习 Hadoop 的基础知识和 MapReduce 编程。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注