统计学、机器学习和数据挖掘

我目前正在学习数据挖掘,并且有以下几个问题。

  1. 机器学习和数据挖掘之间的关系是什么?
  2. 我发现许多数据挖掘技术与统计学有关,而我“听说”数据挖掘与机器学习有很多联系。所以我的问题是:机器学习与统计学密切相关吗?
  3. 如果它们不是密切相关的,是否有这样的划分,将专注于统计技术的数据挖掘和专注于机器学习技能的数据挖掘分开?因为我发现一些研究生院的统计学系开设了数据挖掘课程。

回答:

数据挖掘是从数据中提取有用信息的过程,例如模式、趋势、客户/用户行为、喜好/不喜欢等。这涉及到与人工智能和统计学相关的算法的使用。

维基百科对数据挖掘的定义是:

数据挖掘(数据库知识发现过程中的分析步骤,或称KDD),是一个相对年轻且跨学科的计算机科学领域,是从大型数据集中发现新模式的过程,涉及统计学和人工智能的方法,但也包括数据库管理。与例如机器学习不同的是,数据挖掘的重点在于发现以前未知的模式,而不是将已知模式推广到新数据上。

机器学习涉及让计算机“学习”行为、趋势等,并据此采取行动。例如,在信用卡欺诈中,计算机“学习”客户的行为,如果发生异常情况(例如涉及非常高的金额的交易等),它会标记该交易为潜在欺诈。

维基百科对机器学习的定义是:

机器学习,人工智能的一个分支,是一门科学学科,关注于设计和开发允许计算机基于经验数据(如来自传感器数据或数据库的数据)演化行为的算法。机器学习关注于开发允许机器通过基于观察代表统计现象不完整信息的数据进行归纳推理的算法。分类,也称为模式识别,是机器学习中的一项重要任务,通过该任务,机器“学习”自动识别复杂模式,根据它们的不同模式区分样本,并做出智能决策。

机器学习使用数据挖掘来学习模式、行为、趋势等,因为数据挖掘是从一组数据中提取这些信息的方式。数据挖掘和机器学习都使用统计学来做出决策。所以是的,统计学在数据挖掘和机器学习中都涉及且非常重要。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注