信息检索(IR)与数据挖掘与机器学习(ML)

人们经常提到IR、ML和数据挖掘这些术语,但我注意到它们之间有很多重叠之处。

对于在这些领域有经验的人来说,这些术语之间的界限究竟在哪里?


回答:

这只是一个人的观点(正式接受过ML培训);其他人可能有完全不同的看法。

机器学习可能是这三个术语中最同质的,也是应用最一致的——它仅限于模式提取(或模式匹配)的算法本身。

在你提到的术语中,“机器学习”是学术部门用来描述其课程、学术部门和研究项目时最常用的术语,也是学术期刊和会议论文中最常用的术语。ML是你提到的术语中最不依赖于上下文的。

信息检索数据挖掘更接近于描述完整的商业流程——即,从用户查询到相关结果的检索/交付。ML算法可能在该流程中的某个地方,并且在更复杂的应用中通常如此,但这不是正式要求。此外,术语数据挖掘似乎通常是指对大数据(即,> 2BG)应用某种流程,因此通常在该工作流程的前端包括一个分布式处理(map-reduce)组件。

因此,信息检索(IR)和数据挖掘(DM)与机器学习(ML)在一种基础设施-算法的方式上是相关的。换句话说,机器学习是解决信息检索问题的一种工具来源。但它只是一种工具来源。然而,IR并不依赖于ML——例如,一个特定的IR项目可能是存储和快速检索完全索引的数据,以响应用户的搜索查询IR,其核心是优化数据流的性能,即,从查询到将搜索结果交付给用户的往返。预测或模式匹配在这里可能没有用处。同样,一个DM项目可能使用ML算法作为预测引擎,但一个DM项目更可能关注整个处理流程——例如,用于高效输入巨大数据量(可能是TB)的并行计算技术,这些数据将一个初步结果传递给处理引擎,用于计算描述性统计(均值、标准差、分布等)在变量(列)上。

最后考虑一下Netflix Prize。这场比赛完全针对机器学习——重点是预测算法,正如单一成功标准所证明的那样:算法返回的预测的准确性。想象一下,如果“Netflix Prize”被重新命名为数据挖掘比赛。成功标准几乎肯定会扩展,以更准确地评估算法在实际商业环境中的表现——因此,例如,总体执行速度(推荐如何快速交付给用户)可能会与准确性一起被考虑。

“信息检索”和“数据挖掘”这两个术语现在已被主流使用,尽管有一段时间我只在我的工作描述或供应商文献中看到这些术语(通常在“解决方案”这个词旁边)。在我的雇主那里,我们最近聘请了一位“数据挖掘”分析师。我不知道他具体做什么,但他每天上班都打领带。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注