信息检索(IR)与数据挖掘与机器学习(ML)

人们经常提到IR、ML和数据挖掘这些术语,但我注意到它们之间有很多重叠之处。

对于在这些领域有经验的人来说,这些术语之间的界限究竟在哪里?


回答:

这只是一个人的观点(正式接受过ML培训);其他人可能有完全不同的看法。

机器学习可能是这三个术语中最同质的,也是应用最一致的——它仅限于模式提取(或模式匹配)的算法本身。

在你提到的术语中,“机器学习”是学术部门用来描述其课程、学术部门和研究项目时最常用的术语,也是学术期刊和会议论文中最常用的术语。ML是你提到的术语中最不依赖于上下文的。

信息检索数据挖掘更接近于描述完整的商业流程——即,从用户查询到相关结果的检索/交付。ML算法可能在该流程中的某个地方,并且在更复杂的应用中通常如此,但这不是正式要求。此外,术语数据挖掘似乎通常是指对大数据(即,> 2BG)应用某种流程,因此通常在该工作流程的前端包括一个分布式处理(map-reduce)组件。

因此,信息检索(IR)和数据挖掘(DM)与机器学习(ML)在一种基础设施-算法的方式上是相关的。换句话说,机器学习是解决信息检索问题的一种工具来源。但它只是一种工具来源。然而,IR并不依赖于ML——例如,一个特定的IR项目可能是存储和快速检索完全索引的数据,以响应用户的搜索查询IR,其核心是优化数据流的性能,即,从查询到将搜索结果交付给用户的往返。预测或模式匹配在这里可能没有用处。同样,一个DM项目可能使用ML算法作为预测引擎,但一个DM项目更可能关注整个处理流程——例如,用于高效输入巨大数据量(可能是TB)的并行计算技术,这些数据将一个初步结果传递给处理引擎,用于计算描述性统计(均值、标准差、分布等)在变量(列)上。

最后考虑一下Netflix Prize。这场比赛完全针对机器学习——重点是预测算法,正如单一成功标准所证明的那样:算法返回的预测的准确性。想象一下,如果“Netflix Prize”被重新命名为数据挖掘比赛。成功标准几乎肯定会扩展,以更准确地评估算法在实际商业环境中的表现——因此,例如,总体执行速度(推荐如何快速交付给用户)可能会与准确性一起被考虑。

“信息检索”和“数据挖掘”这两个术语现在已被主流使用,尽管有一段时间我只在我的工作描述或供应商文献中看到这些术语(通常在“解决方案”这个词旁边)。在我的雇主那里,我们最近聘请了一位“数据挖掘”分析师。我不知道他具体做什么,但他每天上班都打领带。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注