信息检索（IR）与数据挖掘与机器学习（ML）

人们经常提到IR、ML和数据挖掘这些术语，但我注意到它们之间有很多重叠之处。

对于在这些领域有经验的人来说，这些术语之间的界限究竟在哪里？

回答：

这只是一个人的观点（正式接受过ML培训）；其他人可能有完全不同的看法。

机器学习可能是这三个术语中最同质的，也是应用最一致的——它仅限于模式提取（或模式匹配）的算法本身。

在你提到的术语中，“机器学习”是学术部门用来描述其课程、学术部门和研究项目时最常用的术语，也是学术期刊和会议论文中最常用的术语。ML是你提到的术语中最不依赖于上下文的。

信息检索和数据挖掘更接近于描述完整的商业流程——即，从用户查询到相关结果的检索/交付。ML算法可能在该流程中的某个地方，并且在更复杂的应用中通常如此，但这不是正式要求。此外，术语数据挖掘似乎通常是指对大数据（即，> 2BG）应用某种流程，因此通常在该工作流程的前端包括一个分布式处理（map-reduce）组件。

因此，信息检索（IR）和数据挖掘（DM）与机器学习（ML）在一种基础设施-算法的方式上是相关的。换句话说，机器学习是解决信息检索问题的一种工具来源。但它只是一种工具来源。然而，IR并不依赖于ML——例如，一个特定的IR项目可能是存储和快速检索完全索引的数据，以响应用户的搜索查询IR，其核心是优化数据流的性能，即，从查询到将搜索结果交付给用户的往返。预测或模式匹配在这里可能没有用处。同样，一个DM项目可能使用ML算法作为预测引擎，但一个DM项目更可能关注整个处理流程——例如，用于高效输入巨大数据量（可能是TB）的并行计算技术，这些数据将一个初步结果传递给处理引擎，用于计算描述性统计（均值、标准差、分布等）在变量（列）上。

最后考虑一下Netflix Prize。这场比赛完全针对机器学习——重点是预测算法，正如单一成功标准所证明的那样：算法返回的预测的准确性。想象一下，如果“Netflix Prize”被重新命名为数据挖掘比赛。成功标准几乎肯定会扩展，以更准确地评估算法在实际商业环境中的表现——因此，例如，总体执行速度（推荐如何快速交付给用户）可能会与准确性一起被考虑。

“信息检索”和“数据挖掘”这两个术语现在已被主流使用，尽管有一段时间我只在我的工作描述或供应商文献中看到这些术语（通常在“解决方案”这个词旁边）。在我的雇主那里，我们最近聘请了一位“数据挖掘”分析师。我不知道他具体做什么，但他每天上班都打领带。

学技术

信息检索（IR）与数据挖掘与机器学习（ML）

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复