人们经常提到IR、ML和数据挖掘这些术语,但我注意到它们之间有很多重叠之处。
对于在这些领域有经验的人来说,这些术语之间的界限究竟在哪里?
回答:
这只是一个人的观点(正式接受过ML培训);其他人可能有完全不同的看法。
机器学习可能是这三个术语中最同质的,也是应用最一致的——它仅限于模式提取(或模式匹配)的算法本身。
在你提到的术语中,“机器学习”是学术部门用来描述其课程、学术部门和研究项目时最常用的术语,也是学术期刊和会议论文中最常用的术语。ML是你提到的术语中最不依赖于上下文的。
信息检索和数据挖掘更接近于描述完整的商业流程——即,从用户查询到相关结果的检索/交付。ML算法可能在该流程中的某个地方,并且在更复杂的应用中通常如此,但这不是正式要求。此外,术语数据挖掘似乎通常是指对大数据(即,> 2BG)应用某种流程,因此通常在该工作流程的前端包括一个分布式处理(map-reduce)组件。
因此,信息检索(IR)和数据挖掘(DM)与机器学习(ML)在一种基础设施-算法的方式上是相关的。换句话说,机器学习是解决信息检索问题的一种工具来源。但它只是一种工具来源。然而,IR并不依赖于ML——例如,一个特定的IR项目可能是存储和快速检索完全索引的数据,以响应用户的搜索查询IR,其核心是优化数据流的性能,即,从查询到将搜索结果交付给用户的往返。预测或模式匹配在这里可能没有用处。同样,一个DM项目可能使用ML算法作为预测引擎,但一个DM项目更可能关注整个处理流程——例如,用于高效输入巨大数据量(可能是TB)的并行计算技术,这些数据将一个初步结果传递给处理引擎,用于计算描述性统计(均值、标准差、分布等)在变量(列)上。
最后考虑一下Netflix Prize。这场比赛完全针对机器学习——重点是预测算法,正如单一成功标准所证明的那样:算法返回的预测的准确性。想象一下,如果“Netflix Prize”被重新命名为数据挖掘比赛。成功标准几乎肯定会扩展,以更准确地评估算法在实际商业环境中的表现——因此,例如,总体执行速度(推荐如何快速交付给用户)可能会与准确性一起被考虑。
“信息检索”和“数据挖掘”这两个术语现在已被主流使用,尽管有一段时间我只在我的工作描述或供应商文献中看到这些术语(通常在“解决方案”这个词旁边)。在我的雇主那里,我们最近聘请了一位“数据挖掘”分析师。我不知道他具体做什么,但他每天上班都打领带。