我很难在脑海中区分这两个概念。
我知道像BLEU这样的评估指标可以用来衡量给定输入与参考之间的质量(如在机器翻译中)。但这个分数是否可以用于将句子分类为两类?例如,某个评估指标得分高于0.50的句子会被标记为“是”,而低于0.50的则标记为“否”。
这是否也与机器学习算法中使用的特征有关?例如,短语“in the past”可能是数据的一个特征,然后可以用来将输入分类为具有此特征或不具有此特征。
回答:
看起来你完全没有理解这些基本概念的含义。
- 评估指标是一个函数,它根据模型/算法的答案和一些黄金标准(由专家提供的真实答案)来衡量你的模型/算法的表现如何。它与实际的分类过程无关(好吧,并非完全无关,因为它经常在交叉验证和调整模型参数时使用)。它不用于做出任何决策,而是一种量化你的结果有多好的方法。
- 特征只是数据的表示,因此它们与问题有关,显然,选择正确的特征(也称为特征工程)对模型的质量有很大影响。但“数据的一个可能特征,然后可以用来将输入分类为具有此特征或不具有此特征”这种说法相当没有意义。特征是某个函数的值,通常称为特征检测器,我们称之为
f
,它应用于你的输入对象x
后返回某个值,例如数字,或0/1(没有/有)的某种现象的表示。例如,对于文本文档,这样的特征可能是“给定文本是否包含子字符串‘in the past’”,因此f("I like trains")=false (0)
,而f("I liked trains in the past")=1 (true)
。你不会训练分类器来检测特征,你使用一些简单(高效)的算法来提取它们以表示你的数据,然后用这些数据进行分类。一旦你有了f
,就没有必要“将输入分类为具有此特征”,因为f
做的正是这件事。当然,可以训练分类器来“填补”某些数据点上不可用的特征,但这是一个更高级的话题,似乎不在你的问题范围内。
我建议你观看Andrew Ng在Coursera平台上提供的关于机器学习的精彩介绍视频:https://class.coursera.org/ml/lecture/preview