二元分类中评估指标与特征有何区别？

我很难在脑海中区分这两个概念。

我知道像BLEU这样的评估指标可以用来衡量给定输入与参考之间的质量（如在机器翻译中）。但这个分数是否可以用于将句子分类为两类？例如，某个评估指标得分高于0.50的句子会被标记为“是”，而低于0.50的则标记为“否”。

这是否也与机器学习算法中使用的特征有关？例如，短语“in the past”可能是数据的一个特征，然后可以用来将输入分类为具有此特征或不具有此特征。

回答：

看起来你完全没有理解这些基本概念的含义。

评估指标是一个函数，它根据模型/算法的答案和一些黄金标准（由专家提供的真实答案）来衡量你的模型/算法的表现如何。它与实际的分类过程无关（好吧，并非完全无关，因为它经常在交叉验证和调整模型参数时使用）。它不用于做出任何决策，而是一种量化你的结果有多好的方法。
特征只是数据的表示，因此它们与问题有关，显然，选择正确的特征（也称为特征工程）对模型的质量有很大影响。但“数据的一个可能特征，然后可以用来将输入分类为具有此特征或不具有此特征”这种说法相当没有意义。特征是某个函数的值，通常称为特征检测器，我们称之为f，它应用于你的输入对象x后返回某个值，例如数字，或0/1（没有/有）的某种现象的表示。例如，对于文本文档，这样的特征可能是“给定文本是否包含子字符串‘in the past’”，因此f("I like trains")=false (0)，而f("I liked trains in the past")=1 (true)。你不会训练分类器来检测特征，你使用一些简单（高效）的算法来提取它们以表示你的数据，然后用这些数据进行分类。一旦你有了f，就没有必要“将输入分类为具有此特征”，因为f做的正是这件事。当然，可以训练分类器来“填补”某些数据点上不可用的特征，但这是一个更高级的话题，似乎不在你的问题范围内。

我建议你观看Andrew Ng在Coursera平台上提供的关于机器学习的精彩介绍视频：https://class.coursera.org/ml/lecture/preview

学技术

二元分类中评估指标与特征有何区别？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复