二元分类中评估指标与特征有何区别?

我很难在脑海中区分这两个概念。

我知道像BLEU这样的评估指标可以用来衡量给定输入与参考之间的质量(如在机器翻译中)。但这个分数是否可以用于将句子分类为两类?例如,某个评估指标得分高于0.50的句子会被标记为“是”,而低于0.50的则标记为“否”。

这是否也与机器学习算法中使用的特征有关?例如,短语“in the past”可能是数据的一个特征,然后可以用来将输入分类为具有此特征或不具有此特征。


回答:

看起来你完全没有理解这些基本概念的含义。

  • 评估指标是一个函数,它根据模型/算法的答案和一些黄金标准(由专家提供的真实答案)来衡量你的模型/算法的表现如何。它与实际的分类过程无关(好吧,并非完全无关,因为它经常在交叉验证和调整模型参数时使用)。它用于做出任何决策,而是一种量化你的结果有多好的方法。
  • 特征只是数据的表示,因此它们与问题有关,显然,选择正确的特征(也称为特征工程)对模型的质量有很大影响。但“数据的一个可能特征,然后可以用来将输入分类为具有此特征或不具有此特征”这种说法相当没有意义。特征是某个函数的值,通常称为特征检测器,我们称之为f,它应用于你的输入对象x后返回某个值,例如数字,或0/1(没有/有)的某种现象的表示。例如,对于文本文档,这样的特征可能是“给定文本是否包含子字符串‘in the past’”,因此f("I like trains")=false (0),而f("I liked trains in the past")=1 (true)。你不会训练分类器来检测特征,你使用一些简单(高效)的算法来提取它们以表示你的数据,然后用这些数据进行分类。一旦你有了f,就没有必要“将输入分类为具有此特征”,因为f做的正是这件事。当然,可以训练分类器来“填补”某些数据点上不可用的特征,但这是一个更高级的话题,似乎不在你的问题范围内。

我建议你观看Andrew Ng在Coursera平台上提供的关于机器学习的精彩介绍视频:https://class.coursera.org/ml/lecture/preview

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注