我是机器学习和自然语言处理的新手。
我一直对这三个术语感到困惑?
根据我的理解:
类:模型输出的各种类别。例如,给定一个人的名字,识别他是男性还是女性?
假设我使用的是朴素贝叶斯分类器。
我的特征和参数会是什么?
此外,上述词语的别名有哪些通常可以互换使用?
回答:
我们以分类人的性别为例来说明。您对类的理解是正确的!给定一个输入观测,朴素贝叶斯分类器应该输出一个类别。这个类别就是类。
特征:在朴素贝叶斯分类器或任何一般的机器学习分类算法中,特征是我们选择来定义输入的数据点。以一个人为例,我们不可能输入关于一个人的所有数据点;相反,我们选择几个特征来定义一个人(比如“身高”、“体重”和“脚大小”)。特别是在朴素贝叶斯分类器中,我们做出的关键假设是这些特征是独立的(它们互不影响):一个人的身高不影响体重,体重不影响脚大小。这个假设可能对也可能不对,但对于朴素贝叶斯,我们假设这是真的。在您的例子中,输入只是名字的情况下,特征可能是字母频率、元音数量、名字长度或后缀/前缀。
参数:在朴素贝叶斯中,参数是对我们试图分类的真实分布的估计。例如,我们可以说大约50%的人是男性,男性身高的分布是一个均值为5英尺7英寸,标准差为3英寸的高斯分布。参数将是50%的估计,5英尺7英寸的均值估计,以及3英寸的标准差估计。
别名:特征也被称为属性。我不知道有任何常见的替代‘参数’的词语。