我们能否在不进行分类的前提下选择特征?如果我有一段文本,我怎样知道应该选择哪些特征?我需要关于文本的例子,而不是现实世界的对象例子。如果有人能解释一下,请告知?
回答:
文本分类是根据文本的特征对其进行分类。例如,你可能会将一个句子分类为具有积极情感(“我很开心”)或消极情感(“我很伤心”)。
文本特征选择有效地决定了你希望如何对文本进行编码,以便通过分类器运行。有很多方法可以做到这一点。例如,你可以使用词袋表示法,其中每一列代表词汇表中的一个词,每个单元格代表该词在文档中出现的次数。
如果你有两个句子,“我很开心,非常开心”和“我很伤心”,你对这些句子的编码可能会是
| 我 || 是 | 很 | 开心 | 非常 | 伤心 |
-
-
-
-
-
-
0.
-
-
-
-
-
-
-
-
-
-
1.
-
-
-
-