使用Google搜索术语列表以构建特定类别的词袋

我很难理解构建词袋的过程。这将是一个多类别分类监督机器学习问题,其中一个网页或一段文本将被分配到多个预定义类别中的一个。现在,我熟悉的构建特定类别(例如,“数学”)词袋的方法是收集大量与数学相关的网页。从那里,我将进行一些数据处理(如删除停用词和执行TF-IDF)来获得“数学”类别的词袋。

问题:我正在考虑的另一种方法是通过Google搜索“与数学相关的术语列表”来构建我的词袋。我想问这种方法是否可行?

另一个问题:在这个问题的背景下,词袋和语料库是否意味着相同的东西?

提前感谢!


回答:

这不是词袋的定义。词袋是用来描述一种特定方式来表示给定文档的术语。具体来说,一个文档(段落、句子、网页)被表示为一种形式的映射:

word: 这个词在文档中出现的次数

例如,“John likes cats and likes dogs”将被表示为:{john: 1, likes: 2, cats: 1, and: 1, dogs: 1}。这种表示方式可以很容易地输入到典型的机器学习方法中(特别是如果假设总词汇是有限的,那么我们最终会得到数值向量)。

请注意,这不是关于“为一个类别创建词袋”。在典型的监督学习中,一个类别由多个文档组成,每个文档独立地被表示为词袋。

特别是,这使你最后提出的通过Google搜索与类别相关的词的提议无效——这不是典型的机器学习方法的工作方式。你会得到大量文档,将它们表示为词袋(或其他东西),然后进行统计分析(构建模型)来找出区分类别的最佳规则集。这些规则通常不会仅仅是“如果词X存在,这与Y相关”。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注