如何对URL进行分类?URL的特征是什么?如何从URL中选择和提取特征?

我刚刚开始处理一个分类问题。这是一个二分类问题,我的训练模型(机器学习)需要决定/预测是允许一个URL还是阻止它。

我的问题非常具体。

  1. 如何对URL进行分类?我应该使用普通的文本分析方法吗?
  2. URL的特征是什么?
  3. 如何从URL中选择和提取特征?

回答:

我假设你无法访问URL的内容,因此你只能从URL字符串本身提取特征。否则,使用URL的内容会更有意义。

以下是我会尝试的一些特征。请参阅这篇论文以获取更多想法:

  1. URL的所有组成部分。例如,此页面具有以下URL:

    http://stackoverflow.com/questions/26456904/how-to-classify-urls-what-are-urls-features-how-to-select-and-extract-features

在URL的不同部分出现的所有标记对分类应该具有不同的价值。在这种情况下,标记化后的最后一部分为此页面提供了很好的特征。(例如,分类,URL,选择,提取,特征

 * stackoverflow * com * questions * 26456904 * 如何对URL进行分类URL的特征是什么如何从URL中选择和提取特征
  1. URL的长度;
  2. n-grams(以下以2-grams为例)
    • stackoverflow-com
    • com-questions
    • questions-26456904
    • 26456904-how
    • how-to
    • ….

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注